您现在的位置是:首页 > 编程 > 

AI女友养成记 CosyVoice vs MiniCPM

2025-07-22 23:44:12
AI女友养成记 CosyVoice vs MiniCPM 本期准备了模型,素材,语音文件以及长文本的纯人声配音测试,表现稳定,配音迅速,可对比chatTTS的批量文本配音,支持调节语速,s实现极速语音复制,测试了长文本的小说配音,语速均匀,不会出现语速不符,目前还没有语气助词的配音,可以结合TTS实现,可支持ollama实现实时语音对话。CosyVoice 是什么?CosyVoice

AI女友养成记 CosyVoice vs MiniCPM

本期准备了模型,素材,语音文件以及长文本的纯人声配音测试,表现稳定,配音迅速,可对比chatTTS的批量文本配音,支持调节语速,s实现极速语音复制,测试了长文本的小说配音,语速均匀,不会出现语速不符,目前还没有语气助词的配音,可以结合TTS实现,可支持ollama实现实时语音对话。

CosyVoice 是什么?

CosyVoice 是阿里巴巴通义实验室推出的一款开源语音生成大模型,专注于语音合成技术。它通过先进的技术架构,能够将文本内容转化为高度自然、拟人化的语音输出。其最新版本 CosyVoice 2.0 在发音准确性、音一致性、韵律自然度等方面都有显著提升,并支持多语言和跨语言语音合成。

CosyVoice 的应用场景

智能助手和聊天机器人:为智能助手提供自然流畅的语音输出,提升用户体验。

有声读物和音频内容制作:生成高质量的有声读物、音频书籍,支持多种语言和方言。

视频配音和解说:为教育视频、企业宣传片、电影和电视剧等提供配音服务。

智能客服和呼叫中心:在客户服务中提供语音交互,提高服务效率和客户满意度。

教育和语言学习:辅助语言学习,提供标准发音示范,帮助学习者提高发音准确性。

娱乐和内容创作:用于制作名人模仿秀、动画配音等,为观众带来全新的视听体验。

如何实现实时对话?

CosyVoice 2.0 支持流式推理,能够实现实时语音合成,适合需要即时响应的场景。以下是实现实时对话的关键技术:

流式推理:CosyVoice 2.0 提出了离线和流式一体化建模方案,支持双向流式语音合成,首包合成延迟低至150ms。

低延迟设计:通过分块感知因果流匹配模型(C-Aware Causal Flow Matching Model),模型能够在保证高质量语音输出的同时,快速响应用户输入。

多语言和情感控制:支持多语言输入和情感指令控制,用户可以实时调整语音的情感、语气和风格。

如何部署和使用?

不建议使用整合包,下载全量模型版本,支持语速调节

视频版本

文字版本

  1. 下载项目
  2. 本地下载链接:
  3. git 安装
代码语言:javascript代码运行次数:0运行复制
git clone --recursive .git
# If you failed to clone submodule due to network failures, please run following command until success
cd CosyVoice
git submodule update --init --recursive

2.环境配置

代码语言:javascript代码运行次数:0运行复制
conda create -n cosyvoice -y python=.10
conda activate cosyvoice
# pynini is required by WeTextProcessing, use conda to install it as it can be executed on all platform.
conda install -y -c conda-forge pynini==2.1.5
pip install -r  -i / --trusted-host=mirrors.aliyun

下载模型

代码语言:javascript代码运行次数:0运行复制
# SDK模型下载
from modelscope import snapshot_download
snapshot_download('iic/CosyVoice2-0.5B', local_dir='pretrained_models/CosyVoice2-0.5B')
snapshot_download('iic/CosyVoice-00M', local_dir='pretrained_models/CosyVoice-00M')
snapshot_download('iic/CosyVoice-00M-25Hz', local_dir='pretrained_models/CosyVoice-00M-25Hz')
snapshot_download('iic/CosyVoice-00M-SFT', local_dir='pretrained_models/CosyVoice-00M-SFT')
snapshot_download('iic/CosyVoice-00M-Instruct', local_dir='pretrained_models/CosyVoice-00M-Instruct')
snapshot_download('iic/CosyVoice-ttsfrd', local_dir='pretrained_models/CosyVoice-ttsfrd')
代码语言:javascript代码运行次数:0运行复制
cd pretrained_models/CosyVoice-ttsfrd/
unzip resource.zip -d .
pip install ttsfrd_dependency-0.1-py-none-any.whl
pip install ttsfrd-0.4.2-cp10-cp10-linux_x86_64.whl
代码语言:javascript代码运行次数:0运行复制

启动

代码语言:javascript代码运行次数:0运行复制
python webui.py

成功截图

测试

本文参与 腾讯云自媒体同步曝光计划,分享自。原始发表:2025-01-19,如有侵权请联系 cloudcommunity@tencent 删除模型视频语音语音合成测试

#感谢您对电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格的认可,转载请说明来源于"电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格

本文地址:http://www.dnpztj.cn/biancheng/1163397.html

相关标签:无
上传时间: 2025-07-20 22:20:02
留言与评论(共有 7 条评论)
本站网友 西安专科学院
30分钟前 发表
智能客服和呼叫中心:在客户服务中提供语音交互
本站网友 97日b
20分钟前 发表
素材
本站网友 楚天都市花园
12分钟前 发表
韵律自然度等方面都有显著提升
本站网友 印度种姓
26分钟前 发表
提高服务效率和客户满意度
本站网友 轻伤害鉴定标准
28分钟前 发表
企业宣传片
本站网友 山水文园
20分钟前 发表
拟人化的语音输出