模型

CosyVoice

仅本地 开源 可商用
阿里通义千问 · CosyVoice · Apache-2.0 · ~0.5B · 上下文 —
能做什么
语音合成(TTS)配音有声书声音克隆
部署门槛
消费级 8-12G
上下文
token 窗口
参数
~0.5B
CosyVoice

01基础参数

参数规模
~0.5B
上下文窗口
输入模态
text
可生成
audio
模型系列
CosyVoice
开源许可
Apache-2.0
主要语言

02推荐部署方案

推荐 Python

03部署门槛详情

硬件等级 消费级 8-12G
语音合成配音

04Benchmark 评测

待补充

05适用场景

✓ 适用
高质量TTS、多说话人配音、声音克隆、有声内容
✗ 不适用
超低延迟实时流式(用专门流式模型)

06详细介绍

CosyVoice 是阿里巴巴开源的语音合成(TTS)模型,支持多语言、多说话人、约 3 秒声音克隆,Apache-2.0 许可(可商用)。

07官方资源

08同类模型