CosyVoice 是阿里巴巴开源的语音合成(TTS)模型,支持多语言、多说话人、约 3 秒声音克隆,Apache-2.0 许可(可商用)。
CosyVoice
仅本地 开源 可商用
阿里通义千问 · CosyVoice · Apache-2.0 · ~0.5B · 上下文 —
能做什么
语音合成(TTS)配音有声书声音克隆
01基础参数
- 参数规模
- ~0.5B
- 上下文窗口
- —
- 输入模态
- text
- 可生成
- audio
- 模型系列
- CosyVoice
- 开源许可
- Apache-2.0
- 主要语言
- —
02推荐部署方案
推荐 — Python
03部署门槛详情
硬件等级 消费级 8-12G
语音合成配音
04Benchmark 评测
待补充
05适用场景
✓ 适用
高质量TTS、多说话人配音、声音克隆、有声内容
✗ 不适用
超低延迟实时流式(用专门流式模型)