大模型导航 · 本地部署知识库

CosyVoice

仅本地开源可商用

阿里通义千问 · CosyVoice · Apache-2.0 · ~0.5B · 上下文 —

能做什么

语音合成(TTS)配音有声书声音克隆

部署门槛

消费级 8-12G

API 价格

—

输入/标准档 · 全站比价 →

上下文

—

token 窗口

参数

~0.5B

CosyVoice

01基础参数

参数规模: ~0.5B
上下文窗口: —
输入模态: text
可生成: audio
模型系列: CosyVoice
开源许可: Apache-2.0
主要语言: —

02推荐部署方案

推荐 — Python

03部署门槛详情

硬件等级消费级 8-12G

语音合成配音

04Benchmark 评测

待补充

05适用场景

✓ 适用

高质量TTS、多说话人配音、声音克隆、有声内容

✗ 不适用

超低延迟实时流式(用专门流式模型)

06详细介绍

CosyVoice 是阿里巴巴开源的语音合成（TTS）模型，支持多语言、多说话人、约 3 秒声音克隆，Apache-2.0 许可（可商用）。

07官方资源

官网 ↗ API 文档 ↗ 控制台 ↗ HuggingFace ↗ GitHub ↗

08同类模型

8B · 消费级 8-12G

Whisper-Large-v3

1.5B(1550M) · 消费级 8-12G

1B · CPU 可跑