Whisper-Large-v3 是 OpenAI 开源的多语言语音识别(ASR)模型,支持 99 语种,转录精度高。配合 whisper.cpp 可在 CPU 消费级硬件上流畅运行。
Whisper-Large-v3
仅本地 开源 可商用
OpenAI · Whisper · MIT · 1.5B(1550M) · 上下文 30秒/段
能做什么
语音转文字(ASR)会议转录字幕生成多语言识别
01基础参数
- 参数规模
- 1.5B(1550M)
- 上下文窗口
- 30秒/段
- 输入模态
- audio
- 可生成
- text
- 模型系列
- Whisper
- 开源许可
- MIT
- 主要语言
- —
02推荐部署方案
推荐 — whisper.cpp
03部署门槛详情
硬件等级 消费级 8-12G
语音识别转录字幕
04Benchmark 评测
待补充
05适用场景
✓ 适用
语音转文字、会议/播客转录、多语言字幕
✗ 不适用
实时低延迟(用faster-whisper)、生成任务