模型

Whisper-Large-v3

仅本地 开源 可商用
OpenAI · Whisper · MIT · 1.5B(1550M) · 上下文 30秒/段
能做什么
语音转文字(ASR)会议转录字幕生成多语言识别
部署门槛
消费级 8-12G
上下文
30秒/段
token 窗口
参数
1.5B(1550M)
Whisper

01基础参数

参数规模
1.5B(1550M)
上下文窗口
30秒/段
输入模态
audio
可生成
text
模型系列
Whisper
开源许可
MIT
主要语言

02推荐部署方案

推荐 whisper.cpp

03部署门槛详情

硬件等级 消费级 8-12G
语音识别转录字幕

04Benchmark 评测

待补充

05适用场景

✓ 适用
语音转文字、会议/播客转录、多语言字幕
✗ 不适用
实时低延迟(用faster-whisper)、生成任务

06详细介绍

Whisper-Large-v3 是 OpenAI 开源的多语言语音识别(ASR)模型,支持 99 语种,转录精度高。配合 whisper.cpp 可在 CPU 消费级硬件上流畅运行。

07官方资源

08同类模型