Qwen2-VL-7B 是开源视觉语言模型,擅长看图理解/OCR/视觉问答(注意:是”理解图像”,不是生成图)。
Qwen2-VL-7B
API+本地 开源 可商用
阿里通义千问 · Qwen2.5 · Apache-2.0 · 7B · 上下文 128K
能做什么
图像理解OCR识别
01基础参数
- 参数规模
- 7B
- 上下文窗口
- 128K
- 输入模态
- text / vision
- 可生成
- text
- 模型系列
- Qwen2.5
- 开源许可
- Apache-2.0
- 主要语言
- zh
02推荐部署方案
推荐 Q4_K_M ollama
03部署门槛详情
硬件等级 中端 16-24G · 最低显存 12GB
看图理解视觉问答OCR
04Benchmark 评测
待补充