通义千问 Qwen3-VL 上新:4B & 8B 稠密模型
阿里通义 qwen 团队近日正式推出了 qwen3-vl 系列的新成员 —— 4b 与 8b 参数规模的视觉语言模型。该系列于上月首次发布,是目前 qwen 系列中性能最强的多模态模型。


此次更新新增了 4B 和 8B 两种尺寸,每种均提供 Instruct 与 Thinking 两个版本,满足不同应用场景的需求。
本次发布的模型达成了三大核心目标:
- 更低的部署门槛:通过减小模型体积,大幅降低了显存(VRAM)占用,使得更多开发者能够在普通硬件设备上高效运行和部署模型。
- 功能完整保留:尽管参数量减少,但仍全面继承了 Qwen3-VL 的所有关键能力,包括图像理解、图文生成、OCR识别、视频分析及智能Agent任务等。
- 出色的性能表现:在多项权威评测中,新模型在 STEM、视觉问答(VQA)、文字识别(OCR)、视频理解和智能体任务等方面表现优异,不仅超越 Gemini 2.5 Flash Lite 和 GPT-5 Nano,更在多个指标上接近甚至媲美半年前发布的旗舰级模型 Qwen2.5-VL-72B。


模型下载地址:https://www.php.cn/link/5242ef6f489fc9c35ba357927f91a59f
源码获取链接:点击下载
<< 上一篇
网友留言(0 条)