超过通义72B的开源视觉模型
- 量子位
- 2024-12-06 17:45:00
超过通义72B的开源视觉模型竞技场第一开源视觉模型
开源视觉模型又双叒易主了!
继Mistral推出Pixtral Large模型不到一个月,Pixtral Large超过了Qwen-VL-72B,成为大模型竞技场第一的开源视觉模型。
换句话说,只有Gemini、GPT和Claude这种非开源模型,才与Pixtral Large有一战之力。
有小伙伴可能对Pixtral Large不熟悉,它是一个1240亿参数的视觉模型。
Pixtral Large在文档分析、图表理解、OCR等任务上表现突出,能同时处理多达128张高分辨率图像,并支持最长相当于300页文档的上下文。
开源视觉模型又双叒易主了!
继Mistral推出Pixtral Large模型不到一个月,Pixtral Large超过了Qwen-VL-72B,成为大模型竞技场第一的开源视觉模型。
换句话说,只有Gemini、GPT和Claude这种非开源模型,才与Pixtral Large有一战之力。
有小伙伴可能对Pixtral Large不熟悉,它是一个1240亿参数的视觉模型。
Pixtral Large在文档分析、图表理解、OCR等任务上表现突出,能同时处理多达128张高分辨率图像,并支持最长相当于300页文档的上下文。