超过通义72B的开源视觉模型

量子位
2024-12-06 17:45:00

超过通义72B的开源视觉模型竞技场第一开源视觉模型

开源视觉模型又双叒易主了！

继Mistral推出Pixtral Large模型不到一个月，Pixtral Large超过了Qwen-VL-72B，成为大模型竞技场第一的开源视觉模型。

换句话说，只有Gemini、GPT和Claude这种非开源模型，才与Pixtral Large有一战之力。

有小伙伴可能对Pixtral Large不熟悉，它是一个1240亿参数的视觉模型。

Pixtral Large在文档分析、图表理解、OCR等任务上表现突出，能同时处理多达128张高分辨率图像，并支持最长相当于300页文档的上下文。