多模态LLM

多模态LLM

智源研究院的一个新型多模态大模型：Emu3，通过预测下一个词或token的方式来理解和生成文本、图像和视频

从效果看，尤其视觉语言理解

2024-09-29 浏览详情

LLaVA-MORE：基于LLaMA 3.1的增强视觉指令微调工具，为多模态大型语言模型提供性能提升，公开发布8B参数模型的检查点

LLaVA-MORE：基于LLaMA 3.1的增强视觉指令微调工具，为多模态大型语言模型提供性能提升，公开发布8B参数模型的检查点

【LLaVA-MORE：基于LLaMA 3.1的增强视觉指令微调工具，为多模态大型语言模型提供性能提升，公开发布8B参数模型的检查点】'LLaVA-MORE:

2024-08-08 浏览详情

正在拼命加载中

我是有底线的

没有更多的页面可以加载啦！