智源研究院的一个新型多模态大模型:Emu3,通过预测下一个词或token的方式来理解和生成文本、图像和视频 从效果看,尤其视觉语言理解
2024-09-29浏览详情
【LLaVA-MORE:基于LLaMA 3.1的增强视觉指令微调工具,为多模态大型语言模型提供性能提升,公开发布8B参数模型的检查点】'LLaVA-MORE:
2024-08-08浏览详情
正在拼命加载中
我是有底线的
没有更多的页面可以加载啦!