DeepSeek再发新模型

晶刚专属
2025-01-30 16:39:34

DeepSeek再发新模型 DeepSeek创始人回广东过年要躲起来
2025年1月28日，DeepSeek发布了开源多模态模型Janus-Pro。

1、性能优势：Janus-Pro系列中的70亿参数版本Janus-Pro-7B在GenEval和DPG-Bench基准测试中表现出色，以80%和84.2%的准确率击败了OpenAI的DALL-E 3和Stable Diffusion等顶尖图像生成模型，能准确捕捉提示语义信息生成逻辑连贯的图片，但目前仅支持生成分辨率为384×384的图像。

2、技术改进：是去年发布的Janus的高级版本，采用优化的训练策略、扩展了训练数据并扩大了模型尺寸，通过将视觉编码解耦为单独路径，使用SigLIP-L作为视觉编码器，支持384×384图像输入，缓解了视觉编码器在理解和生成中的角色冲突，增强了框架灵活性。

3、训练情况：采用MIT许可证开源，1.5B/7B模型整个训练过程分别在16/32节点的集群上进行，每个节点配备8块Nvidia A100(40GB)GPU，训练时间约为7/14天。 DeepSeek续写红楼梦后四十回英伟达回应DeepSeek全球爆火