DeepSeek再发新模型

  • 晶刚专属
  • 2025-01-30 16:39:34
DeepSeek再发新模型DeepSeek创始人回广东过年要躲起来
2025年1月28日,DeepSeek发布了开源多模态模型Janus-Pro。

1、性能优势:Janus-Pro系列中的70亿参数版本Janus-Pro-7B在GenEval和DPG-Bench基准测试中表现出色,以80%和84.2%的准确率击败了OpenAI的DALL-E 3和Stable Diffusion等顶尖图像生成模型,能准确捕捉提示语义信息生成逻辑连贯的图片,但目前仅支持生成分辨率为384×384的图像。

2、技术改进:是去年发布的Janus的高级版本,采用优化的训练策略、扩展了训练数据并扩大了模型尺寸,通过将视觉编码解耦为单独路径,使用SigLIP-L作为视觉编码器,支持384×384图像输入,缓解了视觉编码器在理解和生成中的角色冲突,增强了框架灵活性。

3、 训练情况:采用MIT许可证开源,1.5B/7B模型整个训练过程分别在16/32节点的集群上进行,每个节点配备8块Nvidia A100(40GB)GPU,训练时间约为7/14天。 DeepSeek续写红楼梦后四十回 英伟达回应DeepSeek全球爆火
DeepSeek再发新模型DeepSeek再发新模型