大模型的两次跃迁

  • 量子位
  • 2025-02-24 04:19:15
大模型的两次跃迁

2024年8月-2025年2月,大模型出现了两次比较明显的“跃迁“,分别是:

- 2025年2月18日,Grok 3发布
- 2025年1月20日,DeepSeek-R1发布

马斯克豪掷20万张GPU,硬生生把Grok 3推向高点。

而DeepSeek靠独特的训练方法,实现了低成本高收益。

此外,观察近三个月的“跃迁“事件,还包括——

- 2025年1月29日,Qwen 2.5-Max发布
- 2024年12月26日,DeepSeek-V3发布

这两个模型采用类似的技术——大规模MoE(混合专家,Mixture of Experts)架构。

与传统架构不同,MoE架构在处理每个输入时,并非激活所有参数,从而提高了计算效率,降低了资源消耗。

或许大模型领域,我们还会迎来更多的“黑天鹅事件”。

你认为大模型未来的路要怎么走?

是更优质的数据、更优秀的训练方法,还是更多的算力资源,评论区说说看。

(数据来源:大模型竞技场Chatbot Arena)
大模型的两次跃迁大模型的两次跃迁