大模型的两次跃迁

量子位
2025-02-24 04:19:15

大模型的两次跃迁

2024年8月-2025年2月，大模型出现了两次比较明显的“跃迁“，分别是：

- 2025年2月18日，Grok 3发布
- 2025年1月20日，DeepSeek-R1发布

马斯克豪掷20万张GPU，硬生生把Grok 3推向高点。

而DeepSeek靠独特的训练方法，实现了低成本高收益。

此外，观察近三个月的“跃迁“事件，还包括——

- 2025年1月29日，Qwen 2.5-Max发布
- 2024年12月26日，DeepSeek-V3发布

这两个模型采用类似的技术——大规模MoE（混合专家，Mixture of Experts）架构。

与传统架构不同，MoE架构在处理每个输入时，并非激活所有参数，从而提高了计算效率，降低了资源消耗。

或许大模型领域，我们还会迎来更多的“黑天鹅事件”。

你认为大模型未来的路要怎么走？

是更优质的数据、更优秀的训练方法，还是更多的算力资源，评论区说说看。

（数据来源：大模型竞技场Chatbot Arena）