大模型的两次跃迁
- 量子位
- 2025-02-24 04:19:15
大模型的两次跃迁
2024年8月-2025年2月,大模型出现了两次比较明显的“跃迁“,分别是:
- 2025年2月18日,Grok 3发布
- 2025年1月20日,DeepSeek-R1发布
马斯克豪掷20万张GPU,硬生生把Grok 3推向高点。
而DeepSeek靠独特的训练方法,实现了低成本高收益。
此外,观察近三个月的“跃迁“事件,还包括——
- 2025年1月29日,Qwen 2.5-Max发布
- 2024年12月26日,DeepSeek-V3发布
这两个模型采用类似的技术——大规模MoE(混合专家,Mixture of Experts)架构。
与传统架构不同,MoE架构在处理每个输入时,并非激活所有参数,从而提高了计算效率,降低了资源消耗。
或许大模型领域,我们还会迎来更多的“黑天鹅事件”。
你认为大模型未来的路要怎么走?
是更优质的数据、更优秀的训练方法,还是更多的算力资源,评论区说说看。
(数据来源:大模型竞技场Chatbot Arena)
2024年8月-2025年2月,大模型出现了两次比较明显的“跃迁“,分别是:
- 2025年2月18日,Grok 3发布
- 2025年1月20日,DeepSeek-R1发布
马斯克豪掷20万张GPU,硬生生把Grok 3推向高点。
而DeepSeek靠独特的训练方法,实现了低成本高收益。
此外,观察近三个月的“跃迁“事件,还包括——
- 2025年1月29日,Qwen 2.5-Max发布
- 2024年12月26日,DeepSeek-V3发布
这两个模型采用类似的技术——大规模MoE(混合专家,Mixture of Experts)架构。
与传统架构不同,MoE架构在处理每个输入时,并非激活所有参数,从而提高了计算效率,降低了资源消耗。
或许大模型领域,我们还会迎来更多的“黑天鹅事件”。
你认为大模型未来的路要怎么走?
是更优质的数据、更优秀的训练方法,还是更多的算力资源,评论区说说看。
(数据来源:大模型竞技场Chatbot Arena)