这两天 X 上关于 DeepSeek...

宝玉xp
2025-04-29 13:07:47

这两天 X 上关于 DeepSeek R2 的坊间传闻较多，反倒是英文推主转发的比较多，但信源都是图一这种小道消息，没有权威媒体来源，说是五一前可能要发 DeepSeek R2 新模型了，具体细节：

模型规模巨大，但高效节省成本
总参数量高达1.2万亿，但采用混合专家模型（MoE）架构，实际激活的参数仅 780亿。

与GPT-4o相比，成本降低97.3%，输入成本仅为每百万token 0.07美元，输出成本也仅为每百万token 0.27美元。

训练数据规模惊人，成绩出众
训练数据量高达5.2PB，远超以往主流大模型。

在权威的中文能力评测集 C-Eval 2.0 上，成绩竟然高达 89.7%，堪称突破性的成绩。

视觉能力再次跃升
在经典视觉理解任务 COCO数据集的表现中达到 92.4%准确率，视觉识别能力全面升级。

硬件利用率显著提升
在国产自主芯片华为Ascend 910B芯片上运行时，计算资源利用率高达 82%，充分发挥硬件潜力。

大规模脱离美国供应链
更令人关注的是，此次DeepSeek R2的研发和生产，传闻已经显著减少了对美国供应链的依赖，代表了国产AI技术路线的重大转变。