这两天 X 上关于 DeepSeek...
- 宝玉xp
- 2025-04-29 13:07:47
这两天 X 上关于 DeepSeek R2 的坊间传闻较多,反倒是英文推主转发的比较多,但信源都是图一这种小道消息,没有权威媒体来源,说是五一前可能要发 DeepSeek R2 新模型了,具体细节:
模型规模巨大,但高效节省成本
总参数量高达1.2万亿,但采用混合专家模型(MoE)架构,实际激活的参数仅 780亿。
与GPT-4o相比,成本降低97.3%,输入成本仅为 每百万token 0.07美元,输出成本也仅为 每百万token 0.27美元。
训练数据规模惊人,成绩出众
训练数据量高达5.2PB,远超以往主流大模型。
在权威的中文能力评测集 C-Eval 2.0 上,成绩竟然高达 89.7%,堪称突破性的成绩。
视觉能力再次跃升
在经典视觉理解任务 COCO数据集 的表现中达到 92.4%准确率,视觉识别能力全面升级。
硬件利用率显著提升
在国产自主芯片 华为Ascend 910B芯片 上运行时,计算资源利用率高达 82%,充分发挥硬件潜力。
大规模脱离美国供应链
更令人关注的是,此次DeepSeek R2的研发和生产,传闻已经显著减少了对美国供应链的依赖,代表了国产AI技术路线的重大转变。
模型规模巨大,但高效节省成本
总参数量高达1.2万亿,但采用混合专家模型(MoE)架构,实际激活的参数仅 780亿。
与GPT-4o相比,成本降低97.3%,输入成本仅为 每百万token 0.07美元,输出成本也仅为 每百万token 0.27美元。
训练数据规模惊人,成绩出众
训练数据量高达5.2PB,远超以往主流大模型。
在权威的中文能力评测集 C-Eval 2.0 上,成绩竟然高达 89.7%,堪称突破性的成绩。
视觉能力再次跃升
在经典视觉理解任务 COCO数据集 的表现中达到 92.4%准确率,视觉识别能力全面升级。
硬件利用率显著提升
在国产自主芯片 华为Ascend 910B芯片 上运行时,计算资源利用率高达 82%,充分发挥硬件潜力。
大规模脱离美国供应链
更令人关注的是,此次DeepSeek R2的研发和生产,传闻已经显著减少了对美国供应链的依赖,代表了国产AI技术路线的重大转变。