DeepSeek是如何看待目前国内AI能力和排名的

股痴老夫子
2025-02-12 09:54:02

DeepSeek是如何看待目前国内AI能力和排名的？它居然给自己的评分那么低，当然，其他AI的评分更低。文心一言排第五，Kimi都没有上榜。

我们来看看DeepSeek的排名：国内AI大模型分类与排名（截至2025年2月）

一、通用型大模型
面向多任务场景，综合能力较强，覆盖文本生成、问答、逻辑推理等领域：
1. 深度求索 DeepSeek-V3
- 总分 68.3，理科（72.0）与文科（78.2）均衡，API服务为主，开发者市场应用广泛。
2. 商汤 SenseChat 5.5-latest
- 总分 68.3，文科得分（81.8）突出，自然语言生成能力领先。
3. 360智脑 360zhinao2-o1
- 总分 67.4，安全性能评测国内第一，适用于高安全需求场景。
4. 阿里云通义千问系列
- 开源代码模型表现优异（如Qwen2.5-110B），理科能力突出，支持多模态生成。
5. 百度文心一言4.0
- 中文优化显著，日均调用量达15亿次，覆盖教育、医疗等领域。

二、专业型大模型
针对特定任务或行业深度优化：
1. 豆包大模型（字节跳动）
- 在数学能力、知识运用等任务中排名前列，尤其适合数据分析与任务拆解。
2. 智谱GLM-4系列
- 支持复杂语言任务，低代码平台助力快速开发智能体，广泛应用于政务、教育。
3. 华为盘古NLP大模型
- 中文文本处理能力领先，参数量超2亿，适用于文本分类与生成。
4. 科大讯飞星火大模型
- 七大核心能力（逻辑推理、多模交互等）均衡，低代码平台支持行业定制。
5. Rokid Glasses（AI+AR眼镜）
- 整合通义千问多模态模型，支持物体识别、翻译等实时交互场景。

三、开源与性价比模型
以开源或低成本服务为特色：
1. 深度求索 DeepSeek-R1-Lite
- 网页端免费使用，总分63.8，适合轻量级需求。
2. 阿里 Qwen系列开源模型
- 如Qwen1.5-32B，API价格低至0.0035元/千tokens，性价比突出。
3. TeleChat2-35B（中国电信）
- 小参数量高效能，综合能力超过部分国际大模型，开源布局全面。

四、前沿探索方向
1. AI Agent（智能体）
- 智谱AutoGLM、腾讯混元大模型等支持长步骤任务，2025年预计市场规模超8000亿元。
2. AI硬件融合
- 百度小度AI眼镜、小米AR眼镜等结合大模型，推动多模态交互落地。

总结与趋势
- 技术差距：国内模型（如DeepSeek-V3）在文科任务接近国际水平，但高难度任务（如Hard项目）仍落后OpenAI约20分。
- 应用场景：从通用型向垂直行业（政务、医疗）渗透，AI Agent与硬件结合成为新增长点。
- 开源与安全：国产开源模型数量增加，360、中国电信等企业在安全领域建立优势。