DeepSeek是如何看待目前国内AI能力和排名的
- 股痴老夫子
- 2025-02-12 09:54:02
DeepSeek是如何看待目前国内AI能力和排名的? 它居然给自己的评分那么低,当然,其他AI的评分更低。文心一言排第五,Kimi都没有上榜。
我们来看看DeepSeek的排名:国内AI大模型分类与排名(截至2025年2月)
一、通用型大模型
面向多任务场景,综合能力较强,覆盖文本生成、问答、逻辑推理等领域:
1. 深度求索 DeepSeek-V3
- 总分 68.3,理科(72.0)与文科(78.2)均衡,API服务为主,开发者市场应用广泛。
2. 商汤 SenseChat 5.5-latest
- 总分 68.3,文科得分(81.8)突出,自然语言生成能力领先。
3. 360智脑 360zhinao2-o1
- 总分 67.4,安全性能评测国内第一,适用于高安全需求场景。
4. 阿里云 通义千问系列
- 开源代码模型表现优异(如Qwen2.5-110B),理科能力突出,支持多模态生成。
5. 百度 文心一言4.0
- 中文优化显著,日均调用量达15亿次,覆盖教育、医疗等领域。
二、专业型大模型
针对特定任务或行业深度优化:
1. 豆包大模型(字节跳动)
- 在数学能力、知识运用等任务中排名前列,尤其适合数据分析与任务拆解。
2. 智谱GLM-4系列
- 支持复杂语言任务,低代码平台助力快速开发智能体,广泛应用于政务、教育。
3. 华为盘古NLP大模型
- 中文文本处理能力领先,参数量超2亿,适用于文本分类与生成。
4. 科大讯飞 星火大模型
- 七大核心能力(逻辑推理、多模交互等)均衡,低代码平台支持行业定制。
5. Rokid Glasses(AI+AR眼镜)
- 整合通义千问多模态模型,支持物体识别、翻译等实时交互场景。
三、开源与性价比模型
以开源或低成本服务为特色:
1. 深度求索 DeepSeek-R1-Lite
- 网页端免费使用,总分63.8,适合轻量级需求。
2. 阿里 Qwen系列开源模型
- 如Qwen1.5-32B,API价格低至0.0035元/千tokens,性价比突出。
3. TeleChat2-35B(中国电信)
- 小参数量高效能,综合能力超过部分国际大模型,开源布局全面。
四、前沿探索方向
1. AI Agent(智能体)
- 智谱AutoGLM、腾讯混元大模型等支持长步骤任务,2025年预计市场规模超8000亿元。
2. AI硬件融合
- 百度小度AI眼镜、小米AR眼镜等结合大模型,推动多模态交互落地。
总结与趋势
- 技术差距:国内模型(如DeepSeek-V3)在文科任务接近国际水平,但高难度任务(如Hard项目)仍落后OpenAI约20分。
- 应用场景:从通用型向垂直行业(政务、医疗)渗透,AI Agent与硬件结合成为新增长点。
- 开源与安全:国产开源模型数量增加,360、中国电信等企业在安全领域建立优势。
我们来看看DeepSeek的排名:国内AI大模型分类与排名(截至2025年2月)
一、通用型大模型
面向多任务场景,综合能力较强,覆盖文本生成、问答、逻辑推理等领域:
1. 深度求索 DeepSeek-V3
- 总分 68.3,理科(72.0)与文科(78.2)均衡,API服务为主,开发者市场应用广泛。
2. 商汤 SenseChat 5.5-latest
- 总分 68.3,文科得分(81.8)突出,自然语言生成能力领先。
3. 360智脑 360zhinao2-o1
- 总分 67.4,安全性能评测国内第一,适用于高安全需求场景。
4. 阿里云 通义千问系列
- 开源代码模型表现优异(如Qwen2.5-110B),理科能力突出,支持多模态生成。
5. 百度 文心一言4.0
- 中文优化显著,日均调用量达15亿次,覆盖教育、医疗等领域。
二、专业型大模型
针对特定任务或行业深度优化:
1. 豆包大模型(字节跳动)
- 在数学能力、知识运用等任务中排名前列,尤其适合数据分析与任务拆解。
2. 智谱GLM-4系列
- 支持复杂语言任务,低代码平台助力快速开发智能体,广泛应用于政务、教育。
3. 华为盘古NLP大模型
- 中文文本处理能力领先,参数量超2亿,适用于文本分类与生成。
4. 科大讯飞 星火大模型
- 七大核心能力(逻辑推理、多模交互等)均衡,低代码平台支持行业定制。
5. Rokid Glasses(AI+AR眼镜)
- 整合通义千问多模态模型,支持物体识别、翻译等实时交互场景。
三、开源与性价比模型
以开源或低成本服务为特色:
1. 深度求索 DeepSeek-R1-Lite
- 网页端免费使用,总分63.8,适合轻量级需求。
2. 阿里 Qwen系列开源模型
- 如Qwen1.5-32B,API价格低至0.0035元/千tokens,性价比突出。
3. TeleChat2-35B(中国电信)
- 小参数量高效能,综合能力超过部分国际大模型,开源布局全面。
四、前沿探索方向
1. AI Agent(智能体)
- 智谱AutoGLM、腾讯混元大模型等支持长步骤任务,2025年预计市场规模超8000亿元。
2. AI硬件融合
- 百度小度AI眼镜、小米AR眼镜等结合大模型,推动多模态交互落地。
总结与趋势
- 技术差距:国内模型(如DeepSeek-V3)在文科任务接近国际水平,但高难度任务(如Hard项目)仍落后OpenAI约20分。
- 应用场景:从通用型向垂直行业(政务、医疗)渗透,AI Agent与硬件结合成为新增长点。
- 开源与安全:国产开源模型数量增加,360、中国电信等企业在安全领域建立优势。