o3 还真不错,可以直接基于你的要...
- 宝玉xp
- 2025-04-17 09:11:36
o3 还真不错,可以直接基于你的要求去搜索写一篇质量不错的文章:
OpenAI 今天(2025 年 4 月 16 日)正式发布了其最新“推理”旗舰 **o3** 与精简版 **o4‑mini**。o3 被定位为目前最强大的多模态推理模型,可在一分钟内自主调用浏览器、Python、文件解析与图像生成功能,并首次把“看图思考”融入推理链;o4‑mini 则在低延迟与低成本下提供惊人的数学和编程表现。两款模型均已在 ChatGPT Plus、Pro、Team 以及 API 上线,并通过新版 Preparedness 框架完成安全审查。
什么是 o3?
- **定位与历程**
o‑系列专注“深度思考”而非纯语言生成。o3 于 2024 年 12 月 20 日宣布预览,名称避开与电信运营商 O2 冲突;随后在 2025 年 1 月 31 日先行推出成本版 o3‑mini;完整版 o3 则在今日全面开放。
- **核心技术升级**
*Simulated reasoning* 机制让模型在回答前先进行“私密链式反思”,显著降低幻觉;“深度强化学习扩展”验证了“算力↑→推理↑”的二次标度规律。官方测试显示 o3 在真实世界难题上较 o1 重大错误减少 20%。
️ “看图思考”与多工具协同
图像即推理节点
o3 与 o4‑mini 能在链式思考中嵌入图片:解析模糊板书、旋转/缩放示意图,再携带视觉洞察写入最终答案,开启文本‑视觉混合推理新范式。
️ 全工具自主调用
模型可评估何时检索网页、编写 Python 代码或生成图片,并把结果编织成一次性回复,标志 ChatGPT 迈向“代理型”助手。
性能与基准
o3 刷新 Codeforces、SWE‑bench 及多模态 MMMU 纪录;o4‑mini 在 AIME 2024/2025 与 GPQA Diamond 等理工基准上,以更低成本实现同级领先。
价格与型号矩阵
| 模型 | 输入/百万Token | 输出/百万Token | 典型场景 |
|------|---------------|---------------|-----------|
| **o3** | \$10.00 | \$40.00 | 高精度多模态推理 |
| **o4‑mini** | \$1.10 | \$4.40 | 快速低成本 STEM/代码 |
| **o3‑mini** (2025‑01‑31) | \$1.10 | \$4.40 | 无视觉,偏 STEM |
定价较 o1 同档大幅下降(o3‑mini 对 o1‑mini 便宜 63%)。ChatGPT 付费层可在模型选择器直接切换;企业版 o3‑pro 将于数周内上线。
开发者与生态
- **API 与函数调用**:o3 系列支持 Chat Completions、Assistants、Batch API,并原生提供函数调用、结构化输出与开发者消息。
- **Codex CLI**:Open‑source 终端代理,可离线调用 o3/o4‑mini 操控本地代码工作流。
- **“Deep Research”模式**:o3 驱动的网络调研代理能自动搜集并汇总资料,被视为 AI 代理时代样板。
战略与争议
OpenAI 为赶在 Google Gemini 2.0 与 DeepSeek 等竞品之前落地 o3,缩短了安全测试周期,引发外界对评估充分性的讨论。与此同时,CEO Sam Altman 在 4 月 10 日表示“不排除”在极端情况下为美国国防部提供 AI 武器平台,引来伦理关注。行业观察家指出,o3 的多模态与代理特性或将重塑数据分析、科研和软件开发工作流,但也对模型透明度和对齐提出更高要求。
展望
OpenAI 确认 GPT‑5 仍在研发,计划在数月内推出;o3 被视为向真正“通用智能代理”迈出的关键一步。短期内,企业可利用 o3 升级科研、咨询与数据管道,但需同步评估安全网与成本‑收益。长期看,“看图思考 + 工具自主”或成为 LLM 新标准,也将迫使对手在多模态推理与代理能力上加速竞逐。
OpenAI 今天(2025 年 4 月 16 日)正式发布了其最新“推理”旗舰 **o3** 与精简版 **o4‑mini**。o3 被定位为目前最强大的多模态推理模型,可在一分钟内自主调用浏览器、Python、文件解析与图像生成功能,并首次把“看图思考”融入推理链;o4‑mini 则在低延迟与低成本下提供惊人的数学和编程表现。两款模型均已在 ChatGPT Plus、Pro、Team 以及 API 上线,并通过新版 Preparedness 框架完成安全审查。
什么是 o3?
- **定位与历程**
o‑系列专注“深度思考”而非纯语言生成。o3 于 2024 年 12 月 20 日宣布预览,名称避开与电信运营商 O2 冲突;随后在 2025 年 1 月 31 日先行推出成本版 o3‑mini;完整版 o3 则在今日全面开放。
- **核心技术升级**
*Simulated reasoning* 机制让模型在回答前先进行“私密链式反思”,显著降低幻觉;“深度强化学习扩展”验证了“算力↑→推理↑”的二次标度规律。官方测试显示 o3 在真实世界难题上较 o1 重大错误减少 20%。
️ “看图思考”与多工具协同
图像即推理节点
o3 与 o4‑mini 能在链式思考中嵌入图片:解析模糊板书、旋转/缩放示意图,再携带视觉洞察写入最终答案,开启文本‑视觉混合推理新范式。
️ 全工具自主调用
模型可评估何时检索网页、编写 Python 代码或生成图片,并把结果编织成一次性回复,标志 ChatGPT 迈向“代理型”助手。
性能与基准
o3 刷新 Codeforces、SWE‑bench 及多模态 MMMU 纪录;o4‑mini 在 AIME 2024/2025 与 GPQA Diamond 等理工基准上,以更低成本实现同级领先。
价格与型号矩阵
| 模型 | 输入/百万Token | 输出/百万Token | 典型场景 |
|------|---------------|---------------|-----------|
| **o3** | \$10.00 | \$40.00 | 高精度多模态推理 |
| **o4‑mini** | \$1.10 | \$4.40 | 快速低成本 STEM/代码 |
| **o3‑mini** (2025‑01‑31) | \$1.10 | \$4.40 | 无视觉,偏 STEM |
定价较 o1 同档大幅下降(o3‑mini 对 o1‑mini 便宜 63%)。ChatGPT 付费层可在模型选择器直接切换;企业版 o3‑pro 将于数周内上线。
开发者与生态
- **API 与函数调用**:o3 系列支持 Chat Completions、Assistants、Batch API,并原生提供函数调用、结构化输出与开发者消息。
- **Codex CLI**:Open‑source 终端代理,可离线调用 o3/o4‑mini 操控本地代码工作流。
- **“Deep Research”模式**:o3 驱动的网络调研代理能自动搜集并汇总资料,被视为 AI 代理时代样板。
战略与争议
OpenAI 为赶在 Google Gemini 2.0 与 DeepSeek 等竞品之前落地 o3,缩短了安全测试周期,引发外界对评估充分性的讨论。与此同时,CEO Sam Altman 在 4 月 10 日表示“不排除”在极端情况下为美国国防部提供 AI 武器平台,引来伦理关注。行业观察家指出,o3 的多模态与代理特性或将重塑数据分析、科研和软件开发工作流,但也对模型透明度和对齐提出更高要求。
展望
OpenAI 确认 GPT‑5 仍在研发,计划在数月内推出;o3 被视为向真正“通用智能代理”迈出的关键一步。短期内,企业可利用 o3 升级科研、咨询与数据管道,但需同步评估安全网与成本‑收益。长期看,“看图思考 + 工具自主”或成为 LLM 新标准,也将迫使对手在多模态推理与代理能力上加速竞逐。