详细介绍:OpenAI推出了L3级智能体...

  • 互联网的那点事
  • 2025-01-26 04:58:26
详细介绍:OpenAI推出了L3级智能体「Operator」能够像人类一样操作电脑执行复杂的任务。

Operator 是 OpenAI 的一个研究预览版,基于 Computer-Using Agent(CUA)模型,结合了 GPT-4o 的视觉能力和强化学习,可通过截图解析与图形用户界面(GUI)交互。这种能力使 Operator 能够像人类一样使用计算机,使用键盘、鼠标操作电脑,执行复杂的任务。

演示中,「Operator」表现出能够理解指令并完成各种任务的能力,例如订餐、网购、填写表单等。CUA结合了OpenAI多年的研究成果,包括视觉感知、深度推理和强化学习,从而实现了任务分解、自适应纠错等功能。

功能亮点

视觉感知:CUA 处理屏幕的像素数据,理解当前屏幕的状态。

推理与规划:通过“思维链”技术(Chain of Thought),推理任务步骤,并动态调整行动计划。

操作执行:使用虚拟鼠标和键盘执行任务,如点击、滚动、键入,直至完成目标任务。

确认机制:在处理敏感操作(如登录或验证码填写)时,会主动请求用户确认。

虽然CUA在多个测试中的表现刷新了SOTA(State of the Art),但与人类水平仍有显著差距。目前,「Operator」仅对美国Pro用户开放测试,并计划未来扩展到更多任务场景。

完整详细内容:网页链接
详细介绍:OpenAI推出了L3级智能体...