OpenAI发布Operator智能体
OpenAI推出Operator智能体,模拟人类在电脑上的操作行为。2025年1月OpenAI上线了其首个AI Agent Operator,Operator能够模拟人类在电脑上的动作,如通过点击、滚动、输入等与电脑交互,并完成相关任务。Operator可以浏览网页、填写表格、订购商品、预定餐厅等,如输入餐厅预订要求后,Operator 会在分析需求后直接打开一个云端浏览器并执行搜索、查找、预定等相关操作。
Operator仍处于研究预览阶段。Agent是AI产业当前进步重要方向之一,应用准确率仍待持续提升。为了确保安全和迭代进度,目前Operator处于研究预览阶段,仅面向美国的 ChatGPT Pro(200 美元/月)用户,Plus 用户也不能体验,未来将进一步扩展用户。
Operator代表AI进入Agent时代
Operator代表OpenAI拉开L3级Agent时代序幕。OpenAI内部将AI发展阶段定义为5个阶段:聊天机器人(具备对话能力)、推理者(具备人类问题解决能力)、Agent(具备执行任务能力)、创新者(具备创造发明能力)、组织者(具备组织工作能力)。Operator实现了AI与数字系统的交互,将自动执行桌面任务成为可能,而非调用固定API,Agent成为AI发展的新阶段。
CUA是Operator工作的主要Agent。Computer-Using Agent(CUA)是一个计算机使用代理,其通过强化学习实现了GPT-4o的视觉能力与高级推理相结合,可以像人类一样完成与图形用户界面 (GUI)的交互。CUA将高级 GUI 感知与结构化问题解决相结合,将任务分解为多步骤计划,且会在出现问题时自动纠错。
Operator核心步骤为感知、推理、执行
Operator运行在浏览器的虚拟环境中。当前Operator主要运行在浏览器中,并构建出虚拟环境和资源进行CUA一些列动作执行。这样可以保证 Operator 建立多重安全控制,且避免对用户本地系统造成干扰。
感知:将任务文本和当前屏幕截图一起输入给模型,提供计算机当前状态的可视化快照。
推理:CUA使用思维链来推理后续步骤,同时考虑当前和过去的屏幕和动作。CUA同步观察和评估结果,并动态适应各环节步骤。
执行:执行点击、滚动、输入等各种动作,直到任务完成或者需要用户输入。对于敏感操作,CUA将寻求用户确认,如验证码登。
Operator测试已取得较大进步
Operator测试数据优于前期SOTA,但与人类差距仍较大。OSWorld是一个用于评估多模态Agent的测试集,WebArena是用于评估Agent浏览器使用性能的测试集。测评结果显示,Operator在 OSWorld上实现了成功率38.1%;WebArena 上实现了58.1%的成功率;在 WebVoyager 上实现了 87% 的基于 Web 的任务的成功率,但是 WebVoyager大多数任务都相对简单。目前Operator超过了前期最优水平,但相比人类72%以上的成功率仍有较大差距。
Operator仍在持续进步中。目前Operator仍不完美,并且可能会犯错误。在内部测试数据,Operator在创建PPT和日历等复杂界面时会遇到挑战,在复杂的文本编辑方面表现较差 (成功率为 40%)。
Operator强调安全机制,各方能力将进一步提升
Operator已考虑了三层安全机制。Operator运行在虚拟浏览器环境中,一方面是保证运行资源,一方面是可以建立多种安全机制。OpenAI进行了严格的安全设计,例如不能访问某些网站,叠加实时审核和检测系统,并进行了大量红队测试。目前Operator仍在根据真实的使用反馈在持续改进其安全性。
Operator未来计划三大进步方向。第一,通过API使用CUA,公开为 Operator 提供支持的模型CUA,方便开发者构建自己的Agent。第二,继续提高 Operator 处理更长、更复杂的工作流程的能力。第三,计划将 Operator扩展到 Plus、Team和Enterprise用户,在Operator达到一定安全性和可用性后,将其功能直接集成到 ChatGPT 中。