首 页
研究报告

医疗健康信息技术装备制造汽车及零部件文体教育现代服务业金融保险旅游酒店绿色环保能源电力化工新材料房地产建筑建材交通运输社消零售轻工业家电数码产品现代农业投资环境

产业规划

产业规划专题产业规划案例

可研报告

可研报告专题可研报告案例

商业计划书

商业计划书专题商业计划书案例

园区规划

园区规划专题园区规划案例

大健康

大健康专题大健康案例

行业新闻

产业新闻产业资讯产业投资产业数据产业科技产业政策

关于我们

公司简介发展历程品质保证公司新闻

当前位置:思瀚首页 >> 行业新闻 >>  产业投资

OpenAI 率先发布Operator智能体,AI进入Agent时代
思瀚产业研究院    2025-03-13

OpenAI发布Operator智能体

OpenAI推出Operator智能体,模拟人类在电脑上的操作行为。2025年1月OpenAI上线了其首个AI Agent Operator,Operator能够模拟人类在电脑上的动作,如通过点击、滚动、输入等与电脑交互,并完成相关任务。Operator可以浏览网页、填写表格、订购商品、预定餐厅等,如输入餐厅预订要求后,Operator 会在分析需求后直接打开一个云端浏览器并执行搜索、查找、预定等相关操作。

Operator仍处于研究预览阶段。Agent是AI产业当前进步重要方向之一,应用准确率仍待持续提升。为了确保安全和迭代进度,目前Operator处于研究预览阶段,仅面向美国的 ChatGPT Pro(200 美元/月)用户,Plus 用户也不能体验,未来将进一步扩展用户。

Operator代表AI进入Agent时代

Operator代表OpenAI拉开L3级Agent时代序幕。OpenAI内部将AI发展阶段定义为5个阶段:聊天机器人(具备对话能力)、推理者(具备人类问题解决能力)、Agent(具备执行任务能力)、创新者(具备创造发明能力)、组织者(具备组织工作能力)。Operator实现了AI与数字系统的交互,将自动执行桌面任务成为可能,而非调用固定API,Agent成为AI发展的新阶段。

CUA是Operator工作的主要Agent。Computer-Using Agent(CUA)是一个计算机使用代理,其通过强化学习实现了GPT-4o的视觉能力与高级推理相结合,可以像人类一样完成与图形用户界面 (GUI)的交互。CUA将高级 GUI 感知与结构化问题解决相结合,将任务分解为多步骤计划,且会在出现问题时自动纠错。

Operator核心步骤为感知、推理、执行

Operator运行在浏览器的虚拟环境中。当前Operator主要运行在浏览器中,并构建出虚拟环境和资源进行CUA一些列动作执行。这样可以保证 Operator 建立多重安全控制,且避免对用户本地系统造成干扰。

感知:将任务文本和当前屏幕截图一起输入给模型,提供计算机当前状态的可视化快照。

推理:CUA使用思维链来推理后续步骤,同时考虑当前和过去的屏幕和动作。CUA同步观察和评估结果,并动态适应各环节步骤。

执行:执行点击、滚动、输入等各种动作,直到任务完成或者需要用户输入。对于敏感操作,CUA将寻求用户确认,如验证码登。

Operator测试已取得较大进步

Operator测试数据优于前期SOTA,但与人类差距仍较大。OSWorld是一个用于评估多模态Agent的测试集,WebArena是用于评估Agent浏览器使用性能的测试集。测评结果显示,Operator在 OSWorld上实现了成功率38.1%;WebArena 上实现了58.1%的成功率;在 WebVoyager 上实现了 87% 的基于 Web 的任务的成功率,但是 WebVoyager大多数任务都相对简单。目前Operator超过了前期最优水平,但相比人类72%以上的成功率仍有较大差距。

Operator仍在持续进步中。目前Operator仍不完美,并且可能会犯错误。在内部测试数据,Operator在创建PPT和日历等复杂界面时会遇到挑战,在复杂的文本编辑方面表现较差 (成功率为 40%)。

Operator强调安全机制,各方能力将进一步提升

Operator已考虑了三层安全机制。Operator运行在虚拟浏览器环境中,一方面是保证运行资源,一方面是可以建立多种安全机制。OpenAI进行了严格的安全设计,例如不能访问某些网站,叠加实时审核和检测系统,并进行了大量红队测试。目前Operator仍在根据真实的使用反馈在持续改进其安全性。

Operator未来计划三大进步方向。第一,通过API使用CUA,公开为 Operator 提供支持的模型CUA,方便开发者构建自己的Agent。第二,继续提高 Operator 处理更长、更复杂的工作流程的能力。第三,计划将 Operator扩展到 Plus、Team和Enterprise用户,在Operator达到一定安全性和可用性后,将其功能直接集成到 ChatGPT 中。

免责声明:
1.本站部分文章为转载,其目的在于传播更多信息,我们不对其准确性、完整性、及时性、有效性和适用性等任何的陈述和保证。本文仅代表作者本人观点,并不代表本网赞同其观点和对其真实性负责。
2.思瀚研究院一贯高度重视知识产权保护并遵守中国各项知识产权法律。如涉及文章内容、版权等问题,我们将及时沟通与处理。