智谱推出 AI Agent 智能体 AutoGLM,可代替用户在手机和网页上完成操作。10 月 25 日,智谱推出 GLM 第一个产品化的智能体(Agent)——AutoGLM。只需接收简单的文字/语音指令,AutoGLM 就可以模拟人类操作手机,如在微信点赞并评论朋友圈、在淘宝购买某一款历史订单产品、在携程预订酒店、在 12306 购买火车票、在美团点外卖等。
另外,AutoGLM 也可以对网页进行操作,如在 OpenTable 网站预订餐厅等。
AutoGLM 测评表现优异。智谱团队在 AndroidLab(即 VAB-Mobile)和常见的安卓 APP 上的高频任务中评估了 AutoGLM 的能力。AndroidLab 的评估结果表明,AutoGLM 在 AndroidLab 上的成功率为 36.2%,在所有对比的智能体中表现最佳。
为进一步测试 AutoGLM 在公共用户环境中的实际部署能力,智谱团队还在 7款常见的安卓 APP(包括微信、美团、淘宝、大众点评、高德地图、小红书和 12306)上仔细评估了其高频任务表现。结果显示,AutoGLM 在这些应用中的表现令人满意,多数任务能够完成,未完成的任务也能部分完成,从而在实际场景中为用户提供操作速度上的帮助。
网页端:智谱 AUTOGLM 在 VAB-WebArena-Lite 测评和真实网站表现优于其他大模型。智谱使用 VAB-WebArena-Lite 和在线人类评估数据集 OpenTable 进行了交互式基准测试,在这些环境中优化训练 AutoGLM。
智谱 AUTOGLM 在 VAB-WebArena-Lite 测评表现优于其他大模型。使用VAB-WebArena-Lite 评估了代表性的专有LLM/LMM API、开放模型、最近的智能体框架以及 AutoGLM。实验结果显示,AutoGLM 在该基准测试上显著提升了表现,缩小了 AI Agent 与人类之间的性能差距。
智谱也在真实网站 OpenTable 上对 AutoGLM 进行了测试。智谱团队参考 AgentQ论文中 “为 4 人预订 2024 年 5 月 22 日晚上 7 点在 Cecconi's 的餐厅座位”的示例,重新构建了一个包含 200 个样本的测试集,结果显示,AutoGLM 在此真实世界场景中超越了 GPT-4o 和 Agent Q。
智谱 AI 全新发布 Agent 家族,涵盖手机、电脑、PC。11 月 29 日,智谱 AI 在其 OpenDay 上发布了用 AI 替代人类执行任务的三款智能体 Agent,分别是面向手机的 phone use——AutoGLM,面向电脑的 compute use——GLM PC,以及面向网页的GLM-Web 能力。
升级版 AutoGLM 具备跨 App 能力,模型功能及便携性显著提升。升级版AutoGLM 较 11 月版本,支持更多主流 APP,如抖音、微博、饿了么、京东、拼多多等,且实现跨 APP 操作,为用户在多 APP 交互场景中提供便利,例如可在美团和饿了么比价、在小红书搜攻略后去携程订酒店等。
推出快捷口令功能,预设常用指令短语,提升交互便捷性。AutoGLM 宣布启动大规模百万内测,并将尽快上线成为面向 C 端用户的产品,同时启动“10 个亿级 APP 免费 Auto 升级”的计划,邀请 App 伙伴联合探索自己的 Auto 新场景。
AutoGLM-Web 开启 Web 端全自动上网能力。AutoGLM-Web 为基于 AutoGLM技术的电脑浏览器版本,支持知乎、Github、芒果 TV、百度搜索、微博等数十个网站的无人驾驶, 并与手机版类似具有支持跨 APP 操作能力。
例如在现场 demo 里,清言插件自动完成了“在百度搜索芒果 tv,打开小巷人家,播放最新一集,发弹幕结局打卡”。GLM-PC :PC 端自主 Agent,未来前景可期。GLM-PC 基于智谱的多模态模型 CogAgent,能够模拟人用电脑的过程,具备系统级、跨平台的操作能力,不依赖于 HTML、API,具备更高的能力上限。
例如会议替身,帮用户预定和参与会议,发送会议总结;文档处理,支持文档下载、文档发送、理解和总结文档;网页搜索与总结,在指定平台(如微信公众号、知乎、小红书等)搜索指定关键词,完成阅读、总结;远程和定时操作,远程手机发指令 GLM-PC 自主完成电脑操作,设定一个未来时间在开机状态下定时执行任务;隐形屏幕,在用户工作时,GLM-PC 可以在隐形屏幕上自主完成工作,解放屏幕使用权。
更多行业研究分析请参考思瀚产业研究院官网,同时思瀚产业研究院亦提供行研报告、可研报告(立项审批备案、银行贷款、投资决策、集团上会)、产业规划、园区规划、商业计划书(股权融资、招商合资、内部决策)、专项调研、建筑设计、境外投资报告等相关咨询服务方案。