AI导读:

OpenAI震撼发布首款AI代理工具Operator,能够代理用户执行基于网页的操作,标志着AI技术的新飞跃。Operator结合了GPT-4的视觉能力和高级推理,能够像人类一样使用网页浏览器,为用户带来前所未有的交互体验。

美国科技创新企业OpenAI于周四通过直播活动震撼发布,正式推出了市场翘首以盼的首款AI代理工具Operator,该工具能够代理用户在网页上执行各类操作,标志着AI技术的新飞跃。

简而言之,Operator能够模拟人类使用网页浏览器的行为,实现了前所未有的交互体验。

与传统的聊天机器人相比,AI代理工具Operator能够在有限的人类监督下,按照预设任务自主执行操作,这一创新被视为AI生产力迈向通用人工智能(AGI)的又一重要里程碑。在OpenAI的AGI发展路径中,Operator紧随聊天机器人和推理机器人之后,作为第三步战略的核心组成部分,开启了全新的技术篇章。

据OpenAI首席执行官山姆·奥尔特曼介绍,自周四起,美国的ChatGPT Pro订阅用户(月费200美元)将率先体验到“研究预览版”的Operator。未来,该服务将逐步扩展至更多地区的Pro用户,并计划在几个月内对ChatGPT Plus用户开放。同时,OpenAI透露将在未来几周至几个月内陆续发布更多AI代理工具。

深入解读Operator

Operator的核心驱动力来自一个名为CUA(计算机使用代理)的全新模型,该模型融合了GPT-4的视觉识别能力,以及通过强化学习获得的先进推理功能。Operator不仅能够“看见”网页内容(通过截图),还能利用鼠标和键盘执行网页上的所有操作。在遇到操作难题时,CUA模型会运用推理能力进行自我调整,若无法解决则会将控制权交还用户

为了更直观地理解Operator的能力,让我们通过实际案例来探讨。Operator的界面设计与ChatGPT相似,但关键在于它能够调用“AI代理”功能,直接执行用户的指令。

在演示案例中,当用户要求Operator预订某餐厅的晚餐时,只需在对话框中输入“给我订一个XX饭店今晚19点的桌子”,Operator便会自动打开网页,访问预订平台,搜索餐厅并完成预订流程。若所选时段已满,Operator还会智能询问用户是否愿意调整时间

在另一个场景中,用户上传了一张包含“鸡蛋、菠菜、蘑菇”等商品的购物清单,要求Operator在在线超市进行采购。Operator随即打开浏览器,按照清单逐一搜索商品并加入购物车

完成任务后,Operator会向用户报告总金额及预计送达时间,然后将浏览器的控制权归还给用户。

OpenAI同时提醒用户,尽管Operator是目前市场上最先进的AI代理工具,但与人类相比仍有较大差距。例如,在浏览器使用基准测试中,OpenAI的CUA模型得分为58.1%,而人类平均水平高达78%。因此,这项新技术在应用中仍可能犯错,但OpenAI承诺将在未来数月内持续优化改进。

(信息来源:财联社)