OpenAI发布首款AI代理工具Operator,开启网页交互新纪元
AI导读:
OpenAI震撼发布首款AI代理工具Operator,能够代理用户执行基于网页的操作,标志着AI技术的新飞跃。Operator结合了GPT-4的视觉能力和高级推理,能够像人类一样使用网页浏览器,为用户带来前所未有的交互体验。
美国科技创新企业OpenAI于周四通过直播活动震撼发布,正式推出了市场翘首以盼的首款AI代理工具Operator,该工具能够代理用户在网页上执行各类操作,标志着AI技术的新飞跃。
简而言之,Operator能够模拟人类使用网页浏览器的行为,实现了前所未有的交互体验。
与传统的聊天机器人相比,AI代理工具Operator能够在有限的人类监督下,按照预设任务自主执行操作,这一创新被视为AI生产力迈向通用人工智能(AGI)的又一重要里程碑。在OpenAI的AGI发展路径中,Operator紧随聊天机器人和推理机器人之后,作为第三步战略的核心组成部分,开启了全新的技术篇章。
据OpenAI首席执行官山姆·奥尔特曼介绍,自周四起,美国的ChatGPT Pro订阅用户(月费200美元)将率先体验到“研究预览版”的Operator。未来,该服务将逐步扩展至更多地区的Pro用户,并计划在几个月内对ChatGPT Plus用户开放。同时,OpenAI透露将在未来几周至几个月内陆续发布更多AI代理工具。
深入解读Operator
Operator的核心驱动力来自一个名为CUA(计算机使用代理)的全新模型,该模型融合了GPT-4的视觉识别能力,以及通过强化学习获得的先进推理功能。Operator不仅能够“看见”网页内容(通过截图),还能利用鼠标和键盘执行网页上的所有操作。在遇到操作难题时,CUA模型会运用推理能力进行自我调整,若无法解决则会将控制权交还用户。
为了更直观地理解Operator的能力,让我们通过实际案例来探讨。Operator的界面设计与ChatGPT相似,但关键在于它能够调用“AI代理”功能,直接执行用户的指令。
在演示案例中,当用户要求Operator预订某餐厅的晚餐时,只需在对话框中输入“给我订一个XX饭店今晚19点的桌子”,Operator便会自动打开网页,访问预订平台,搜索餐厅并完成预订流程。若所选时段已满,Operator还会智能询问用户是否愿意调整时间。
在另一个场景中,用户上传了一张包含“鸡蛋、菠菜、蘑菇”等商品的购物清单,要求Operator在在线超市进行采购。Operator随即打开浏览器,按照清单逐一搜索商品并加入购物车。
完成任务后,Operator会向用户报告总金额及预计送达时间,然后将浏览器的控制权归还给用户。
OpenAI同时提醒用户,尽管Operator是目前市场上最先进的AI代理工具,但与人类相比仍有较大差距。例如,在浏览器使用基准测试中,OpenAI的CUA模型得分为58.1%,而人类平均水平高达78%。因此,这项新技术在应用中仍可能犯错,但OpenAI承诺将在未来数月内持续优化改进。
(信息来源:财联社)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。