OpenAI发布首款AI代理工具Operator,引领AI技术新篇章
AI导读:
OpenAI发布首款AI代理工具Operator,能够代理用户执行基于网页的操作,标志着AI技术从被动工具转变为数字生态系统中的积极参与者,为企业和用户提供创新体验。
OpenAI震撼发布:首款AI代理工具Operator正式亮相!
美国科技创新先锋OpenAI于1月23日通过一场突如其来的直播活动,隆重推出了市场翘首以盼的AI代理工具Operator,这款工具能够代理用户执行基于网页的复杂操作,标志着AI技术迈入崭新阶段。
图片来源:直播视频截图
简而言之,Operator能够模拟人类行为,在网页浏览器中自由穿梭,执行各类任务。
与传统的问答式聊天机器人截然不同,AI代理能够在人类有限监督下自主完成任务,这一突破被视为AI生产力发展的下一个重要里程碑。在OpenAI迈向通用人工智能(AGI)的征途中,AI代理是继聊天机器人、推理机器人后的第三大关键步骤。
据OpenAI创始人山姆·奥尔特曼介绍,自1月23日起,美国的ChatGPT Pro用户(月费200美元)将率先体验“研究预览版”的Operator。未来,该服务将逐步扩展至更多区域的Pro用户,并在数月内向ChatGPT Plus用户开放。同时,OpenAI计划在接下来几周至几个月内,陆续发布更多AI代理产品。
目前,Operator仍处于研究预览阶段,仅面向美国地区的Pro用户开放。
Operator的核心驱动力来自一个名为CUA(计算机使用代理)的全新模型,该模型融合了GPT-4的视觉能力,并通过强化学习实现了高级推理功能。Operator不仅能够“看见”网页(截图),还能利用鼠标和键盘执行所有允许的操作与网页互动。在操作中遇到困难时,模型会调用推理能力自我修正,若无法解决则请求人类接管。
使用Operator极为便捷,用户只需简单描述任务需求,Operator即可自动完成后续步骤,用户可随时接管远程浏览器的控制权。出于安全性和隐私性的考虑,Operator在需要登录、输入支付信息或解决CAPTCHA验证码等敏感任务时,会主动请求用户接管。
Operator的界面设计与聊天机器人ChatGPT相似,但最大区别在于其能够调用“AI代理”完成用户指派的任务。
在演示案例中,Operator被要求预订某餐厅。用户只需在对话框中输入“为我预订XX餐厅今晚19点的座位”,AI代理便会自动打开网页,进入预订网站,搜索并预订餐厅。
Operator还能自动填写繁琐的在线表单、在线购物、创建表情包、处理重复性浏览器任务等。
在另一个案例中,用户上传了一张包含“鸡蛋、菠菜、蘑菇”等杂货的购物清单,要求Operator在购物网站上进行操作。随后,AI代理便打开浏览器,按照清单逐一搜索商品并加入购物车。
任务完成后,Operator会告知用户总费用及预计送达时间,并将浏览器控制权交还用户。
类似浏览器的多标签页功能,用户可通过创建新对话,让Operator同时运行多个任务,如在Etsy上定制个性化珐琅杯,同时在Hipcamp上预订露营地。
Operator的自我纠错能力同样令人印象深刻。面对挑战或错误时,它能利用推理能力进行自我调整。若遇无法解决的问题,Operator会将控制权交还用户,实现人机协作的流畅体验。
尽管CUA模型仍处于早期阶段,存在局限性,但在WebArena和WebVoyager这两个关键的浏览器使用基准测试中,它已取得最新领先水平。
Operator的发布标志着AI从被动工具转变为数字生态系统中的积极参与者。它不仅能简化用户任务,还将为寻求创新客户体验和提高转化率的企业带来代理优势。
OpenAI正与DoorDash、Instacart、OpenTable、Priceline、StubHub、Thumbtack、Uber等公司合作,确保Operator能满足真实世界需求,并尊重既有规范。此外,OpenAI还看到了在公共部门应用中提高效率和可访问性的巨大潜力,正与斯托克顿市等组织合作,简化市民注册城市服务和计划的流程。
本文综合自公开资料,旨在提供关于OpenAI Operator的最新动态与解读。
(文章来源:每日经济新闻)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。