ChatGPT高级语音模式发布:实时视频通话、屏幕共享功能亮相
AI导读:
OpenAI推出ChatGPT高级语音模式,支持实时视频通话、屏幕共享和图像上传,标志着向具身智能终极形态迈进。新功能大幅提升了AI交互体验,为AI教育工具作出示范。
技术分享日第六天,OpenAI推出了ChatGPT的高级语音模式,该模式带来了实时视频通话、屏幕共享和图像上传功能,标志着其向“本心”目标更进一步。ChatGPT正式迈入视频通话时代,视觉与听觉交互能力全面升级。
OpenAI CEO Altman曾在专访中表示,他最喜欢的AI电影是《她》,并希望开发出类似电影中快速响应的虚拟助手。此次更新的高级语音模式,正是向这一目标迈进的重要一步。
在《她》这部电影中,机器人女友展现了具身智能的终极形态,能够与人无障碍交互。如今,ChatGPT通过此次升级,正逐步接近这一理想状态。
此前,ChatGPT的DAN模式已能低延迟交流、模仿人类语气,而此次升级后,ChatGPT不仅能听会说,还解锁了视觉能力,通过摄像头“睁眼看世界”,实现了更全面的交互体验。
此次分享直播中,OpenAI的首席产品官Kevin Weil等四位员工介绍了更新的功能。高级语音模式的实时视频通话功能尤为引人注目。在演示中,ChatGPT能够用圣诞老人限定语音回答带有驯鹿角的同事的名字,展现了其“记忆”能力。
此外,ChatGPT还能通过视频通话教人操作手冲咖啡设备,声音自然亲切,调整语气,甚至像人类一样大笑,展现了其强大的交互能力和情感理解能力。
屏幕共享功能则让ChatGPT能够“看”到用户的屏幕,提供实时视频理解能力。用户只需点击图标选择分享屏幕,就能获得针对性的帮助。在演示中,ChatGPT展现了“高情商”的一面,建议用户夸赞对方的圣诞装饰。
高级语音模式支持超过50种语言,9种逼真输出语音选项,每种语音都有独特的语气和特征。其背后的GPT-4o不仅能将语音转换为文本,还能理解和标记音频的其他功能,如呼吸和情感。
这一升级不仅大幅提升了ChatGPT作为AI陪伴工具的体验感,也为更高效强大的AI教育工具作出了示范。新功能即日起在ChatGPT移动应用中推出,并将在一周内向所有团队用户以及大多数Plus和Pro用户开放。
(文章来源:财联社)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。