AI导读:

OpenAI春季发布会推出GPT-4o多模态大模型,速度更快且价格更便宜,免费用户也能使用。同时推出macOS桌面应用,未来几周向所有人推出新功能。

北京时间周二凌晨1点,OpenAI举行了备受瞩目的春季发布会,这是自年初“文生视频模型”Sora发布后,再次为市场带来惊喜的时刻。公司首席技术官米拉·穆拉蒂(Mira Murati)在会上宣布了两项重大更新:一是发布了最新的GPT-4o多模态大模型,相较于GPT-4 Turbo,其速度更快且价格更亲民;二是ChatGPT的免费用户现在也能使用GPT-4o模型,进行数据分析、图像分析、互联网搜索、访问应用商店等操作。

付费用户将享受到更高的消息限制,至少是免费用户的5倍。当免费用户达到消息数量上限后,ChatGPT将自动切换回GPT-3.5模型。此外,OpenAI计划在未来一个月左右向Plus用户推出基于GPT-4o优化的语音体验,而macOS用户将率先迎来专为该系统设计的ChatGPT桌面应用,Windows版本则预计在今年晚些时候推出。

米拉·穆拉蒂在直播中表示:“这是我们第一次在易用性方面真正向前迈出了一大步。”她还提到,GPT-4o在实时语音和音频功能方面具备必要的安全性,OpenAI将继续迭代更新,为用户提供更全面的功能。

在演示环节,OpenAI展示了GPT-4o的多项功能,包括实时口译、读取用户情绪等。在实时口译方面,GPT-4o能够准确地将米拉·穆拉蒂的意大利语翻译成英语,并与其他人进行流畅的交流。在读取用户情绪方面,GPT-4o能够识别出用户的微笑,并给出相应的回应。

此外,GPT-4o还能与代码库交互,根据数据分析图表得出一些结论。OpenAI表示,基于GPT-4o的ChatGPT文本和图像输入功能已于本周一上线,语音和视频选项将在未来几周内推出。

OpenAI由微软支持,目前估值已超过800亿美元。然而,该公司正面临在生成式AI市场保持领先地位的压力,并需要实现盈利。尽管如此,OpenAI仍在不断努力创新,为用户提供更优质的服务。

GPT-4o的发布标志着OpenAI在人机交互方面迈出了重要一步。它接受文本、音频和图像的任意组合作为输入内容,并生成文本、音频和图像的任意组合输出内容。这使得用户能够以更自然的方式与机器进行交互。

值得一提的是,GPT-4o在响应音频输入方面表现出色。它可以在最快232毫秒的时间内响应音频输入,平均响应时间为320毫秒,这与人类在对话中的响应时间相似。此外,GPT-4o在视觉和音频理解方面也取得了显著进步。

在直播活动结束时,米拉·穆拉蒂感谢了英伟达首席执行官黄仁勋及其公司提供的必要图形处理单元(GPU),这些GPU为OpenAI的技术提供了强大动力。

据外媒报道,2023年生成式AI市场的交易额达到了创纪录的291亿美元,预计未来十年内该市场将突破1万亿美元收入大关。ChatGPT自推出以来便备受瞩目,如今每周活跃用户已接近1亿。

OpenAI表示,他们希望消除科技中的一些神秘感,并计划在未来几周内向所有人推出这些新功能。

图片来源:视频截图

图片来源:视频截图

图片来源:视频截图

图片来源:视频截图

图片来源:视频截图

图片来源:CNBC报道截图

图片来源:OpenAI官网截图