AI导读:

豆包实时语音大模型正式推出,直接对标GPT-4o,在外部众测中整体满意度较高。该模型展现出接近真人的语音表达水平,为AI情感陪伴提供了新选择,展现了国产AI软件的新实力,有望为AI端侧硬件开辟更广阔市场空间。

1月20日,豆包实时语音大模型震撼发布,标志着AI语音技术迈入了全新的发展阶段。

豆包实时语音大模型是一款集语音理解与生成于一体的先进模型,实现了端到端的语音对话功能,主要面向中文语境和场景(支持英语对话,但暂不支持多语种;在中文范围内,模型也仅支持小部分方言和地方口音的理解和表达,仍有待进一步提升)。

依托于先进的语音和语义联合建模技术,豆包实时语音大模型展现了接近真人的语音表达水平,在语音表现力、控制力以及情绪承接方面均表现出色。此外,该模型还具备低时延、对话中可随时打断等特性,为用户提供了更加自然流畅的交互体验。

值得注意的是,豆包实时语音大模型直接对标国际领先的GPT-4o模型。在外部真实众测中,豆包大模型整体满意度较GPT-4o有明显优势。具体表现在:豆包大模型的语音语气自然度和情绪饱满度远高于GPT-4o,尤其在情商层面,豆包模型在情感理解、情感承接以及情感表达等方面取得了显著进展,能够较为准确地捕捉和回应人类情感信息。此外,豆包模型还贴合中国用户实际需求,发布即上线,具备直接服务亿万用户的能力。

在整体满意度方面,豆包实时语音大模型以4.36分的成绩(满分5分)远超GPT-4o的3.18分。其中,50%的测试者对豆包实时语音大模型的表现打出了满分。

那么,豆包大模型团队是如何实现这一突破的呢?他们研发出了一套端到端框架,深度融合语音与文本模态,面向语音生成和理解进行统一建模,最终实现了多模态输入和输出效果。在预训练阶段,团队深入训练各模态交织数据,精准捕捉并高效压缩海量语音信息,通过Scaling技术,最大程度实现了语音与文本能力的深度融合和能力涌现。在后训练阶段,团队则使用了高质量数据与RL算法,进一步提升模型的高情商对话能力与安全性,并在“智商”与“情商”之间寻求最佳平衡。

实时语音AI的价值体现在多个方面,其中最直接的影响是AI情感陪伴。豆包的语音大模型不仅能够感受到用户的情感,还自带情绪和情感,可以随时打断对话,互动更加拟人化。这种真人级语音对话提供了更为亲和的交互体验和情感价值,使得AI不再呈现冰冷的“人机感”。这一进步考验的是AI的“人性化”程度,也是人类迈向通用人工智能(AGI)的关键里程碑。

豆包在实时语音交互上的进步展现了国产AI软件的强大实力,有望为AI端侧硬件开辟更广阔的市场空间,如AI语音助手硬件以及AI玩具等。目前,AI产品正呈现多模态趋势,最为常见的是语音+文字的多模态交互。随着Transformer架构对信息处理能力的提升,预计从2025年开始,将涌现更多综合性多模态交互方式,深度结合数据集、文本、音频、视频等实现更高维度的人机交互层级。这对硬件侧主控芯片提出了更多更高的要求。据浙商证券分析,产业链重点标的包括恒玄科技、中科蓝讯、乐鑫科技、星宸科技、瑞芯微、炬芯科技、全志科技等。

AI玩具作为具备面部识别、语音识别、自然语言处理等技术,能够与用户对话的机器人,其市场前景同样广阔。随着豆包语音大模型等语言模型的不断演进,AI玩具的功能将不再仅限于对话,还能满足用户的个性化、情感需求。据广发证券分析,AI玩具赛道兼具教育与陪伴属性,是具有真实需求的AI硬件落地方向,该机构重点关注的企业包括实丰文化、汤姆猫、奥飞娱乐、上海电影等。

(文章来源:科创板日报)