豆包实时语音大模型发布，展现国产AI软件新实力

国内财经 2025-01-20 17:41:25 来源：科创板日报作者：网络

AI导读：

豆包实时语音大模型正式推出，直接对标GPT-4o，在外部众测中整体满意度较高。该模型展现出接近真人的语音表达水平，为AI情感陪伴提供了新选择，展现了国产AI软件的新实力，有望为AI端侧硬件开辟更广阔市场空间。

1月20日，豆包实时语音大模型震撼发布，标志着AI语音技术迈入了全新的发展阶段。

豆包实时语音大模型是一款集语音理解与生成于一体的先进模型，实现了端到端的语音对话功能，主要面向中文语境和场景（支持英语对话，但暂不支持多语种；在中文范围内，模型也仅支持小部分方言和地方口音的理解和表达，仍有待进一步提升）。

依托于先进的语音和语义联合建模技术，豆包实时语音大模型展现了接近真人的语音表达水平，在语音表现力、控制力以及情绪承接方面均表现出色。此外，该模型还具备低时延、对话中可随时打断等特性，为用户提供了更加自然流畅的交互体验。

值得注意的是，豆包实时语音大模型直接对标国际领先的GPT-4o模型。在外部真实众测中，豆包大模型整体满意度较GPT-4o有明显优势。具体表现在：豆包大模型的语音语气自然度和情绪饱满度远高于GPT-4o，尤其在情商层面，豆包模型在情感理解、情感承接以及情感表达等方面取得了显著进展，能够较为准确地捕捉和回应人类情感信息。此外，豆包模型还贴合中国用户实际需求，发布即上线，具备直接服务亿万用户的能力。

在整体满意度方面，豆包实时语音大模型以4.36分的成绩（满分5分）远超GPT-4o的3.18分。其中，50%的测试者对豆包实时语音大模型的表现打出了满分。

那么，豆包大模型团队是如何实现这一突破的呢？他们研发出了一套端到端框架，深度融合语音与文本模态，面向语音生成和理解进行统一建模，最终实现了多模态输入和输出效果。在预训练阶段，团队深入训练各模态交织数据，精准捕捉并高效压缩海量语音信息，通过Scaling技术，最大程度实现了语音与文本能力的深度融合和能力涌现。在后训练阶段，团队则使用了高质量数据与RL算法，进一步提升模型的高情商对话能力与安全性，并在“智商”与“情商”之间寻求最佳平衡。

实时语音AI的价值体现在多个方面，其中最直接的影响是AI情感陪伴。豆包的语音大模型不仅能够感受到用户的情感，还自带情绪和情感，可以随时打断对话，互动更加拟人化。这种真人级语音对话提供了更为亲和的交互体验和情感价值，使得AI不再呈现冰冷的“人机感”。这一进步考验的是AI的“人性化”程度，也是人类迈向通用人工智能（AGI）的关键里程碑。

豆包在实时语音交互上的进步展现了国产AI软件的强大实力，有望为AI端侧硬件开辟更广阔的市场空间，如AI语音助手硬件以及AI玩具等。目前，AI产品正呈现多模态趋势，最为常见的是语音+文字的多模态交互。随着Transformer架构对信息处理能力的提升，预计从2025年开始，将涌现更多综合性多模态交互方式，深度结合数据集、文本、音频、视频等实现更高维度的人机交互层级。这对硬件侧主控芯片提出了更多更高的要求。据浙商证券分析，产业链重点标的包括恒玄科技、中科蓝讯、乐鑫科技、星宸科技、瑞芯微、炬芯科技、全志科技等。

AI玩具作为具备面部识别、语音识别、自然语言处理等技术，能够与用户对话的机器人，其市场前景同样广阔。随着豆包语音大模型等语言模型的不断演进，AI玩具的功能将不再仅限于对话，还能满足用户的个性化、情感需求。据广发证券分析，AI玩具赛道兼具教育与陪伴属性，是具有真实需求的AI硬件落地方向，该机构重点关注的企业包括实丰文化、汤姆猫、奥飞娱乐、上海电影等。

（文章来源：科创板日报）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。