AI导读:

声网正式发布全球首个对话式AI引擎,支持任意文本大模型快速升级为对话式多模态大模型。随着多模态大模型能力的进化,AIGC应用场景将迎来爆发,该引擎将助力开发者快速部署智能助手、虚拟陪伴等对话式AI场景。

ChatGPT、Deepseek所引发的AI浪潮正在席卷全球,各种AI创新技术层出不穷。

3月6日,《中国经营报》记者从实时互动(RTE)云行业的开创者声网方面获悉,该公司于当日正式发布了全球首个对话式AI引擎。该引擎支持任意文本大模型迅速升级为“能说会道”的对话式多模态大模型,标志着AI交互技术迈出了重要一步。

记者注意到,早在2024年5月,OpenAI发布GPT-4时,就已开始深度探索端到端的实时多模态大模型能力。同年年底,微软的AI也计划拥有实时的语音界面,实现完全动态的交互。而这一切的背后,都离不开声网的兄弟公司Agora的技术支持。

在生成式AI的浪潮之下,多模态大模型被视为实现通用人工智能(AGI)的必经之路。一问一答的文本输入方式,显然不如文本、图片、语音互动来得自然和智能。多位业内人士在接受记者采访时表示,随着技术的逐渐成熟,AI正步入落地应用的新阶段。相比近期火热的Manus等下游应用,AI基础设施的建设更为关键,而“实时互动”能力则是AI实现“能听会看”不可或缺的一环。

让大模型“能说会道”

人与人之间的沟通以语音为主,视觉为辅。视觉的重要性在于信息的丰富度,但信息浓度和沟通效率则更多地依赖于语音。多模态大模型的出现,推动了人与AI交互方式的变革,而语音多模态则是其中的核心。

知名投资机构a16z最新发布的关于Voice AI的报告显示,随着大模型的持续进步,语音将成为关键的切入点。声网一直致力于将RTE与生成式AI相结合,在音视频领域积累了深厚的技术优势与实践经验,并成功推出了对话式AI引擎。

声网AI RTE产品线负责人姚光华透露,为了打造这一引擎,公司内部多个部门包括算法、体验、工程化、测试、产品等都投入了大量精力,甚至在过年期间专门找了一间房间进行集中加班。目前,该引擎的核心体验已达到良好水准,并拥有多项独家功能。

据悉,声网的对话式AI引擎支持包含DeepSeek、ChatGPT等在内的全球几乎所有大模型厂商,同时也支持全球主流语音合成供应商的任意切换。通过全链路深度优化,并在中、美、欧、东南亚主要城市进行实测,语音对话延迟中位数低至650ms,实现了AI秒回提问。

记者现场实测发现,无论是对孙悟空在西天取经路上能力弱化的追问,还是连续打断,该引擎都能迅速反应并给出有逻辑和说服力的答案。

针对现实生活中各种环境人声、噪声干扰的情况,该引擎的“选择性注意力锁定”功能可有效屏蔽95%的环境人声、噪声干扰,精准识别对话人声。同时,声网的对话式AI引擎还提供了极简的开发部署方案,只需2行代码,15分钟即可让AI开口说话,大大降低了开发门槛。

此次对话式AI引擎的另一大卖点是其低成本。AI语音对话仅需0.098元/分钟,单次还赠送1000分钟。自研的“智能打断”功能作为增值服务也仅需0.042元/分钟,以更低的成本助力开发者探索AI应用场景。

姚光华表示,经过与客户的实际使用场景调研,他们统计出用户与AI每次对话平均会有约3轮问答,对话时长约为21.1秒,单次成本仅需3分钱。如果每月对话15次,月成本不到5毛钱,年成本也仅需5元。

声网产品线负责人和利鹏表示,低成本和持续补贴策略旨在让更多人群不会因为价格而不敢使用AI技术,希望通过更多的场景应用带来更大的市场。但前提是保证用户体验越来越好,让用户觉得物有所值。

落地应用是关键

随着多模态大模型能力的不断提升,AIGC应用场景将迎来爆发式增长。

通过声网的对话式AI引擎,开发者可以快速部署智能助手、虚拟陪伴、口语陪练、智能客服、智能硬件等对话式AI场景。例如,智能助手场景可以通过自然语言交互帮助人们进行日程管理、信息查询和任务执行,提升生活便利性并提高工作效率。

据和利鹏透露,现在的产品开发过程中都是动态的,潜在用户不断给予反馈,需要及时响应并不断适应新的场景。“我们把基础能力准备好,让大家在里面去做创新的场景。”

智能硬件场景是当前十分火热的AI应用场景之一。通过嵌入对话式AI引擎,可实现语音控制、智能看护、智能陪伴和个性化服务等功能,将智能设备升级为智能硬件体。这适用于AI玩具、AI教育硬件、AI陪伴设备、家居语音助手、穿戴设备个人助手等多种应用场景。

针对层出不穷的现实应用场景,和利鹏表示,不同的场景有不同的特点和需求,需要找到最合适的落地场景。目前看主要就是延时、交互、陪伴等。“我们内部有十几种场景,其中陪伴类和社交娱乐类场景最为热门,基于IoT设备的小孩陪伴、教育场景的数字人、外呼和AI面试等场景也比较多。”

根据量子位智库推出的AI智能助手用户数据报告显示,截至2024年8月,国内市场的AI智能助手App已超过64款。在AI情感陪伴领域也涌现了Soul、星野、Wow等一系列人气社交App。

2025年,全球实时互动云服务市场正迎来爆发式增长的前夜。IDC预测,到2025年,该市场规模将突破100亿美元,年复合增长率达12%。

和利鹏表示,AI是一个长期且巨大的机会,不是一波热潮,而是一场深刻的变革。AI投入是公司的战略重点,他们在这方面布局和投入不设限,致力于实现产品质量、体验和服务的领先。

“看到DeepSeek给中国科技界带来的正面影响,我们也想参与到这场浪潮中,至少为这场浪潮出一份力。中国企业在这方面是不输别人的。”姚光华表示。

(文章来源:中国经营报)