AI导读:

清华大学人工智能研究院副院长朱军在中关村论坛上发布了业内首个高可控视频大模型Vidu Q1,强调质量与控制力。中国视频模型在全球处于领先地位,商业化路径迅速。DeepSeek引领大模型开源浪潮,用户关心质量与效率。

人工智能领域,Deepseek在提升大语言模型效率上展现出独特优势,而效率优化的理念在视频模型领域也日益受到重视。清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军近日在接受新京报贝壳财经记者采访时表示,期待视频模型更加可控、易用,惠及每个人。

3月27日至31日,2025中关村论坛年会如期举行。朱军在此次论坛上发布了业内首个高可控视频大模型Vidu Q1,该模型在去年的Vidu基础上实现了质的飞跃。会后,他接受了贝壳财经记者的采访。

朱军在2025中关村论坛发表主题演讲,图片由新京报贝壳财经记者罗亦丹摄

Q代表“质量” 高可控凸显基础模型能力

朱军介绍,Vidu Q1中的Q代表“Quality(质量)”,意味着高质量、高可控。这一提升得益于基础模型能力的增强以及技术创新,从后端实现了高一致性和高可控的结果。

贝壳财经记者通过视频演示观察到,Vidu Q1模型在位置、运动布局、音频等多个维度实现了可控升级,尤其在多主体细节可控方面,通过融入参考图的视觉指令,支持对所有动作行为进行精准调整,实现了更高质量的可控生成。

朱军透露,Vidu在商业化方面坚持C端与B端并重策略。C端业务面向全球市场,增长迅速,能够更好地服务广大用户;B端则针对国内市场,已观察到对MaaS(模型即服务)的广泛需求,今年将同步推进两种业务。

朱军表示,去年Vidu在中关村论坛开幕前一周实现技术突破,受邀展示。今年正值论坛一周年,也是Vidu大模型的一周年,他希望通过此次论坛传达Vidu的最新进展。

视频模型效率为王 中国引领全球发展

朱军指出,尽管大语言模型领域已有领先企业,但视频模型领域却呈现出不同景象。目前,中国的视频模型在全球众多方面处于领先地位。

他还提到,视频模型的商业化路径更为迅速,用户对视频模型的需求广泛,因此视频和文字赛道存在差异。当前,头部视频大模型各具特色,拥有差异化的商业化路径,并未陷入红海竞争。

朱军认为,视频大模型的发展关键在于团队能否持续创新。行业公司密度较低,不太可能出现一家独大的局面。

此外,针对今年DeepSeek引领的大模型开源浪潮,以及阿里云推出的开源视频模型,朱军回应称,DeepSeek之所以打动用户,主要在于其效果好、效率高。从视频模型角度看,用户最关心的仍是质量和效率。

(文章来源:新京报)