AI导读:

在2025中关村论坛年会上,清华大学人工智能研究院发布了高可控视频大模型Vidu Q1,该模型在多主体细节可控、音效同步可控、画质增强等方面取得显著成效,引领AI视频生成技术革新。

  北京商报讯(记者孔文燮)3月29日,在2025中关村论坛年会“人工智能主题日”未来人工智能先锋论坛上,清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军发布了高可控视频大模型Vidu Q1。Vidu Q1作为业内首个高可控AI视频大模型,在多主体细节可控(特别是动作、布局可控)、音效同步可控、画质增强等方面均取得显著成效,引领AI视频生成技术革新。

  在多主体细节可控方面,Vidu Q1通过结合语义指令与参考图的视觉指令,实现了对场景中多主体位置、大小、运动轨迹等属性的精细控制,以及对动作行为的精准调整。这一创新使得用户能够以更低的抽卡率获得更高质量的可控生成视频,极大提升了创作效率。

  音效同步可控功能更是Vidu Q1的一大亮点,它能根据视频环境与画面转场,智能输出相应音效,并精准控制音效的长短区间及出现时间点,如0-2秒风声、3-5秒雨声等,不仅节省了时间,更增强了视频的沉浸感与感染力。

  Vidu Q1针对AI视频生成过程中的随机性问题,通过引入多元素控制,实现了从无序到有序、从不可控到可控的转变,让AI视频生成逐渐与精益求精的制作标准相契合,为AI视频领域带来了新的发展机遇。

(文章来源:北京商报)