AI导读:

腾讯正式推出备受瞩目的混元视频生成大模型,并宣布全面开源。该模型具备多种视频生成能力,评测表现优秀,可用于工业级商业场景。开源将加速行业创新步伐。

12月3日,腾讯正式推出了备受瞩目的混元视频生成大模型,标志着腾讯在AI大模型领域的又一重要突破。

腾讯混元大模型此前已具备文生文、文生图及3D生成能力,此次推出的视频生成能力被视为混元系列大模型的最后一块重要拼图,使得腾讯在AI视频生成领域站稳了脚跟。

值得一提的是,腾讯决定将这款视频生成大模型开源,其参数量高达130亿个,是当前市场上最大的视频开源模型。用户可通过腾讯元宝App,在申请通过后,依次点击“AI应用”和“AI视频”使用该功能。

评测表现卓越

记者亲身体验发现,腾讯混元视频生成大模型的功能十分强大,用户只需输入一段描述,即可生成视频。该模型支持中英文双语输入,并提供多种视频尺寸和清晰度选项,满足用户多样化需求。

自去年以来,国内外各类大模型如雨后春笋般涌现,特别是在视频生成领域,以Sora为代表的国外大模型给影视、游戏等行业带来了颠覆性的机遇。而腾讯作为国内数字技术的领军企业,其混元视频大模型的推出自然备受市场关注。

腾讯将混元视频生成大模型与国内外多个顶尖模型进行了评测对比,结果显示,腾讯的模型在文本视频一致性、运动质量和画面质量等多个维度上均表现出色,特别是在人物、人造场所等场景下,其优势更为明显。

评测进一步显示,腾讯混元视频生成大模型能够实现超写实画质,生成高度符合提示词的视频画面,且画面流畅不易变形。在冲浪、跳舞等大幅度运动画面的生成中,该模型能够生成流畅、合理的运动镜头,物体不易变形;光影反射基本符合物理规律,在镜面或照镜子场景中,能够实现镜面内外动作一致。此外,该模型还能在画面主角保持不变的情况下自动切换镜头,这是业界大部分模型所不具备的能力。

视频生成赛道竞争激烈

今年2月,OpenAI发布了首个视频生成模型Sora,标志着视频生成大模型赛道的竞争正式开始。而在国内,今年以来已有多个企业推出了视频生成大模型,如生数科技联合清华大学发布的Vidu、快手的可灵AI、商汤的Vimi以及阿里达摩院的寻光等。

尽管腾讯在AI大模型细分赛道上并非最早入局的企业,但其产品性能表现一直相对优秀。此次发布的混元视频生成大模型最长可生成16秒的视频,与美国Meta公司推出的视频生成大模型相当。

腾讯混元相关负责人表示,混元视频生成大模型的领先能力主要得益于其技术创新。该模型使用了与Sora类似的DiT架构,并在架构设计上进行了多处升级。此外,该模型还适配了新一代文本编码器提升语义遵循能力,采用统一的全注意力机制,使得每帧视频的衔接更为流畅,并能实现主体一致的多视角镜头切换。通过先进的图像视频混合VAE(3D变分编码器),该模型在细节表现方面有了显著提升,特别是高速镜头等场景。

腾讯混元视频生成模型在工业级商业场景中具有广泛应用前景,如广告宣传、动画制作、创意视频生成等。此前,已有多家媒体利用该模型的内部测试版本制作了多部优秀作品。

混元系列大模型全面开源

腾讯宣布将混元视频生成大模型开源,并在Hugging Face平台及Github上发布了包含模型权重、推理代码、模型算法等完整模型。这一举措将吸引全球开发者共同参与模型的改进和优化,推动技术快速发展。

基于腾讯混元的开源模型,开发者及企业无需从头训练即可直接用于推理,并可基于腾讯混元系列打造专属应用及服务。这将节约大量人力及算力成本,加速行业创新步伐。

(文章来源:上海证券报)