AI导读:

阿里巴巴全面开源旗下视频生成模型万相2.1,该模型在权威评测中领先国内外竞品。通过自研架构提升建模能力,支持高效视频生成与处理,且支持中文文字生成及特效。阿里基于Apache 2.0协议全面开源,未来或将有更多企业加入开源行列。

2月25日晚间,阿里巴巴全面开源旗下视频生成模型万相2.1,这是阿里云通义系列AI模型的重要一环,于2025年1月发布。在权威评测集VBench中,万相2.1以86.22%的总分遥遥领先Sora、Luma、Pika等国内外模型,稳居榜首。

万相2.1通过自研的高效变分自编码器(VAE)和动态图变换器(DiT)架构,极大提升了时空上下文建模能力。这一创新设计使得模型能更精准捕捉现实世界的动态变化,同时借由参数共享机制,显著降低了训练成本。

该模型巧妙地将视频切割为多个块(Chunk),并缓存中间特征,有效避免了传统端到端编解码的复杂性,支持1080P视频的高效生成与处理,且长度不受限。

万相2.1还是首个支持中文文字及中英文文字特效生成的视频模型。它能严格遵循镜头移动等指令,长文本指令也能准确理解和执行。

此外,模型在模拟现实世界物理规律方面表现出色,如雨滴溅起水花、人物运动自然过渡等。处理复杂运动时,如花样滑冰、游泳,万相2.1能保持肢体协调性和运动轨迹真实性。

阿里基于Apache 2.0协议,全面开源万相2.1的14B和1.3B两个参数规格的全部推理代码和权重,全球开发者可在Github、HuggingFace和魔搭社区下载体验。

14B模型在指令遵循、复杂运动生成上表现尤为突出,而1.3B版本则能在消费级显卡上运行,仅需8.2GB显存即可生成高质量视频,适合二次模型开发和学术研究,降低了使用门槛。

AI行业开源趋势愈发明显,此前阶跃星辰已开源全球最大、性能最优的开源视频生成模型Step-Video-T2V。阿里的开源进一步推动了这一潮流。

开源为开发者提供了强大工具,加速了视频生成领域的技术创新和应用拓展。Deepseek、百度文心大模型等也在持续开源。国外方面,OpenAI CEO承认闭源策略错误,马斯克的Grok-3则采取有限开源模式。

未来,预计将有更多企业和团队加入开源行列,推动大模型技术快速传播和普及。

(文章来源:界面新闻)