阿里全面开源视频生成模型万相2.1，引领AI开源新潮流

财经聚焦 2025-02-26 09:20:50 来源：界面新闻作者：网络

AI导读：

阿里巴巴全面开源旗下视频生成模型万相2.1，该模型在权威评测中领先国内外竞品。通过自研架构提升建模能力，支持高效视频生成与处理，且支持中文文字生成及特效。阿里基于Apache 2.0协议全面开源，未来或将有更多企业加入开源行列。

2月25日晚间，阿里巴巴全面开源旗下视频生成模型万相2.1，这是阿里云通义系列AI模型的重要一环，于2025年1月发布。在权威评测集VBench中，万相2.1以86.22%的总分遥遥领先Sora、Luma、Pika等国内外模型，稳居榜首。

万相2.1通过自研的高效变分自编码器（VAE）和动态图变换器（DiT）架构，极大提升了时空上下文建模能力。这一创新设计使得模型能更精准捕捉现实世界的动态变化，同时借由参数共享机制，显著降低了训练成本。

该模型巧妙地将视频切割为多个块（Chunk），并缓存中间特征，有效避免了传统端到端编解码的复杂性，支持1080P视频的高效生成与处理，且长度不受限。

万相2.1还是首个支持中文文字及中英文文字特效生成的视频模型。它能严格遵循镜头移动等指令，长文本指令也能准确理解和执行。

此外，模型在模拟现实世界物理规律方面表现出色，如雨滴溅起水花、人物运动自然过渡等。处理复杂运动时，如花样滑冰、游泳，万相2.1能保持肢体协调性和运动轨迹真实性。

阿里基于Apache 2.0协议，全面开源万相2.1的14B和1.3B两个参数规格的全部推理代码和权重，全球开发者可在Github、HuggingFace和魔搭社区下载体验。

14B模型在指令遵循、复杂运动生成上表现尤为突出，而1.3B版本则能在消费级显卡上运行，仅需8.2GB显存即可生成高质量视频，适合二次模型开发和学术研究，降低了使用门槛。

AI行业开源趋势愈发明显，此前阶跃星辰已开源全球最大、性能最优的开源视频生成模型Step-Video-T2V。阿里的开源进一步推动了这一潮流。

开源为开发者提供了强大工具，加速了视频生成领域的技术创新和应用拓展。Deepseek、百度文心大模型等也在持续开源。国外方面，OpenAI CEO承认闭源策略错误，马斯克的Grok-3则采取有限开源模式。

未来，预计将有更多企业和团队加入开源行列，推动大模型技术快速传播和普及。

（文章来源：界面新闻）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。