VideoWorld模型引领视觉认知革命，视觉市场迎新机遇

商业视界 2025-02-11 20:18:13 来源：财中社作者：网络

AI导读：

豆包大模型团队发布VideoWorld视频生成实验模型，无需依赖语言模型即可认知世界，为视觉市场带来新机遇。海康威视、萤石网络等视觉技术领先企业有望受益。

财中社2月11日电，事件：2月10日，据豆包大模型团队官宣发布视频生成实验模型“VideoWorld”，不同于Sora、DALL-E、Midjourney等主流多模态模型，VideoWorld在业界首次实现无需依赖语言模型，即可认知世界。该成果标志着开源视频生成模型的最新进展，可仅靠视觉认知世界。

VideoWorld作为一种通用视频生成实验模型，去掉语言模型，实现了统一执行理解和推理任务。同时基于一种潜在动态模型，可高效压缩视频帧间的变化信息，显著提升知识学习效率和效果。且目前该项目代码与模型已开源。在不依赖任何强化学习搜索或奖励函数机制前提下，VideoWorld达到了专业5段9x9围棋水平，并能够在多种环境中，执行机器人任务。

团队认为，视频生成可以成为一种通用的知识学习方法，并在现实世界充当思考和行动的“人工大脑”。模型仅靠“视觉”即可学习知识，“预测”未来，并“理解”因果关系。研究团队构建了两个实验环境：视频围棋对战和视频机器人模拟操控，在保留丰富视觉信息的同时，压缩了关键决策和动作相关的视觉变化，实现了更有效的视频学习。

在未来，豆包团队将着力解决其在真实世界环境中的应用，仍面临着高质量视频生成和多环境泛化等挑战。

以海康威视为代表的“视觉市场”有望在视频大模型的能力催化下收益。作为全球知名的视频监控行业龙头企业，海康威视在2024年度全球安防50强榜单中稳居第一，并在全球视频监控市场中占有率达到25.9%。在庞大的视频监控部署网络下，开源视频大模型的诞生对海康而言无疑是一剂强心针。

萤石网络公司2023年智能家居摄像头业务营收占比62.07%，且连续多年在购物节的天猫、抖音等平台相关类目品牌排行中位列第一。且公司在视觉技术方面拥有硬件、软件、云平台高度融合的生态闭环，端云协同，为智能检测、智能识别、AI分析推理等功能提供了强大支持。视觉大模型的发布有望进一步助推萤石网络视觉领域业务。

（文章来源：财中社）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。