AI导读:

豆包大模型团队发布VideoWorld视频生成实验模型,无需依赖语言模型即可认知世界,为视觉市场带来新机遇。海康威视、萤石网络等视觉技术领先企业有望受益。

财中社2月11日电,事件:2月10日,据豆包大模型团队官宣发布视频生成实验模型“VideoWorld”,不同于Sora、DALL-E、Midjourney等主流多模态模型,VideoWorld在业界首次实现无需依赖语言模型,即可认知世界。该成果标志着开源视频生成模型的最新进展,可仅靠视觉认知世界。

VideoWorld作为一种通用视频生成实验模型,去掉语言模型,实现了统一执行理解和推理任务。同时基于一种潜在动态模型,可高效压缩视频帧间的变化信息,显著提升知识学习效率和效果。且目前该项目代码与模型已开源。在不依赖任何强化学习搜索或奖励函数机制前提下,VideoWorld达到了专业5段9x9围棋水平,并能够在多种环境中,执行机器人任务。

团队认为,视频生成可以成为一种通用的知识学习方法,并在现实世界充当思考和行动的“人工大脑”。模型仅靠“视觉”即可学习知识,“预测”未来,并“理解”因果关系。研究团队构建了两个实验环境:视频围棋对战和视频机器人模拟操控,在保留丰富视觉信息的同时,压缩了关键决策和动作相关的视觉变化,实现了更有效的视频学习。

在未来,豆包团队将着力解决其在真实世界环境中的应用,仍面临着高质量视频生成和多环境泛化等挑战。

以海康威视为代表的“视觉市场”有望在视频大模型的能力催化下收益。作为全球知名的视频监控行业龙头企业,海康威视在2024年度全球安防50强榜单中稳居第一,并在全球视频监控市场中占有率达到25.9%。在庞大的视频监控部署网络下,开源视频大模型的诞生对海康而言无疑是一剂强心针。

萤石网络公司2023年智能家居摄像头业务营收占比62.07%,且连续多年在购物节的天猫、抖音等平台相关类目品牌排行中位列第一。且公司在视觉技术方面拥有硬件、软件、云平台高度融合的生态闭环,端云协同,为智能检测、智能识别、AI分析推理等功能提供了强大支持。视觉大模型的发布有望进一步助推萤石网络视觉领域业务。

(文章来源:财中社)