VideoWorld模型引领视觉认知革命,视觉市场迎新机遇
AI导读:
豆包大模型团队发布VideoWorld视频生成实验模型,无需依赖语言模型即可认知世界,为视觉市场带来新机遇。海康威视、萤石网络等视觉技术领先企业有望受益。
财中社2月11日电,事件:2月10日,据豆包大模型团队官宣发布视频生成实验模型“VideoWorld”,不同于Sora、DALL-E、Midjourney等主流多模态模型,VideoWorld在业界首次实现无需依赖语言模型,即可认知世界。该成果标志着开源视频生成模型的最新进展,可仅靠视觉认知世界。
VideoWorld作为一种通用视频生成实验模型,去掉语言模型,实现了统一执行理解和推理任务。同时基于一种潜在动态模型,可高效压缩视频帧间的变化信息,显著提升知识学习效率和效果。且目前该项目代码与模型已开源。在不依赖任何强化学习搜索或奖励函数机制前提下,VideoWorld达到了专业5段9x9围棋水平,并能够在多种环境中,执行机器人任务。
团队认为,视频生成可以成为一种通用的知识学习方法,并在现实世界充当思考和行动的“人工大脑”。模型仅靠“视觉”即可学习知识,“预测”未来,并“理解”因果关系。研究团队构建了两个实验环境:视频围棋对战和视频机器人模拟操控,在保留丰富视觉信息的同时,压缩了关键决策和动作相关的视觉变化,实现了更有效的视频学习。
在未来,豆包团队将着力解决其在真实世界环境中的应用,仍面临着高质量视频生成和多环境泛化等挑战。
以海康威视为代表的“视觉市场”有望在视频大模型的能力催化下收益。作为全球知名的视频监控行业龙头企业,海康威视在2024年度全球安防50强榜单中稳居第一,并在全球视频监控市场中占有率达到25.9%。在庞大的视频监控部署网络下,开源视频大模型的诞生对海康而言无疑是一剂强心针。
萤石网络公司2023年智能家居摄像头业务营收占比62.07%,且连续多年在购物节的天猫、抖音等平台相关类目品牌排行中位列第一。且公司在视觉技术方面拥有硬件、软件、云平台高度融合的生态闭环,端云协同,为智能检测、智能识别、AI分析推理等功能提供了强大支持。视觉大模型的发布有望进一步助推萤石网络视觉领域业务。
(文章来源:财中社)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。