AI多模态交互趋势加速，豆包视觉理解模型引领行业变革

财经聚焦 2024-12-18 21:49:11 来源：21世纪经济报道作者：网络

AI导读：

随着AI技术演进，多模态交互成为AI应用重要趋势。OpenAI、字节跳动等科技企业纷纷布局AI视频生成赛道。豆包视觉理解模型发布，推动AI技术普惠和应用发展。生成式AI市场规模持续增长，覆盖多行业应用场景。

随着AI技术的不断进步，多模态交互已成为AI应用的重要趋势。近年来，海内外科技企业纷纷布局AI视频生成领域。

今年2月，OpenAI首次发布了Sora，并在近期正式上线，向包括美国在内的多数国家用户开放。用户可以在OpenAI官网上体验这一产品。而在国内，字节跳动、快手、智谱AI、阿里云等科技企业也在积极发力视频生成模型。

根据Omdia的预测，全球生成式AI市场在未来五年将迎来爆发式增长，市场规模预计将从2024年的146亿美元增长到2029年的728亿美元，增长幅度高达五倍。这一趋势在2024火山引擎FORCE原动力大会上得到了进一步印证。火山引擎总裁谭待在会上表示，大模型的商业化潜力巨大，随着模型能力的提升，能解决的问题越来越多，应用的形态也将发生变化。

12月18日，字节跳动正式发布了豆包视觉理解模型。这一模型能够极大地拓展大模型的能力边界，降低人们与大模型交互的门槛，解锁更丰富的应用场景。谭待指出，聊天功能虽然基础，但要处理更复杂的任务，解锁更多场景，就需要加入深度推理、图像视觉理解等能力。这也是模型发展空间越来越大的前提。

豆包视觉理解模型的内容识别能力已经覆盖图像知识、动作情绪、位置状态、中国传统文化、文字信息、理解和推理能力（图表、数学、逻辑、代码等），以及更细腻的视觉描述能力（细节描述、指令遵循、多种文体创作等）。值得一提的是，豆包视觉理解模型千tokens输入价格仅为3厘，一元钱就可处理284张720P的图片，比行业价格便宜85％，以更低成本推动AI技术普惠和应用发展。

今年以来，海内外多家科技企业积极投入资源押注视频生成产品。相较于今年2月份首次发布的版本，OpenAI在12月10日上线的Sora新增了Storyboard、Remix、Re-cut等功能，视频再创作能力大幅提升，还优化了视频生成速度及生成方式。国内公司也紧随其后，纷纷发力AI视频生成产品。例如，快手发布了可灵AI视频生成大模型，智谱AI上线了视频生成产品智谱清影，字节跳动推出了即梦AI一站式创作平台。

近日，字节跳动视频生成模型PixelDance已在豆包电脑版正式开启内测，用户每日可免费生成10个视频。PixelDance视频生成模型最早通过即梦AI、火山引擎面向创作者和企业客户小范围邀测，外部对其多镜头组合、运镜切换及人物运动能力评价较好。目前，基于该模型的视频生成能力已在豆包电脑版陆续开放。

在行业应用方面，大模型正在向各行各业加速渗透。以豆包大模型为例，它已经与八成主流汽车品牌合作，并接入到多家品牌的手机、PC等智能终端，覆盖终端设备约3亿台。来自智能终端的豆包大模型调用量在近半年时间内增长100倍。此外，豆包通用模型的日均tokens使用量也已超过4万亿，较七个月前首次发布时增长了33倍。

在企业端的实践中，豆包大模型在信息处理、客服与销售、硬件终端、AI工具等场景的调用量也均有大幅增长。谭待表示，大模型本身在很多场景，特别是生产力场景里面会非常“大”。这些场景与生产力性能、商业场景相关，增速并不比聊天类场景慢，现在呈现多元化发展。

根据Omdia报告，生成式AI已经在各行各业得到广泛应用，覆盖了120个行业应用场景。而中国互联网络信息中心（CNNIC）发布的《生成式人工智能应用发展报告〔2024〕》显示，截至2024年6月，我国生成式人工智能产品的用户规模已达到2.3亿人，占整体人口的16.4%。

（文章来源：21世纪经济报道）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。