AI导读:

随着AI技术演进,多模态交互成为AI应用重要趋势。OpenAI、字节跳动等科技企业纷纷布局AI视频生成赛道。豆包视觉理解模型发布,推动AI技术普惠和应用发展。生成式AI市场规模持续增长,覆盖多行业应用场景。

随着AI技术的不断进步,多模态交互已成为AI应用的重要趋势。近年来,海内外科技企业纷纷布局AI视频生成领域。

今年2月,OpenAI首次发布了Sora,并在近期正式上线,向包括美国在内的多数国家用户开放。用户可以在OpenAI官网上体验这一产品。而在国内,字节跳动、快手、智谱AI、阿里云等科技企业也在积极发力视频生成模型。

根据Omdia的预测,全球生成式AI市场在未来五年将迎来爆发式增长,市场规模预计将从2024年的146亿美元增长到2029年的728亿美元,增长幅度高达五倍。这一趋势在2024火山引擎FORCE原动力大会上得到了进一步印证。火山引擎总裁谭待在会上表示,大模型的商业化潜力巨大,随着模型能力的提升,能解决的问题越来越多,应用的形态也将发生变化。

12月18日,字节跳动正式发布了豆包视觉理解模型。这一模型能够极大地拓展大模型的能力边界,降低人们与大模型交互的门槛,解锁更丰富的应用场景。谭待指出,聊天功能虽然基础,但要处理更复杂的任务,解锁更多场景,就需要加入深度推理、图像视觉理解等能力。这也是模型发展空间越来越大的前提。

豆包视觉理解模型的内容识别能力已经覆盖图像知识、动作情绪、位置状态、中国传统文化、文字信息、理解和推理能力(图表、数学、逻辑、代码等),以及更细腻的视觉描述能力(细节描述、指令遵循、多种文体创作等)。值得一提的是,豆包视觉理解模型千tokens输入价格仅为3厘,一元钱就可处理284张720P的图片,比行业价格便宜85%,以更低成本推动AI技术普惠和应用发展。

今年以来,海内外多家科技企业积极投入资源押注视频生成产品。相较于今年2月份首次发布的版本,OpenAI在12月10日上线的Sora新增了Storyboard、Remix、Re-cut等功能,视频再创作能力大幅提升,还优化了视频生成速度及生成方式。国内公司也紧随其后,纷纷发力AI视频生成产品。例如,快手发布了可灵AI视频生成大模型,智谱AI上线了视频生成产品智谱清影,字节跳动推出了即梦AI一站式创作平台。

近日,字节跳动视频生成模型PixelDance已在豆包电脑版正式开启内测,用户每日可免费生成10个视频。PixelDance视频生成模型最早通过即梦AI、火山引擎面向创作者和企业客户小范围邀测,外部对其多镜头组合、运镜切换及人物运动能力评价较好。目前,基于该模型的视频生成能力已在豆包电脑版陆续开放。

在行业应用方面,大模型正在向各行各业加速渗透。以豆包大模型为例,它已经与八成主流汽车品牌合作,并接入到多家品牌的手机、PC等智能终端,覆盖终端设备约3亿台。来自智能终端的豆包大模型调用量在近半年时间内增长100倍。此外,豆包通用模型的日均tokens使用量也已超过4万亿,较七个月前首次发布时增长了33倍。

在企业端的实践中,豆包大模型在信息处理、客服与销售、硬件终端、AI工具等场景的调用量也均有大幅增长。谭待表示,大模型本身在很多场景,特别是生产力场景里面会非常“大”。这些场景与生产力性能、商业场景相关,增速并不比聊天类场景慢,现在呈现多元化发展。

根据Omdia报告,生成式AI已经在各行各业得到广泛应用,覆盖了120个行业应用场景。而中国互联网络信息中心(CNNIC)发布的《生成式人工智能应用发展报告〔2024〕》显示,截至2024年6月,我国生成式人工智能产品的用户规模已达到2.3亿人,占整体人口的16.4%。

(文章来源:21世纪经济报道)