字节跳动豆包模型再升级，视觉理解与视频生成能力大幅提升

财经聚焦 2024-12-18 12:55:32 来源：财联社作者：网络

AI导读：

字节跳动豆包模型发布视觉理解模型，价格大幅降低，并预告新一代视频生成大模型。同时，字节在AI硬件端开始布局，算力需求或进一步扩大，有望拉动AI服务器及热管理市场需求。

字节跳动旗下的豆包模型正持续展现其强劲的发展势头，今日再度迎来重大更新。

截至目前，豆包大模型的日均tokens使用量已突破4万亿大关，自发布以来的7个月内，其使用量增长了超过33倍，展现出惊人的增长速度。

在今日的火山引擎Force原动力大会上，豆包又发布了全新的视觉理解模型。这一模型具备卓越的内容识别、理解、推理及视觉描述能力，为用户带来更加丰富的交互体验。火山引擎总裁谭待宣布，豆包视觉理解模型的价格已降至0.003元/千Tokens，这一价格相比行业平均水平降低了85%，无疑将为用户带来更多实惠。

此外，字节跳动还透露，新一代的视频生成大模型豆包将于明年1月正式面世。同时，抖音旗下的图片和视频生成工具即梦AI也展示了其新一代的图片生成模型和动态海报功能，为用户提供了更多样化的创作选择。

从字节跳动的最新动态来看，公司依然坚持在生成式AI领域的“饱和式”投入策略。此前，豆包大模型家族已涵盖了通用大语言、语音合成与识别、图片及视频等不同模态的生成式AI模型。然而，在视觉交互方面仍存在短板。此次发布的视觉理解模型，正好弥补了这一不足，使得“豆包全家桶”在视觉交互上更加完善。

西部证券在12月15日的报告中指出，视觉能力是大模型能力的核心。在人类交互信息中，视觉输入占据了绝大多数。因此，在下一代AI硬件终端中，如AI玩具或AI眼镜等，视觉SoC有望成为标配。这将进一步推动对NAND存储芯片的需求增长。分析师建议关注视觉SoC领域的恒玄科技、星宸科技、安凯微，以及存储领域的东芯股份、普冉股份。

国盛证券也表示，字节跳动凭借其在开放式耳机音频技术、大模型技术以及丰富的软件应用生态方面的优势，有望在AI眼镜产品领域成为核心玩家。

随着豆包从文字大模型向视觉理解模型和视频生成模型的拓展，“豆包+”生态已初步显现。若再加上猫箱、即梦等字节旗下的更多AI应用，字节跳动的算力需求或将再次大幅提升。国盛证券的研报指出，算力已成为字节跳动AI产业链的核心方向。

据分析师测算，仅以豆包类似的文字模型为例，若ChatGPT的月活用户为6亿，则其推理需求约需35万个A100显卡，训练需求则需12万个A100显卡。而对于视频大模型而言，其对算力的需求无疑更高。以即梦AI的视频生成模型Magic Video v2为例，若其月活用户达到1亿，且每天有生成10分钟视频的需求，则需28万个英伟达H100 GPU。若月活用户达到2亿，则对H100的需求将达到55万个。

服务器代工厂英业达已获得了字节跳动、百度、阿里巴巴、腾讯等公司的订单，主要出货形式为L10（机柜组装与测试）及L11（服务器整合与机架布建）。英业达日前表态也暗示了字节等公司对算力的强劲需求。本季度客户对AI服务器的需求较预期强劲，今年AI服务器营收有望同比增长2.5-3倍，明年出货量将进一步增长。

民生证券指出，豆包用户数的快速增长将推动算力中心的扩建，进而带动AI服务器需求的提升。同时，算力中心扩建不仅带来基础建设需求，更将引发对热管理的需求。字节跳动的AI端液冷技术有望在这一领域拉动广阔的市场空间。

据《科创板日报》不完全统计，A股中与字节跳动算力硬件相关的公司有图中所列多家。（附相关公司图片）

（文章来源：财联社）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。