字节跳动发布豆包视觉理解模型，AI价格战再升级

财经聚焦 2024-12-19 10:57:11 来源：蓝鲸财经作者：网络

AI导读：

字节跳动在火山引擎Force大会上发布豆包视觉理解模型，输入价格低至0.003元/千tokens，引发AI价格战。豆包模型具备精准识别视觉内容等能力，应用场景广泛。字节跳动还发布了豆包3D生成模型，并对多款产品进行了更新。

蓝鲸新闻12月19日讯（记者朱俊熹）字节跳动在AI模型领域再次掀起价格战。12月18日，火山引擎Force大会上，字节跳动正式推出了豆包视觉理解模型，其输入价格仅为0.003元/千tokens，标志着多模态模型正式迈入以厘计价的新阶段。

火山引擎介绍称，豆包视觉理解模型的定价相较于行业平均水平低了85%，即一元钱可处理284张720P的图片。与OpenAI GPT-4o（0.0175元/千tokens）、Anthropic Claude 3.5 Sonnet（0.021元/千tokens）及阿里Qwen-Vl-Max（0.02元/千tokens）等国内外其他具备多模态能力的大模型相比，豆包视觉理解模型的价格优势显著。

今年5月，字节跳动发布豆包大模型时，其超低的定价就曾引发行业震动，迫使阿里云、百度、腾讯等头部厂商纷纷跟进降价，从而点燃了国内大模型价格战。随着价格的降低，大模型的应用也迅速加速。火山引擎数据显示，豆包通用模型的日均tokens使用量已超过4万亿，较发布之初增长了33倍。

火山引擎总裁谭待在会上表示，随着模型成本的降低和效果的提升，市场上对模型使用的反馈逐渐增多，企业和开发者开始更加关注模型的调用量和token数。他强调，字节跳动希望以合理、可持续且一步到位的价格，让企业和开发者能够放心使用多模态模型。

豆包视觉理解模型具备精准识别视觉内容的能力，同时能够进行理解和推理、视觉描述等。在演示中，该模型成功识别了动物的影子轮廓、杂志内页的星云以及体检报告的某项具体指标。其应用场景可能涵盖教育领域的判卷指导、作文批改，以及旅游、电商营销等多个领域。

谭待还透露，字节跳动在类o1的推理模型领域也有所布局。豆包视觉理解模型已具备解答数学、物理、代码问题的雏形，完整版推理模型将在进一步完善后推出。

此外，国内其他大模型公司也在视觉方向取得了新进展。独角兽月之暗面发布了视觉思考模型k1，具备精准识别和分布推理思考的能力，在数学、物理、化学等评测中表现优异。私募巨头幻方量化旗下的AI公司DeepSeek也开源了全新视觉模型VL2，强调提升模型视觉能力的重要性。

在火山引擎活动中，字节跳动还发布了豆包3D生成模型，并对多款产品进行了更新。其中，豆包通用模型pro已全面对齐GPT-4o，但使用价格仅为后者的1/8。音乐模型的支持时长从60秒升级至3分钟，文生图模型2.1版本则实现了精准生成汉字、一句话P图等产品化能力。字节跳动预计，明年春季将推出具备更长视频生成能力的豆包视频生成模型1.5版，并很快上线端到端实时语音模型。

谭待认为，AI对话是一个通用的场景，但大模型在生产力、商业化场景中的增速同样迅猛。以近3个月为例，豆包大模型在信息处理场景的调用量增长了39倍，客服与销售场景增长16倍。他强调，聊天功能只是基础，深度推理、视觉理解等功能才是模型发展空间越来越大的前提。

谭待表示，市场仍处于早期阶段，比起竞争，字节跳动更关注用户对复杂语言场景、视觉等方面的需求。与互联网时代C端先于B端崛起不同，大模型的这两个方面并不是割裂的，而是基于同样的模型能力。因此，字节跳动对大模型的判断是To B和To C齐头并进。

对于火山引擎这一对外开放字节技术工具的云厂商而言，AI成为了新的增长机会。谭待指出，拉升火山引擎市场份额的关键在于规模优势和把握住AI大模型这一技术变革。火山引擎从初期起就将字节旗下抖音、今日头条的内部规模与外部规模统一起来建设，具备规模优势。同时，通过豆包模型获得更多关注和新的合作机会。

谭待未透露云收入受大模型带动的具体数据，但对使用大模型的客户数量和使用程度给予了肯定评价。他表示，火山引擎希望从云原生向AI云原生转型，成为这一领域的领军企业。

（文章来源：蓝鲸财经）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。