AI导读:

字节跳动在火山引擎Force大会上发布豆包视觉理解模型,输入价格低至0.003元/千tokens,引发AI价格战。豆包模型具备精准识别视觉内容等能力,应用场景广泛。字节跳动还发布了豆包3D生成模型,并对多款产品进行了更新。

蓝鲸新闻12月19日讯(记者朱俊熹)字节跳动在AI模型领域再次掀起价格战。12月18日,火山引擎Force大会上,字节跳动正式推出了豆包视觉理解模型,其输入价格仅为0.003元/千tokens,标志着多模态模型正式迈入以厘计价的新阶段。

火山引擎介绍称,豆包视觉理解模型的定价相较于行业平均水平低了85%,即一元钱可处理284张720P的图片。与OpenAI GPT-4o(0.0175元/千tokens)、Anthropic Claude 3.5 Sonnet(0.021元/千tokens)及阿里Qwen-Vl-Max(0.02元/千tokens)等国内外其他具备多模态能力的大模型相比,豆包视觉理解模型的价格优势显著。

今年5月,字节跳动发布豆包大模型时,其超低的定价就曾引发行业震动,迫使阿里云、百度、腾讯等头部厂商纷纷跟进降价,从而点燃了国内大模型价格战。随着价格的降低,大模型的应用也迅速加速。火山引擎数据显示,豆包通用模型的日均tokens使用量已超过4万亿,较发布之初增长了33倍。

火山引擎总裁谭待在会上表示,随着模型成本的降低和效果的提升,市场上对模型使用的反馈逐渐增多,企业和开发者开始更加关注模型的调用量和token数。他强调,字节跳动希望以合理、可持续且一步到位的价格,让企业和开发者能够放心使用多模态模型。

豆包视觉理解模型具备精准识别视觉内容的能力,同时能够进行理解和推理、视觉描述等。在演示中,该模型成功识别了动物的影子轮廓、杂志内页的星云以及体检报告的某项具体指标。其应用场景可能涵盖教育领域的判卷指导、作文批改,以及旅游、电商营销等多个领域。

谭待还透露,字节跳动在类o1的推理模型领域也有所布局。豆包视觉理解模型已具备解答数学、物理、代码问题的雏形,完整版推理模型将在进一步完善后推出。

此外,国内其他大模型公司也在视觉方向取得了新进展。独角兽月之暗面发布了视觉思考模型k1,具备精准识别和分布推理思考的能力,在数学、物理、化学等评测中表现优异。私募巨头幻方量化旗下的AI公司DeepSeek也开源了全新视觉模型VL2,强调提升模型视觉能力的重要性。

在火山引擎活动中,字节跳动还发布了豆包3D生成模型,并对多款产品进行了更新。其中,豆包通用模型pro已全面对齐GPT-4o,但使用价格仅为后者的1/8。音乐模型的支持时长从60秒升级至3分钟,文生图模型2.1版本则实现了精准生成汉字、一句话P图等产品化能力。字节跳动预计,明年春季将推出具备更长视频生成能力的豆包视频生成模型1.5版,并很快上线端到端实时语音模型。

谭待认为,AI对话是一个通用的场景,但大模型在生产力、商业化场景中的增速同样迅猛。以近3个月为例,豆包大模型在信息处理场景的调用量增长了39倍,客服与销售场景增长16倍。他强调,聊天功能只是基础,深度推理、视觉理解等功能才是模型发展空间越来越大的前提。

谭待表示,市场仍处于早期阶段,比起竞争,字节跳动更关注用户对复杂语言场景、视觉等方面的需求。与互联网时代C端先于B端崛起不同,大模型的这两个方面并不是割裂的,而是基于同样的模型能力。因此,字节跳动对大模型的判断是To B和To C齐头并进。

对于火山引擎这一对外开放字节技术工具的云厂商而言,AI成为了新的增长机会。谭待指出,拉升火山引擎市场份额的关键在于规模优势和把握住AI大模型这一技术变革。火山引擎从初期起就将字节旗下抖音、今日头条的内部规模与外部规模统一起来建设,具备规模优势。同时,通过豆包模型获得更多关注和新的合作机会。

谭待未透露云收入受大模型带动的具体数据,但对使用大模型的客户数量和使用程度给予了肯定评价。他表示,火山引擎希望从云原生向AI云原生转型,成为这一领域的领军企业。

(文章来源:蓝鲸财经)