AI导读:

字节跳动在火山引擎Force大会上发布豆包视觉理解模型,以极低成本推动AI技术普惠和应用发展,多款产品迎来重要更新,大模型应用正加速落地。

继大语言模型价格迈入厘时代后,视觉理解模型也紧跟步伐,宣布正式步入“厘时代”。

在12月18日火山引擎Force大会上,字节跳动震撼发布豆包视觉理解模型,该模型凭借极具性价比的多模态大模型能力,为用户带来前所未有的体验。其千tokens输入价格仅为3厘,一元钱可处理高达284张720P的图片,价格优势显著,比行业平均水平低85%,有力推动了AI技术的普及与应用发展。

研究显示,人类接收的信息中超过80%来自视觉。视觉理解技术的引入,将极大拓展大模型的能力边界,降低交互门槛,解锁更多应用场景。火山引擎总裁谭待在会上介绍,豆包视觉理解模型不仅精准识别视觉内容,更具备卓越的理解和推理能力,能够完成分析图表、处理代码、解答学科问题等复杂任务,同时具备细腻的视觉描述和创作能力。

豆包视觉理解模型已接入豆包App和PC端产品,致力于提升用户输入体验。豆包战略研究负责人周昊表示,豆包一直在努力优化多模态输入能力,包括语音、视觉等,并已通过火山引擎向企业客户开放。

会上,豆包3D生成模型首次亮相,与火山引擎数字孪生平台veOmniverse结合,形成了一套支持AIGC创作的物理世界仿真模拟器,可高效完成智能训练、数据合成和数字资产制作。

此外,豆包大模型多款产品也迎来重要更新:豆包通用模型pro已全面对齐GPT-4o,但使用价格仅为后者的1/8;音乐模型从生成60秒简单结构,升级为生成3分钟完整作品;文生图模型2.1版本更是首次实现精准生成汉字和一句话P图的产品化能力,并已接入即梦AI和豆包App。

字节跳动宣布,2025年春季将推出具备更长视频生成能力的豆包视频生成模型1.5版,豆包端到端实时语音模型也将很快上线,解锁多角色演绎、方言转换等新能力。谭待表示,豆包大模型虽发布较晚,但迭代迅速,已成为国内最全面、技术最领先的大模型之一。

大模型应用正加速落地。截至12月中旬,豆包通用模型日均tokens使用量已超过4万亿,较首次发布时增长了33倍。豆包大模型已与八成主流汽车品牌合作,并接入多家手机、PC等智能终端,覆盖终端设备约3亿台,智能终端调用量半年内增长100倍。

谭待认为,豆包大模型市场份额的爆发,得益于火山引擎“更强模型、更低成本、更易落地”的发展理念,让AI成为普惠科技,惠及每一家企业。云原生计算范式正迎来AI云原生的新时代,火山引擎希望通过AI云原生和豆包大模型家族,助力企业实现AI创新,驶向更美好的未来。

(图片来源:中国证券报;文章内容仅供参考,不构成投资建议)