字节跳动发布豆包视觉理解模型，加速AI技术普惠

财经聚焦 2024-12-18 16:17:14 来源：中国证券报作者：网络

AI导读：

字节跳动在火山引擎Force大会上发布豆包视觉理解模型，以极低成本推动AI技术普惠和应用发展，多款产品迎来重要更新，大模型应用正加速落地。

继大语言模型价格迈入厘时代后，视觉理解模型也紧跟步伐，宣布正式步入“厘时代”。

在12月18日火山引擎Force大会上，字节跳动震撼发布豆包视觉理解模型，该模型凭借极具性价比的多模态大模型能力，为用户带来前所未有的体验。其千tokens输入价格仅为3厘，一元钱可处理高达284张720P的图片，价格优势显著，比行业平均水平低85％，有力推动了AI技术的普及与应用发展。

研究显示，人类接收的信息中超过80%来自视觉。视觉理解技术的引入，将极大拓展大模型的能力边界，降低交互门槛，解锁更多应用场景。火山引擎总裁谭待在会上介绍，豆包视觉理解模型不仅精准识别视觉内容，更具备卓越的理解和推理能力，能够完成分析图表、处理代码、解答学科问题等复杂任务，同时具备细腻的视觉描述和创作能力。

豆包视觉理解模型已接入豆包App和PC端产品，致力于提升用户输入体验。豆包战略研究负责人周昊表示，豆包一直在努力优化多模态输入能力，包括语音、视觉等，并已通过火山引擎向企业客户开放。

会上，豆包3D生成模型首次亮相，与火山引擎数字孪生平台veOmniverse结合，形成了一套支持AIGC创作的物理世界仿真模拟器，可高效完成智能训练、数据合成和数字资产制作。

此外，豆包大模型多款产品也迎来重要更新：豆包通用模型pro已全面对齐GPT-4o，但使用价格仅为后者的1/8；音乐模型从生成60秒简单结构，升级为生成3分钟完整作品；文生图模型2.1版本更是首次实现精准生成汉字和一句话P图的产品化能力，并已接入即梦AI和豆包App。

字节跳动宣布，2025年春季将推出具备更长视频生成能力的豆包视频生成模型1.5版，豆包端到端实时语音模型也将很快上线，解锁多角色演绎、方言转换等新能力。谭待表示，豆包大模型虽发布较晚，但迭代迅速，已成为国内最全面、技术最领先的大模型之一。

大模型应用正加速落地。截至12月中旬，豆包通用模型日均tokens使用量已超过4万亿，较首次发布时增长了33倍。豆包大模型已与八成主流汽车品牌合作，并接入多家手机、PC等智能终端，覆盖终端设备约3亿台，智能终端调用量半年内增长100倍。

谭待认为，豆包大模型市场份额的爆发，得益于火山引擎“更强模型、更低成本、更易落地”的发展理念，让AI成为普惠科技，惠及每一家企业。云原生计算范式正迎来AI云原生的新时代，火山引擎希望通过AI云原生和豆包大模型家族，助力企业实现AI创新，驶向更美好的未来。

（图片来源：中国证券报；文章内容仅供参考，不构成投资建议）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。