AI导读:

智谱发布CogView4,首个支持生成汉字的开源文生图模型,具备复杂语义对齐和指令跟随能力,支持中英双语输入,成为开源文生图模型中的SOTA。这一创新将推动AI技术在广告、短视频等领域的应用。

  刚预告完今年将全系列开源,智谱便火速上线新模型。

  3月4日,智谱宣布发布“智谱2025开源年”的首个模型:首个支持生成汉字的开源文生图模型——CogView4。CogView4具备强大的复杂语义对齐和指令跟随能力,支持任意长度的中英双语输入,能够生成给定范围内的任意分辨率图像,同时拥有卓越的文字生成能力。这一创新在AI领域具有里程碑意义。

  在DPG-Bench基准测试中,CogView4的综合评分位居榜首,成为开源文生图模型中的SOTA(State-of-the-art)。DPG-Bench专注于评估模型在复杂语义对齐和指令跟随方面的性能。

智谱开源年“首秀”

  智谱,由清华大学计算机系技术成果转化而来,成立于2019年,是大模型“六小虎”之一。近期,智谱成功完成超10亿元的战略融资,投资方包括杭州城投产业基金、上城资本等。

  “作为国内开源大模型的先行者,智谱致力于推动AI普惠。2025年作为智谱的开源年,我们将陆续开源基础模型、推理模型、多模态模型等。”智谱相关负责人表示。

  CogView4的两大技术亮点:

  一是支持中英双语提示词输入,尤其擅长理解和遵循中文提示词,是首个能在画面中生成汉字的开源文生图模型,满足广告、短视频等领域的创意需求。

  二是支持任意长度提示词输入,生成任意分辨率图像,提升用户创作自由度及训练效率。

  CogView4应用示例

  CogView4擅长理解中文提示词,如描绘古诗文中的意境。

  CogView4应用示例

  面对复杂、细节丰富的提示词,CogView4也能按要求生成精细画面。

  此外,CogView4遵循Apache 2.0协议,该协议以其灵活性和商业友好性,广泛应用于开源项目和商业软件。

“六小虎”开源加速

  “开源的‘春天’已至!”

  在2025全球开发者先锋大会上,上海开源信息技术协会秘书长朱其罡表示。Deepseek的崛起,使开源成为AI行业的共识。

  开源与闭源,两种软件开发模式。开源公开源代码,允许任何人查看、修改和使用;闭源则不公开源代码。过去,开闭源路线之争激烈,但2025年以来,越来越多企业选择加速开源。

  MiniMax副总裁刘华透露,新一代01系列模型的开源只是第一步,MiniMax将持续打造开源生态,推出更好的多模态模型。

  他认为,开源将加速大模型行业发展。高水平模型的开源,让大众免费体验优秀技术,提高AI渗透率。同时,开源展现技术实力,吸引更多开发者加入。

  阶跃星辰与吉利汽车集团联合宣布,Step系列多模态大模型将向全球开发者开源。

  阶跃星辰创始人、CEO姜大昕表示,开源模型受到广泛关注,产业侧有更多伙伴加入开源生态,包括技术社区、创作社区等。

  姜大昕透露,开源模型在海外平台曝光量近千万,GitHub收藏数增速远超同类模型。

  香港科技大学校董会主席沈向洋认为,开源与闭源非对立商业模式。未来一两年,格局将巨变。应寻找平衡的商业模式。

  “DeepSeek展示了开源社区的力量。开源了不起的模型,让更多人有机会在此基础上创造更多奇迹。”沈向洋说。

  作者:孙小程

(文章来源:上海证券报)