AI导读:

高端智算中心是冲击通用人工智能的关键基础设施,但中国面临算力供需结构性失衡。业界探索“超算+智算”融合方案,百度点亮自研昆仑芯三代万卡集群,但国产AI芯片仍面临挑战。张云泉建议出台管理办法,引导高端算力发展。

尽管Deepseek通过工程优化,降低了模型训练所需算力,但全国政协委员张云泉认为,这并不意味着高端智算中心建设可以松口气了。相反,高端智算中心是冲击通用人工智能(AGI)等更高层次目标的关键基础设施,对于国家算力战略至关重要。

张云泉是中国科学院计算技术研究所研究员,长期致力于高性能计算研究。他向南都记者表示,目前许多国产AI芯片主要集中在低精度计算领域,智算中心也往往只考虑低精度训练算力需求。这种配置虽能一定程度上缓解“算力荒”,但大模型的规模效应仍在,后续技术演进充满不确定性,国家仍需在战略层面跟进高端算力投资。

然而,张云泉指出,当前中国能够支撑大模型训练的高端智算中心极为稀少,面临算力供需结构性失衡的问题。

高端算力紧缺,智算中心建设亟待加强

智算中心不同于通用算力中心,它主要提供人工智能应用所需算力服务,是大模型产业的基础设施。其建设主体包括地方政府、基础电信运营商和云厂商。中商产业研究院数据显示,截至2024年8月,地方政府和基础电信运营商主导建设的智算中心项目占比过半,互联网及云厂商项目数量占比约17.7%。

据张云泉调研,国内已知的最大单体智算中心算力与国际领先水平差两个数量级。而且,高端智算中心的性能要求极高,需达到万卡10Eflops以上,而国内主要智算中心单体规模仅在100-1000Pflops之间。相比之下,马斯克旗下xAI公司的Colossus算力集群总算力规模达200Eflops。

此外,高端智算中心还要求单机柜功率密度达到40-100kW,但国内主流机架功率密度远低于此要求。同时,国内能开展大模型训练的智算中心的GPU训练效率不超过30%,计算效率偏低。

张云泉认为,智算中心建设缺乏行业评价标准,芯片架构跟不上大模型演化速度,是导致高端算力供给不足的原因之一。因此,他建议出台高端智算中心建设管理办法,建立准入标准,引导高端算力发展。

同时,张云泉指出,过度强调国产化也在一定程度上加剧了供需失衡。他建议智算中心应结合实际需求,合理引入国外先进成熟的GPU。

“超智融合”或成缓解算力荒新路径

为了缓解高端智算紧缺问题,业界开始探索“超算+智算”的融合方案。百度智能云成功点亮自研昆仑芯三代万卡集群,标志着国内接近国外前沿水平。但国产AI芯片仍面临诸多挑战。

张云泉解释说,“超智融合”是将国产超算积累的关键技术赋能高端智算中心建设和大模型高效训推优化过程。中国工程院院士郑纬民也指出,国产AI芯片生态系统尚不完善,但国家超算系统可利用空闲资源支持大模型训练。

张云泉认为,“超智融合”是目前能看到的最优路径,但需紧盯最新大模型算法进展,针对大模型训练和推理进行目标优化,并解决超算技术与国产AI智算芯片适配问题。

(文章来源:南方都市报)