AI导读:

英伟达近期遭遇GPU新品散热问题,大客户订单受影响。公司计划推出CPO交换机解决散热和连接问题,但产能和量产进程面临挑战。CPO技术被视为解决未来数据运算处理中海量数据高速传输问题的重要途径,英伟达能否凭借该技术重振雄风仍需时间给出答案。

英伟达近期遭遇了一系列挑战,其GPU新品面临散热难题,大客户订单也因此受到影响。这家昔日的“算力霸主”亟需找到解决之道,以保持其在行业中的领先地位。

据悉,英伟达计划在今年3月的GTC大会上推出CPO交换机,并有望于8月实现量产。该交换机可实现115.2T的信号传输,被视为英伟达解决散热和连接问题的一剂良药。然而,供应链消息称,英伟达对CPO交换机的产能非常着急,GB200系列的出货情况并不乐观。

GB200 NVL72机柜设计复杂,高性能计算带来了高功耗及高散热需求。零部件厂商表示,单机柜问题已大致解决,但多机柜连接问题仍然巨大,机柜连接需要高达8万根铜线,散热、信号干扰等问题也陆续浮现。这些问题已经影响到了英伟达顶级大客户的订单,微软、亚马逊、谷歌和Meta等公司已经选择推迟或取消Blackwell订单,转而投向Hopper。

面对散热和连接问题的步步紧逼,英伟达将目光投向了CPO技术。CPO全称为Co-Packaged Optics,中文译为光电共封装,是一种新型光电子集成技术。通过进一步缩短光信号输入和运算单位之间的电学互连长度,CPO在提高光模块和ASIC芯片之间互连密度的同时,实现了更低功耗,已成为解决未来数据运算处理中海量数据高速传输问题的重要技术途径。

据英伟达研究人员称,随着CPO面世,人们正处于新一场重大变革的边缘。摩根士丹利在最新发布的AI供应链产业报告中指出,CPO具备AI数据中心的传输潜力,预估2023年至2030年期间,其市场规模将从800万美元激增至93亿美元,年复合成长率高达172%。英伟达计划从2025年下半年推出的GB300芯片开始采用CPO技术,Rubin平台也将采用该技术,旨在突破目前NVLink 72互连的限制,提升通信质量。

英伟达并非孤军奋战,在CPO这条路上,它有着众多同行者,包括AMD、思科、IBM和英特尔等巨头。例如,美满电子宣布在定制AI加速器架构上取得突破,整合了CPO技术;IBM宣布实现一项重大CPO技术突破,可以以“光速”训练AI模型,同时节省大量能源;英特尔、AMD、思科等也均在近年推出了CPO原型机。

然而,尽管CPO被视为英伟达解决当前问题的关键,但要想实现量产仍需时日。台积电的董事长魏哲家表示,虽然CPO已经有初步成果,但想要达到量产阶段仍需1年甚至1年半以上时间。分析师也称,CPO进度将影响英伟达Rubin系列的量产进程。供应链透露,目前量产确实有难度,设备部分仍然紧张,良率也有待提升。

尽管如此,英伟达CEO黄仁勋仍表示,Blackwell平台散热技术相对复杂,但系统已开始全面量产,并已开始销售给全球客户。英伟达能否凭借CPO技术重振雄风,仍需时间给出答案。

(图片来源:网络,文章来源:科创板日报)