找期货配资 “十万卡集群”要来了，科技巨头竞逐AI算力极限

发布日期：2024-10-26 01:56 点击次数：77

“万卡集群”被业界视作是这一轮大模型竞赛的“入场券”，现在，“十万卡集群”成为科技巨头们竞逐的新高地。

美联储降息将如何影响A股资产？华创策略首席分析师姚佩表示，历史上，美联储降息前后，短期内A股整体受影响不明显。复盘2000年以来美联储的4次降息周期，从美联储降息前后1个月至3个月内的A股表现来看，市场整体涨跌并没有显著规律。上证综指在4次美联储开启降息前1个月至降息后1个月中，一次获得正收益（2007年9月），另外三次均小幅下跌。

“很快就会有更多的10万卡集群出现。”9月25日，百度集团执行副总裁沈抖在百度智云大会上这样说。

他提到，过去一年已经感受到客户的模型训练需求猛增，需要的集群规模越来越大，与此同时，大家对模型推理成本的持续下降的预期也越来越高。这些都对GPU管理的稳定性和有效性提出了更高要求。当天，百度升级AI异构计算平台百舸4.0，具备了10万卡集群部署和管理能力。

事实上，这一轮生成式人工智能爆发的背后，一定程度上归功于“大力出奇迹”，业界通过不断增加算力堆叠，实现大模型性能的飞跃。万卡集群也因此被业界视作是进入AI核心圈的“标配”。但现在，即便是万卡也不能够完全满足需求。不仅百度，越来越多的行业巨头正在布局十万卡集群，以追求更高的计算效率和大模型性能。

不久前的云栖大会上，阿里云展示了围绕 AI 时代的新基建，其中单网络集群已拓展至十万卡级别，正在从芯片、服务器、网络、存储到散热、供电、数据中心等方方面面，重新打造面向未来的 AI 先进基础设施。

9月初时马斯克在社交媒体上宣布，旗下AI初创公司xAI 打造的超级 AI 训练集群 Colossus 已经正式上线，搭建用时 122 天，共有 10 万块英伟达 H100 GPU 加速卡，而在未来几个月将再翻倍增加10万块GPU，其中5万为更先进的 H200。

更早之前，Meta首席执行官马克·扎克伯格曾在年初宣布计划购买35万块英伟达H100 GPU，将Meta的算力扩展到相当于60万块英伟达H100 GPU的水平。OpenAI没有透露过确切的GPU使用量，但业界猜测接近十万块。百川智能CEO王小川曾对第一财经记者透露，自己此前在硅谷走访时，OpenAI正在设计能够将1000万块GPU连在一起的计算模型，“这种想法像登月一样。”

“今天一家通用大模型公司如果没有万卡，就不好说自己是大模型公司了。” 香港科技大学校董会主席沈向洋更在不久前调侃：“谈卡伤感情，没卡没感情”。而摩尔线程CEO张建中也在接受记者采访时表示，在AI主战场，万卡是最低标配，因为大模型竞争激烈，缩短训练时间是企业的基本诉求。

算力是推动大模型发展的核心动力。但从千卡到万卡再到十万卡，不是算力的简单堆叠。在科技巨头竞逐AI算力极限背后，沈向洋指出，从2012年开始，每年大模型需要的算力都在增长，一开始几年是六七倍的增长，最近几年稳定下来，每年是四倍左右的增长。而随着大模型的参数越来越大，大模型对算力的要求已经由线性增长进化到平方向的增长。

但构建十万卡集群是一项复杂的系统工程，不仅意味着算力的指数级增长，还涉及复杂的技术和运营挑战。这些集群需要解决高效能计算、高能耗管理、高密度机房设计、高稳定性训练等一系列问题。而且即便智算中心已配备了超大规模的集群，最终能否将这些算力有效释放，还取决于算法、软件架构的优化与调度能力。

沈抖对包括第一财经在内的媒体表示，管理10万卡的集群与管理万卡集群有本质不同。要部署10万卡这么大规模的集群，光是在物理层面就要占据大概10万平方米的空间，相当于14个标准足球场的面积。在能耗方面，这些服务器一天就要消耗大约300万千瓦时的电力，相当于北京市东城区一天的居民用电量。

这种对于空间和能源的巨大需求，远远超过了传统机房部署方式所能承载的范畴，这意味着科技巨头不得不考虑跨地域的机房部署，这带来了网络层面的巨大挑战。

同时，巨额的建设、运营成本是一大难题。沈抖告诉记者，建一个万卡集群，单是GPU的采购成本就高达几十亿。

此前Anthropic首席执行官也表示，当前AI模型训练成本是10亿美元，未来三年，这个数字可能会上升到100亿美元甚至1000亿美元。

随着集群规模的扩大，如何高效利用每一块GPU的算力成为关键挑战。一位业内人士告诉记者，万卡集群已经面临卡间和节点间的互联网络、软件和硬件的适配调优等问题，而十万卡集群则需要更精细化的设计和优化，构建超高精度和高可靠性的网络，包括引入新型芯片设计、超节点技术、跨节点互联网络技术等。

“你本身的集群调度效率怎么样？调度效率有时候会被大家忽略掉，超大规模的集群不是你的卡每时每刻都在用。大模型大规模的参数，在超大规模集群里面怎么样做模型的拆分，才能真正让算力有效发挥出来，这是非常关键的。”有AI芯片从业者这样表示。

还有一大挑战就是稳定性问题。在如此大规模的集群上，运维的复杂性急剧增加。硬件不可避免地会出故障，而规模越大，出故障的概率就越高。业界常常拿Meta训练Llama模型举例，该模型用的是1.6万卡算力集群，大概每隔两三个小时整个训练任务就要因此重新开始，回到上一个Checkpoint（检查点）。“如果推演到10万卡，意味着每30分钟训练就要中断一次，有效训练时长占比会非常低。”沈抖告诉记者。

他称，在这些故障中，绝大多数是由GPU引起的。其实GPU是一种很敏感的硬件，连中午天气温度的波动，都会影响到GPU的故障率。

“这些挑战迫使我们重新思考如何构建、管理和维护这样庞大而复杂的GPU集群，屏蔽硬件层的复杂性，为大模型落地的全流程提供一个简单、好用的算力平台，让用户能够更容易地管理GPU算力、低成本地用好算力。”沈抖告诉记者。

举报第一财经广告合作，请点击这里此内容为第一财经原创，著作权归第一财经所有。未经第一财经书面授权，不得以任何方式加以使用，包括转载、摘编、复制或建立镜像。第一财经保留追究侵权者法律责任的权利。如需获得授权请联系第一财经版权部：021-22002972或021-22002335；banquan@yicai.com。文章作者