大干快上，大模型加速数据中心行业洗牌

原文来源：钛媒体

作者：张帅

图片来源：由无界 AI生成

大模型，是数据中心产业十年一遇的变革。

相比于以GPT为代表的大模型带来的现象级热度，数据中心产业太不「性感」了。长久以来，数据中心产业较为成熟，但是重资产、长周期、年折旧额高的属性，注定了它不是一门互联网式的快生意，也缺少激动人心的故事。

但不论是互联网，还是如今的大模型，数字世界都得依靠物理基础。简而化之，AI产业的最上层是各种应用，如人脸识别、工业大脑、智能客服，当然还有ChatGPT，支撑这些应用的则是云计算平台，承载了大模型和算力调度等软件功能，数据中心在更下一层，“风、火、水、电”基础设施，加上芯片、服务器等，海量数据的存储和计算都在此发生。

上层应用技术，直接影响底层数字基础设施，数据中心层级的变化往往容易被忽略，实际上，通信、互联网、云计算和大模型的发展，分别对应机房、数据中心、云数据中心、智算中心（AIDC）的不同形态，尤其是大模型代表的人工智能技术，可能比此前所有的影响加起来还要大。

中国信息通信研究院云计算与大数据研究所所长何宝宏表示，“今天的数据中心仍然是传统技术和创新技术混合，再过大概十年，我们会进入数据中心原生的时代，这些技术是土生土长专用于数据中心，比较有代表性的如液冷技术、智算中心的飞速发展。”

2023年，数据中心行业之间的交流频率明显多了起来，在产业变换的关键节点，一面是客户需求驱动下的“大干快上”，另一面则是未被厘清的新技术路线，大模型让数据中心厂商隐约嗅到了行业洗牌的味道。

“数据中心大干快上，就等GPU了”

过去一年，中国数据中心产业开启了一场算力进化的新征程，国家政策点名了方向。2023年10月份，工信部六部委印发《算力基础设施高质量行动计划》，首次提出了算力中心相关的概念和发展要求，将通用数据中心、智算中心、超算中心都纳入了算力基础设施的内涵。

其中明确到2025年，算力规模要超过300EFLOPS，智能算力占比达到35%以上，重点行业的核心数据、重要数据的灾备覆盖率要达到百分之百，每个重点领域要打造30个应用标杆等。

与此同时，数据中心全面智算化，截至2023年上半年，全国在用的数据中心总规模超过760万标准机架，算力总规模达到了197EFLOPS，已经位居全球第二。新增的算力设施中，智能算力的占比超过了50%，成为了增长的新热点。

根据科智咨询最新统计的数据，2023年1月份到12月份初，全国立项规划建设的智算中心的项目数量达到118个，其中规划算力大于1000P的项目16个，大于500P以上的26个，大于100P以上的项目56个。

而对于大部分数据中心服务商来说，今年的主旋律就是一边大干快上新建智算中心，一边等AI算力卡，更准确地说，是主要依赖GPU供应市场份额90%的英伟达，否则只能选择性能和产能不足的其他供应商。

数据中心服务的核心是服务器，其架构设计也是围绕服务器，当服务器发生任何一种变化，数据中心就要相应做出调整，结合客户预算和需求做兼容或创新的改变。大模型火爆之前，纯GPU服务器的数据中心很少，充其量就是大规模数据中心有少数几个GPU服务器机房，而且由于GPU的成本高昂，只有大型互联网等企业才有相应储备。

一位数据中心业内人士提到，“2023年是算力大元年，全行业都在抢GPU卡，而且是疯狂地抢，因为受到贸易政策的影响，现在进入到暂缓供应的阶段，目前大家还是在积极部署数据中心，预计未来一段时间行业会有非常大的发展空间。”

“理论上客户需求的紧迫性走在我们前面，但是客户也受限于上游GPU的供应，能不能按计划拿到足量的算力卡是关键。我们与算力客户先做算力中心规划设计，先把符合需求的算力中心楼建造出来，分阶段交付机电等，让客户有卡就能立马上架”，普洛斯数据中心平台产品部副总裁韩玉说。

韩玉透露，今年接到的需求中，超过七成以上都是智算中心的需求，由于大模型对算力的需求异常旺盛，大模型厂商对数据中心建设的时间表也一再压缩。

在2014年左右，云数据中心的建设从空地开始，到机电交付是11个月，在2019年，行业领先的水平大概能做到9个月左右，今天数据中心可以做到从空地开始建设，到测试完成上架大概在7个半月左右。

以普洛斯今年交付的某项目为例，该客户布局大模型之后需要自己的智算中心，4月下订单，8月底安装完，9月底做验收，10月份整个项目已经投入运营，数据中心整体建筑采用了大量预制模块，包括钢结构的预制楼、预制制冷模块、电力组合标准模块、预制机柜及通道密封预制化，从而实现快速交付。

大模型如何改变数据中心

为了满足大模型的训练需求，智算中心有几大明显的变化，首先是服务器和机柜功率显著提高，传统x86架构的通用计算服务器，标准形态是2U2节点或4节点，一台服务器功率600W—900W，四十多U的机柜空间里插12—15台服务器，其余部分是交换机、电源等模块。到了智算时代，一台GPU服务器八张GPU卡加两个CPU，至少10千瓦、12千瓦起步。

以前一台服务器里既有CPU，又有内存和硬盘，今天的GPU服务器更像一种纯算力的堆叠，在一定规模下，大模型训练效率随着GPU数量增加而提高，前提是网络时延足够低。

智算中心的第二大变化，便是短距离传输，降低网络时延。韩玉表示，通用服务器架构设计需要算力经网卡互联造成转换速率较慢，英伟达实现了CPU直连GPU的直接通信的架构设计，算力效率数量级提升，更高功率、更短距离、更低时延、更可靠的GPU互联，是大模型训练的基础。

“今天的智算业务集群里，网络成本超过20%，短距离高可靠性的低延时，是大家愿意投入去创新优化的环节，因为足够有性价比。”他说。

第三，目前智算中心还未完全定型，架构设计要具备高度兼容性。合盈数据CTO 周天宇提到，芯片、功率密度、风液混合，三者均存在变数，一个数据中心的寿命如果以20年计，基础设施如何应对由于芯片，不同制冷方式带来的散热挑战，也是行业面临的共性问题。

周天宇说，美国芯片禁令一次次严峻，从V系列到A系列，再到H系列，加上国产芯片以华为为代表的昇腾910B，一纸禁令就可能导致某款芯片断货，数据中心要能兼容不同类型、不同品牌、不同系列的芯片，不同芯片的采用直接影响服务器的功率密度，而高功率密度呼唤更高效率的制冷方案。

前述人士认为，国外要封锁中国的AI算力，只能是短期封锁，国内一些集成电路厂商或者GPU厂商正在加速发展，大概需要1—2年的时间缓冲，原来数据中心适应的是国外GPU服务器，现在开始考虑适应国内GPU和CPU服务器，机遇远远大于挑战。

科华数据股份有限公司高级副总裁邹建忠也表示，机柜功率密度越大，芯片液冷散热的比重就会越高，结合南北方的天气因素，北方气候条件比较好，对液冷需求相对没那么高，南方则必须要有液冷，政策严格限制PUE在1.2到1.3左右，传统风冷方案远远没办法满足，只要功率密度上升，液冷是必经之路。

大模型训练消耗了高昂的电力成本，而推理对于算力的需求可能是训练的10倍。从电力成本的角度考量，无论是面向训练还是推理，行业内形成了基本共识，支持大模型训练的智算中心，大家基本上倾向于到相对偏远、电费比较低的地方，推理还是放在离城市比较近的区域，更多是环一线城市。

韩玉解释道，云计算中心的业务本身就需要很短的数据交互和灾备切换，大量业务在做实时计算，大模型所在的智算中心则不同，当一家大模型厂商有上亿用户，用户问的问题分类相同，推理和计算需求大致相同的基本都算过了，只需要很小的网络接入的服务就可以，计算和推理可以适度解耦，后台专注大模型大需求算力，前台推理分布布局。

新型智算中心的建设逻辑

“如果今天我们想做新一代的智算中心，一定不要想着‘穿旧鞋走新路’，一定要有新的思维、新的方法来应对智算中心的需求和发展。”周天宇道出了行业的集体思考。

智算中心的建设牵一发而动全身，十几兆瓦的传统数据中心，已经算大规模数据中心，有时需要一两年，甚至两三年才放满服务器，但是今天在建的智算中心，十几兆瓦是起步，算力集群规模越来越大，就算是七十兆瓦的智算中心，十几万张GPU就能吃光电力。

传统云计算中心承载的是同城两点之间可漂移的云业务，今天的算力集群完全不同，很多数据中心已经把网络连到了推算一体，单一数据中心体量特别大。

据悉，美国纯CPU的数据中心机柜在15千瓦左右，GPU机柜平均在25千瓦，国内很多大厂单个机柜的密度能上升到70—100千瓦，风液兼容是比较大的趋势。随着AIGC时代的到来，美国一个数据中心园区能达到200兆瓦—500兆瓦，单栋数据中心考虑到网络、GPU、光纤等因素，数十兆瓦规模更多。

“我们遇到最新需求是要在一个园区里直接做一个5万卡的大集群、60兆瓦的一个单体，跟云计算分成几个楼和若干集群是完全不一样的概念，结果就是单机功率很高，单元区越来越大。这时候优先需求维度是算力效率怎么最大化和算力最佳性价比，其次才是优化PUE。解决方案就是堆高功率密度和集中空间，结合最短光纤直连。所以智算时代，基础设施弹性就是最大的挑战。”韩玉说。

为了满足高密度兼容弹性需求，普洛斯智算中心的建筑模型在规划阶段，就把建筑外部空间到机柜内部空间，做成几个模式组合，比如说40个10千瓦或者10个40千瓦服务器，怎么在一个空间里承载，在更短距离实现收敛，同时兼容风冷和液冷的不同制冷方式，冷水系统也可做到全预制化，上下均可堆叠，液冷机柜可以前布线也可以后布线，并在建筑上方预留出制冷空间，解决风冷或者液冷的扩展问题。

邹建忠提到，板式液冷和浸没式液冷，是行业不同的创新方向，取决于现阶段客户评估的收益，过去的英伟达H800等芯片原生不支持液冷也就没有大批应用，如果新机房长期功耗特别大，浸没式液冷会更合适，但是如果从投资收益来看，前期投资太高，浸没式液冷的投资收益并不好。