液冷新时代 智算大有为 浩云长盛液冷数据中心最佳实践
(资料图片)
浩云长盛广州二号云计算基地,是华南区首家大型商用液冷数据中心,采用冷板式液冷技术,助力AI算力业务降本增效:提升算力性能10%,降低GPU芯片维护成本50%,节省IB线缆投资30%。
低碳与数字双驱动,未来GPU资源持续火热
数据中心是国家信息化战略的重要基础设施底座,发展的好坏快慢直接影响战略落地。政策、经济、社会、技术都在为数据中心行业高质量发展提供新动能。《“十四五”规划》明确指出,到2025年,数字经济核心产业增加值占GDP比重达到10%,同时到2025年单位GDP能耗下降13.5%,从发展规划中一叶知秋,中国数字经济既要快速发展,更要高质量发展。
2023年3月,Open AI的ChatGPT 4.0大模型发布,将人工智能的应用推向了新的高度,该模型在许多专业测试中的表现“超出了人类水平”,“比以往任何时候都更具创造性和协作性”,“可以更准确地解决难题”,ChatGPT单月访问量突破10亿次。与此同时,各个行业都在积极探索人工智能与行业结合之路,如微软将ChatGPT接入Office 365,工作效率成倍增加。
这一股AI浪潮也冲击了算力基础设施底座。人工智能深度神经网络算法(DNL)需要处理大量且并行的卷积运算,而GPU显卡则能很好地匹配这种特性。基于业务侧的带动,加上A100的禁售,用于大模型训练的GPU一卡难求,价格变化更是按天衡量,8卡H100服务器从60万到150万只用了3个月的时间。未来,GPU短缺的趋势可能会维持,OpenAI的ChatGPT GPT 4.0在大约10000-25000张A100上进行了训练,而GPT 5.0将可能需要30000-50000个H100。
低碳高密 风退液进
这一系列宏观环境的变化,对数据中心行业发展方向产生了诸多影响,风冷末端到底能不能适应这一变化?在我们看来,风冷不能很好匹配业务需求的变化。
首先,风冷不能很好应对PUE挑战,目前各省对数据中心PUE已经有明确的指导,以广东省为例,广东省工业和信息化厅印发了广东省5G基站和数据中心(IDC)总体布局规划(2021-2025)的通知,新建数据中心PUE不高于1.3,这对于广东地区来说,是非常具备挑战性要求。
其次,风冷的散热效率和制冷精度不够高。GPU芯片的功耗一定是趋向高密的,英伟达GPU A100/H100 单卡功率接近400W,芯片热流密度 50W/平方厘米,4U整机服务器功率接近 5.5kW/台,英伟达主推的下一代算力卡,A800/H800算力是上一代的3倍,价格只有原来的2倍,功耗接近2倍,单卡功率接近700W,热流密度87.5W/平方厘米,4U整机接近9kW,算力硬件功率越来越高,芯片热流密度越来越大,传统风冷难匹配:
1. 风冷制冷效率低,不适合高功率机柜。风冷密闭通道支持的合理功率区间4~6kW,但单个4U的H800整机已经接近9kW,此时风冷制冷对于如此高密设备的散热有点力不从心,少量服务器场景下,能采用隔机柜部署方式应急,这种非集约化部署模式在规模化的算力场景下,散热效果并不佳,个别客户会把GPU服务器外壳打开,增加散热面积。这种部署方式没有经过专业的CFD仿真验证,既不安全,又会造成机柜资源浪费。
2. 风冷制冷对于热源(GPU)的制冷不够精准。纯气流组织散热支持的芯片热流密度极限约10W/平方厘米,达不到H800对散热效率的要求。芯片长期工作在高温状态,会导致性能降低,英伟达同样性能服务器,液冷版本和风冷版本性能差距在10%;同时,根据“十度法则”,从室温起,电子元器件每增加十度,失效率增加一倍,寿命也会降低,GPU备件失效率增加,继而导致整个生命周下期算力成本增加。
实践中常常会有通道温度低,但是芯片温度高的情况发生,长时间高温运行,GPU的寿命短和性能低,导致经济成本和时间成本都增加,由此可见在算力场景,风冷并不是最合适的。液冷是通过高比热容的冷液直接带走热量,这种高效的散热方式逐渐进入大家的视野。
液冷解决方案,是GPU算力的最优解
浩云长盛广州二号云计算基地,位于广东省广州市番禺区,大湾区的中心和智能汽车产业中心(双中心),本项目按照国标CQC A级标准设计,定位为智能制造AI算力基地,是华南区首家大规模商用液冷数据中心,支持功率密度8~19KW以上,单系统PUE 1.1以下,为华南区智能制造、AI超算高质量发展提供可靠数字基础设施底座。
冷板式液冷基本原理
液冷基本原理是采用液体作为传热工质在冷板内部流道流动,通过热传递对热源实现冷却的非接触液体冷却技术。在冷板式液冷系统中,需要专用的液冷服务器,服务器芯片等发热器件不直接接触液体,而是通过装配在需要冷却的电子元器件上的冷板进行散热,达到精确制冷的目的,让GPU运行温度更低。
二次侧采用25%乙二醇加去离子水的混合液,保障换热高效的同时兼顾安全稳定。进水温度35-45℃范围之间,出水温度在45-55℃左右,进出水温高,系统通过自然冷却为芯片降温,降低系统PUE。一次侧和二次侧通过板换实现热交换,二次侧的水泵将热量从板换中带出到冷却塔散掉。
整个系统来看,跟传统的制冷方式是有区别的:
1. 换热次数少,传统冷机系统5次换热,冷板液冷3次,更少的冷量损耗;
2. 精准散热,冷板式液冷能够针对GPU芯片单点降温,且冷液的比热容是空气的4倍,换热效率更高,对GPU更友好;
3. 无压缩机,风扇等部件,系统PUE更低,设备噪音更小。
冷板式液冷对比传统气流交换方式,在综合性能上有质的飞跃,更贴合算力业务的特点,液冷系统单柜功率密度支持19kW以上,能提高散热效率,降低GPU工作温度达20℃以上。
当然,浩云长盛认为目前最佳的方案,应该是风液结合的方案,通道散热风液结合,液冷协助GPU散热,风冷作为辅助散热,带走其余部件的热量;液冷机柜和风冷机柜混合部署,客户的普通机柜和算力机柜能够就近协作,提升配合效率,且方便维护。
液冷是算力业务的刚需
过去,对于最终用户来说,用什么样的制冷方式并不重要,风冷,水冷,间接蒸发,只要能达到功率需求都可以接受,但是在算力时代,思维方式可能要做一些改变了,因为算力资产越来越难获取,也越来越昂贵,而制冷方式的匹配与否,直接影响到业务上线速度和投资成本。
第一,相对风冷制冷环境,液冷能够提升GPU性能10%。根据设定,GPU长期高温运行性能会降低,液冷能提供高效的热散能力,提升GPU使用性能,根据OPPO算力团队在IDCC论坛上表示,通过验证,同样的算力配置,服务器在液冷方式下运行比风冷效率提升约10%,意味着同样的算力,液冷的学习周期比风冷短10%,业务能更早抢占市场。
第二,液冷能够降低IB线缆部署成本30%以上。单台H800服务器4U即达9kW,采用传统的风冷制冷,单柜仅能放置1台,且需隔机柜部署,如果采用冷板式液冷方式,单柜可直接布置2台H800服务器,无需隔机柜部署。以单排微模块15个机柜为例, 7台H800服务器需要14个机柜位,线缆总长度49A(A为相邻两个机柜间的平均线缆连接距离),如果每柜可以放2台,则只需要4个机柜位置(如下图),线缆总长度16A,IB线缆长度节省超50%以上,而IB线缆每根价格在万元级别,长度越长价格越贵。考虑到价格与长度的关系非线性,且与场景有关,项目节省线缆金额在30%以上。
风冷部署与液冷部署线缆使用长度对比
我们相信,传输距离变短也会有利于算力模块之间的数据共享速率提升。有客户明确要求,服务器到IB交换机柜的走线距离小于30米。
第三,液冷能够降低GPU维护成本50%,提升投资收益。液冷冷板针对GPU精准、高效的散热,降低GPU使用温度可达20℃,根据“十度法则”,GPU故障率减少至少50%(在风冷故障率基础之上),继而减少GPU备件购买量,未来GPU市场的不确定性,也会导致GPU的采购难度会加大,采购成本增加,因此维持较低的GPU故障率能够节省投资成本和时间成本,更不会因为GPU卡紧缺,而影响业务连续性。
综上,对于最终客户来说,随着未来技术的迭代,GPU功耗增加,液冷已经不再是改善需求,而是智能算力的刚需。
关键词:
相关阅读
-
液冷新时代 智算大有为 浩云长盛液冷...
浩云长盛广州二号云计算基地,是华南区首家大型商用液冷数据中心,采用 -
京东新设义乌园迈贸易公司 经营范围含...
义乌市园迈贸易有限公司经营范围含销售代理、互联网销售、技术开发、软 -
美国费城一珠宝店遭4名男子抢劫 店员被...
警方在现场调查(美国NBC视频截图)海外网8月21日电据《今日美国》报道 -
以食用橄榄油副产品为原材料 宾利新车...
以食用橄榄油副产品为原材料宾利新车采用全有机皮革该品牌采用了一种新 -
追寻命运的分岔口:张利华与魏骏杰的离...
香港艺人魏骏杰的前妻张利华,在经历离婚后,展现出了多姿多彩的生活, -
中信证券:中信证券国际为CSI MTN Lim...
中信证券(06030)发布公告,该公司境外全资子公司中信证券国际的附属公 -
2023年佛山市南海区招商推介会举行
中国经济导报、中国发展网讯记者皮泽红报道8月18日下午,2023年佛山市 -
江苏南京:高淳743个互助“睦邻点”破解...
高淳743个互助“睦邻点”破解农村养老难题江苏南京:一村一站点养老... -
华如科技:传闻将收购人形机器人公司不属实
有投资者在互动平台向华如科技提问,传闻公司将收购人形机器人公司,是 -
“斜杠青年”:理性跨界让择业更有底气
不满足于“专一职业”的年轻人被称为“斜杠青年”,他们在社会的不... -
沪指失守 3100 点!成交额跌破 7000...
财联社8月21日讯,大盘全天低开低走,三大指数均跌超1%,沪指跌破3100 -
红火炬升学礼 让孩子记住家乡
暑期即将过去,孩子们也将陆续开学,有的要从幼儿园走进小学,有的从高 -
郑州机场联合河南中医药大学一附院开展...
《中国民航报》、中国民航网 记者冯智君报道:暑运期间旅客乘机需求持 -
凡人微光|暖心店主
策划:卓越、王曚、廖清、张鹏、沙琳、刘子畅统筹:焦旭锋、张书旗、屈 -
芜湖跨境电商 “半壁江山”在鸠江
外贸是促进经济增长的“三驾马车”之一,是畅通国内国际双循环的关... -
郑州市经八路街道开学第一课:“声入童...
暑期接近尾声,为促进青少年身心健康,使其以更佳状态投入接下来的学习 -
华美和铜雀台哪个祛斑好?两家全国连锁...
脸上长斑是困扰每个人的问题,用了好多方法效果都不是很明显,还是有反 -
宜昌电子社保卡开通缴费结算功能需要满...
(相关资料图)电子社保卡“缴费结算”功能有什么条件?电子社保卡具... -
两岸青年太湖之畔“金风玉露觅相逢”
中新网苏州8月20日电(记者钟升)“阿里山的姑娘美如水呀,阿里山的少年 -
点燃文化产业高质量发展的“加速器”(...
点燃文化产业高质量发展的“加速器”(人民时评)