為什么服務(wù)器冷卻在數(shù)據(jù)中心行業(yè)如此重要？

2024-08-21 09:40:31| 來(lái)源：千家網(wǎng)| 次| 0次

　　作者：James Lupton 是 Blackcore Technologies 的首席技術(shù)官

　　數(shù)據(jù)中心運(yùn)營(yíng)商越來(lái)越多地尋求新的冷卻解決方案，以確保其服務(wù)器有效高效地運(yùn)行。

　　高性能計(jì)算 (HPC) 或人工智能 (AI) 工作負(fù)載可能需要數(shù)天的高利用率運(yùn)行時(shí)間才能完成一組復(fù)雜的模擬。運(yùn)行這些工作負(fù)載的硬件缺乏足夠的冷卻會(huì)導(dǎo)致不可靠、故障并降低服務(wù)器系統(tǒng)的整體性能，這也會(huì)延長(zhǎng)工作負(fù)載的運(yùn)行時(shí)間。這意味著運(yùn)行該工作負(fù)載的總成本或服務(wù)器在其使用壽命期間運(yùn)行的總成本將增加。

　　需要非傳統(tǒng)冷卻的另一個(gè)例子是在超頻期間。通過(guò)超頻處理器，您可以提高時(shí)鐘速度，從而使 CPU 每秒執(zhí)行更多指令。這通常用于游戲系統(tǒng)，但現(xiàn)在也廣泛用于需要快速、低延遲計(jì)算的領(lǐng)域，如電子交易。

　　超頻可以提高計(jì)算機(jī)組件的性能，但代價(jià)是增加功率，從而產(chǎn)生額外的廢熱。如果沒(méi)有適當(dāng)?shù)睦鋮s，組件根本無(wú)法應(yīng)對(duì)額外的熱量并發(fā)生故障，可能導(dǎo)致提升的性能毫無(wú)用處。

　　為了解決這些挑戰(zhàn)，液體冷卻通常是答案。

　　數(shù)據(jù)中心液體冷卻有哪些不同類型?

　　最常見(jiàn)的三種液體冷卻類型是浸入式冷卻、機(jī)架級(jí)液體冷卻和獨(dú)立式液體冷卻。

　　浸入式冷卻涉及將所有計(jì)算機(jī)組件放置在專門的非導(dǎo)電液體中，通常具有油性。浸入式冷卻有兩種類型：?jiǎn)蜗嗪碗p相。

　　單相的工作原理是主動(dòng)將液體泵送到熱源上，吸收熱量，然后將液體循環(huán)到熱交換器再次冷卻。

　　雙相的工作原理是液體保持低沸點(diǎn)。然后，來(lái)自組件的熱量在接觸時(shí)使液體沸騰，這種相變將熱量從冷的組件上轉(zhuǎn)移出去。氣泡上升到罐頂，然后凝結(jié)回液體形式。冷凝過(guò)程會(huì)帶走冷卻劑中的熱量。

　　浸入式冷卻需要定制硬件、非典型機(jī)架空間和數(shù)據(jù)中心定制。它還需要定義一個(gè)完整的堆棧，并且維護(hù)期望很少，因?yàn)樵谙到y(tǒng)部署后添加卡或磁盤驅(qū)動(dòng)器需要大量工作。與其他方法相比，浸入式冷卻的部署成本通常很高。

　　然而，與傳統(tǒng)的基于風(fēng)扇的系統(tǒng)相比，浸入式冷卻的優(yōu)勢(shì)在于它提供了更高的散熱效率。液體冷卻劑的導(dǎo)體比空氣好得多，并且循環(huán)所需的能量輸入更少。

　　機(jī)架級(jí)液體冷卻是將整個(gè)數(shù)據(jù)中心機(jī)架轉(zhuǎn)變?yōu)閺V泛的液體冷卻回路的過(guò)程。機(jī)架的很大一部分將專用于泵送和冷卻液體冷卻劑。機(jī)架的其余部分將采用服務(wù)器系統(tǒng)，這些服務(wù)器系統(tǒng)的主要發(fā)熱組件(CPU，RAM)裝有水塊或冷板，冷卻劑從其上方流過(guò)。然后，這些系統(tǒng)將管道引導(dǎo)到機(jī)箱后部，在那里它們有快速斷開(kāi)閥。

　　這允許服務(wù)器的內(nèi)部冷卻回路與主機(jī)架級(jí)冷卻回路連接和斷開(kāi)。機(jī)架級(jí)液體冷卻提供非常高密度的計(jì)算，因?yàn)槟梢詫⒋罅坑布询B在一起，因?yàn)槔鋮s基礎(chǔ)設(shè)施在某種程度上被抽象化了。然而，這需要整個(gè)機(jī)架級(jí)解決方案，并且根據(jù)部署的復(fù)雜性，可能會(huì)比典型的服務(wù)器部署成本大幅增加。

　　最后，獨(dú)立式液體冷卻涉及將所有必要的液體冷卻硬件完全整合到單個(gè)服務(wù)器機(jī)箱中。這意味著將液體冷卻劑泵入特定的計(jì)算機(jī)組件(即處理器)上，通過(guò)水塊或冷板傳遞熱量。這種冷卻劑通過(guò)管道輸送到關(guān)鍵組件或熱源上，然后像傳統(tǒng)服務(wù)器配置一樣返回到由內(nèi)部風(fēng)扇冷卻的散熱器。

　　獨(dú)立式液體冷卻意味著數(shù)據(jù)中心不需要額外的硬件或基礎(chǔ)設(shè)施。可以使用傳統(tǒng)機(jī)架，服務(wù)器基本上像典型的風(fēng)冷服務(wù)器一樣即插即用，這意味著服務(wù)器具有與標(biāo)準(zhǔn)服務(wù)器類似的維護(hù)能力。與浸沒(méi)式冷卻系統(tǒng)相比，獨(dú)立式液體冷卻的部署成本往往更接近典型服務(wù)器的成本。

　　液體冷卻不僅僅是提高服務(wù)器的效率

　　數(shù)據(jù)中心所有者意識(shí)到，他們可以通過(guò)捕獲和回收現(xiàn)有基礎(chǔ)設(shè)施中的廢能來(lái)提高效率。正在實(shí)施一項(xiàng)新的 ISO 能源再利用因子 (ERF) 標(biāo)準(zhǔn)，以幫助數(shù)據(jù)中心衡量其在能源再利用方面的表現(xiàn)并提高可持續(xù)性。

　　微軟和谷歌都已開(kāi)始在芬蘭開(kāi)展熱能再利用項(xiàng)目，前者與 Fortum 合作，稱“數(shù)據(jù)中心產(chǎn)生的廢熱將轉(zhuǎn)化為區(qū)域供熱，為芬蘭第二大城市埃斯波、鄰近的考尼艾寧和基爾科努米市提供服務(wù)，這將是迄今為止世界上最大的數(shù)據(jù)中心廢熱回收項(xiàng)目?！?/p>

　　與此同時(shí)，谷歌正與 Haminan Energia 合作，重新利用現(xiàn)有數(shù)據(jù)中心的熱量，這將“占當(dāng)?shù)貐^(qū)域供熱網(wǎng)絡(luò)年熱量需求的 80%”。

　　英國(guó)也在試驗(yàn)類似的計(jì)劃，能源供應(yīng)商 Octopus 最近向 Deep Green 投資 2 億英鎊，利用廢棄的直流電為附近的游泳池供暖。

　　數(shù)據(jù)中心的主要制約因素

　　特別是在金融等行業(yè)，人們逐漸遠(yuǎn)離云端，這通常是基于成本的舉措，而回歸到更靠近交易所或由交易所托管的共置數(shù)據(jù)中心——這是從性能和控制的角度推動(dòng)的。與任何技術(shù)一樣，它都是關(guān)于“合適的工具用于合適的工作”。云和遠(yuǎn)程數(shù)據(jù)中心對(duì)于某些行業(yè)和項(xiàng)目來(lái)說(shuō)效果很好，但始終需要物理上靠近特定位置的高性能硬件。

　　人工智能、監(jiān)管壓力和工作負(fù)載將如何影響液冷采用的速度

　　人工智能和其他 HPC 行業(yè)正在繼續(xù)提高機(jī)架式服務(wù)器系統(tǒng)的功率密度。計(jì)算機(jī)數(shù)量的增加意味著功耗增加，從而導(dǎo)致發(fā)熱量增加。從服務(wù)器系統(tǒng)中去除這些熱量反過(guò)來(lái)需要為高 CFM(立方英尺/分鐘)風(fēng)扇提供更多功率。

　　液冷技術(shù)(包括機(jī)架級(jí)冷卻和浸沒(méi)式)可以提高服務(wù)器系統(tǒng)散熱效率，從而減少風(fēng)扇功率。反過(guò)來(lái)，這可以減少服務(wù)器機(jī)架的總體功率預(yù)算。

　　當(dāng)將此推算到數(shù)據(jù)中心占地面積的大部分時(shí)，節(jié)省的資金可以大幅增加。當(dāng)您考慮到一些最新的 Nvidia 機(jī)架產(chǎn)品需要 40KW 或更高功率時(shí)，您可以開(kāi)始看到功率需求如何轉(zhuǎn)向極端。作為參考，許多電子交易共置僅提供 6-12KW 機(jī)架的情況并不少見(jiàn)，這些機(jī)架有時(shí)半空運(yùn)行，因?yàn)榉?wù)器需要的功率超過(guò)機(jī)架可以提供的功率。

　　這些趨勢(shì)將迫使數(shù)據(jù)中心采用任何可以減輕其自身基礎(chǔ)設(shè)施和為其供電的本地基礎(chǔ)設(shè)施的電力負(fù)擔(dān)的技術(shù)。

　　此外，任何提高效率的方法，無(wú)論是通過(guò)減少總體負(fù)荷還是重復(fù)使用廢熱，對(duì)于保持運(yùn)營(yíng)效率，同時(shí)擴(kuò)展以滿足不斷增長(zhǎng)的計(jì)算需求都至關(guān)重要。許多人可能會(huì)開(kāi)始考慮構(gòu)建新的定制 HPC 或以 AI 為重點(diǎn)的數(shù)據(jù)中心，從頭開(kāi)始關(guān)注這些新要求。

　　位置也將繼續(xù)在新數(shù)據(jù)中心建設(shè)中發(fā)揮重要作用，因?yàn)楂@取綠色能源和良好的氣候?qū)⒊蔀樾枰紤]的新的關(guān)鍵因素。

　　來(lái)源：千家網(wǎng)