作者:James Lupton 是 Blackcore Technologies 的首席技術(shù)官
數(shù)據(jù)中心運(yùn)營(yíng)商越來(lái)越多地尋求新的冷卻解決方案,以確保其服務(wù)器有效高效地運(yùn)行。
高性能計(jì)算 (HPC) 或人工智能 (AI) 工作負(fù)載可能需要數(shù)天的高利用率運(yùn)行時(shí)間才能完成一組復(fù)雜的模擬。運(yùn)行這些工作負(fù)載的硬件缺乏足夠的冷卻會(huì)導(dǎo)致不可靠、故障并降低服務(wù)器系統(tǒng)的整體性能,這也會(huì)延長(zhǎng)工作負(fù)載的運(yùn)行時(shí)間。這意味著運(yùn)行該工作負(fù)載的總成本或服務(wù)器在其使用壽命期間運(yùn)行的總成本將增加。
需要非傳統(tǒng)冷卻的另一個(gè)例子是在超頻期間。通過(guò)超頻處理器,您可以提高時(shí)鐘速度,從而使 CPU 每秒執(zhí)行更多指令。這通常用于游戲系統(tǒng),但現(xiàn)在也廣泛用于需要快速、低延遲計(jì)算的領(lǐng)域,如電子交易。
超頻可以提高計(jì)算機(jī)組件的性能,但代價(jià)是增加功率,從而產(chǎn)生額外的廢熱。如果沒(méi)有適當(dāng)?shù)睦鋮s,組件根本無(wú)法應(yīng)對(duì)額外的熱量并發(fā)生故障,可能導(dǎo)致提升的性能毫無(wú)用處。
為了解決這些挑戰(zhàn),液體冷卻通常是答案。
數(shù)據(jù)中心液體冷卻有哪些不同類型?
最常見(jiàn)的三種液體冷卻類型是浸入式冷卻、機(jī)架級(jí)液體冷卻和獨(dú)立式液體冷卻。
浸入式冷卻涉及將所有計(jì)算機(jī)組件放置在專門的非導(dǎo)電液體中,通常具有油性。浸入式冷卻有兩種類型:?jiǎn)蜗嗪碗p相。
單相的工作原理是主動(dòng)將液體泵送到熱源上,吸收熱量,然后將液體循環(huán)到熱交換器再次冷卻。
雙相的工作原理是液體保持低沸點(diǎn)。然后,來(lái)自組件的熱量在接觸時(shí)使液體沸騰,這種相變將熱量從冷的組件上轉(zhuǎn)移出去。氣泡上升到罐頂,然后凝結(jié)回液體形式。冷凝過(guò)程會(huì)帶走冷卻劑中的熱量。
浸入式冷卻需要定制硬件、非典型機(jī)架空間和數(shù)據(jù)中心定制。它還需要定義一個(gè)完整的堆棧,并且維護(hù)期望很少,因?yàn)樵谙到y(tǒng)部署后添加卡或磁盤驅(qū)動(dòng)器需要大量工作。與其他方法相比,浸入式冷卻的部署成本通常很高。
然而,與傳統(tǒng)的基于風(fēng)扇的系統(tǒng)相比,浸入式冷卻的優(yōu)勢(shì)在于它提供了更高的散熱效率。液體冷卻劑的導(dǎo)體比空氣好得多,并且循環(huán)所需的能量輸入更少。
機(jī)架級(jí)液體冷卻是將整個(gè)數(shù)據(jù)中心機(jī)架轉(zhuǎn)變?yōu)閺V泛的液體冷卻回路的過(guò)程。機(jī)架的很大一部分將專用于泵送和冷卻液體冷卻劑。機(jī)架的其余部分將采用服務(wù)器系統(tǒng),這些服務(wù)器系統(tǒng)的主要發(fā)熱組件(CPU,RAM)裝有水塊或冷板,冷卻劑從其上方流過(guò)。然后,這些系統(tǒng)將管道引導(dǎo)到機(jī)箱后部,在那里它們有快速斷開(kāi)閥。
這允許服務(wù)器的內(nèi)部冷卻回路與主機(jī)架級(jí)冷卻回路連接和斷開(kāi)。機(jī)架級(jí)液體冷卻提供非常高密度的計(jì)算,因?yàn)槟梢詫⒋罅坑布询B在一起,因?yàn)槔鋮s基礎(chǔ)設(shè)施在某種程度上被抽象化了。然而,這需要整個(gè)機(jī)架級(jí)解決方案,并且根據(jù)部署的復(fù)雜性,可能會(huì)比典型的服務(wù)器部署成本大幅增加。
最后,獨(dú)立式液體冷卻涉及將所有必要的液體冷卻硬件完全整合到單個(gè)服務(wù)器機(jī)箱中。這意味著將液體冷卻劑泵入特定的計(jì)算機(jī)組件(即處理器)上,通過(guò)水塊或冷板傳遞熱量。這種冷卻劑通過(guò)管道輸送到關(guān)鍵組件或熱源上,然后像傳統(tǒng)服務(wù)器配置一樣返回到由內(nèi)部風(fēng)扇冷卻的散熱器。
獨(dú)立式液體冷卻意味著數(shù)據(jù)中心不需要額外的硬件或基礎(chǔ)設(shè)施。可以使用傳統(tǒng)機(jī)架,服務(wù)器基本上像典型的風(fēng)冷服務(wù)器一樣即插即用,這意味著服務(wù)器具有與標(biāo)準(zhǔn)服務(wù)器類似的維護(hù)能力。與浸沒(méi)式冷卻系統(tǒng)相比,獨(dú)立式液體冷卻的部署成本往往更接近典型服務(wù)器的成本。
液體冷卻不僅僅是提高服務(wù)器的效率
數(shù)據(jù)中心所有者意識(shí)到,他們可以通過(guò)捕獲和回收現(xiàn)有基礎(chǔ)設(shè)施中的廢能來(lái)提高效率。正在實(shí)施一項(xiàng)新的 ISO 能源再利用因子 (ERF) 標(biāo)準(zhǔn),以幫助數(shù)據(jù)中心衡量其在能源再利用方面的表現(xiàn)并提高可持續(xù)性。
微軟和谷歌都已開(kāi)始在芬蘭開(kāi)展熱能再利用項(xiàng)目,前者與 Fortum 合作,稱“數(shù)據(jù)中心產(chǎn)生的廢熱將轉(zhuǎn)化為區(qū)域供熱,為芬蘭第二大城市埃斯波、鄰近的考尼艾寧和基爾科努米市提供服務(wù),這將是迄今為止世界上最大的數(shù)據(jù)中心廢熱回收項(xiàng)目?!?/p>
與此同時(shí),谷歌正與 Haminan Energia 合作,重新利用現(xiàn)有數(shù)據(jù)中心的熱量,這將“占當(dāng)?shù)貐^(qū)域供熱網(wǎng)絡(luò)年熱量需求的 80%”。
英國(guó)也在試驗(yàn)類似的計(jì)劃,能源供應(yīng)商 Octopus 最近向 Deep Green 投資 2 億英鎊,利用廢棄的直流電為附近的游泳池供暖。
數(shù)據(jù)中心的主要制約因素
特別是在金融等行業(yè),人們逐漸遠(yuǎn)離云端,這通常是基于成本的舉措,而回歸到更靠近交易所或由交易所托管的共置數(shù)據(jù)中心——這是從性能和控制的角度推動(dòng)的。與任何技術(shù)一樣,它都是關(guān)于“合適的工具用于合適的工作”。云和遠(yuǎn)程數(shù)據(jù)中心對(duì)于某些行業(yè)和項(xiàng)目來(lái)說(shuō)效果很好,但始終需要物理上靠近特定位置的高性能硬件。
人工智能、監(jiān)管壓力和工作負(fù)載將如何影響液冷采用的速度
人工智能和其他 HPC 行業(yè)正在繼續(xù)提高機(jī)架式服務(wù)器系統(tǒng)的功率密度。計(jì)算機(jī)數(shù)量的增加意味著功耗增加,從而導(dǎo)致發(fā)熱量增加。從服務(wù)器系統(tǒng)中去除這些熱量反過(guò)來(lái)需要為高 CFM(立方英尺/分鐘)風(fēng)扇提供更多功率。
液冷技術(shù)(包括機(jī)架級(jí)冷卻和浸沒(méi)式)可以提高服務(wù)器系統(tǒng)散熱效率,從而減少風(fēng)扇功率。反過(guò)來(lái),這可以減少服務(wù)器機(jī)架的總體功率預(yù)算。
當(dāng)將此推算到數(shù)據(jù)中心占地面積的大部分時(shí),節(jié)省的資金可以大幅增加。當(dāng)您考慮到一些最新的 Nvidia 機(jī)架產(chǎn)品需要 40KW 或更高功率時(shí),您可以開(kāi)始看到功率需求如何轉(zhuǎn)向極端。作為參考,許多電子交易共置僅提供 6-12KW 機(jī)架的情況并不少見(jiàn),這些機(jī)架有時(shí)半空運(yùn)行,因?yàn)榉?wù)器需要的功率超過(guò)機(jī)架可以提供的功率。
這些趨勢(shì)將迫使數(shù)據(jù)中心采用任何可以減輕其自身基礎(chǔ)設(shè)施和為其供電的本地基礎(chǔ)設(shè)施的電力負(fù)擔(dān)的技術(shù)。
此外,任何提高效率的方法,無(wú)論是通過(guò)減少總體負(fù)荷還是重復(fù)使用廢熱,對(duì)于保持運(yùn)營(yíng)效率,同時(shí)擴(kuò)展以滿足不斷增長(zhǎng)的計(jì)算需求都至關(guān)重要。許多人可能會(huì)開(kāi)始考慮構(gòu)建新的定制 HPC 或以 AI 為重點(diǎn)的數(shù)據(jù)中心,從頭開(kāi)始關(guān)注這些新要求。
位置也將繼續(xù)在新數(shù)據(jù)中心建設(shè)中發(fā)揮重要作用,因?yàn)楂@取綠色能源和良好的氣候?qū)⒊蔀樾枰紤]的新的關(guān)鍵因素。
來(lái)源:千家網(wǎng)