近年來(lái),對(duì)人工智能應(yīng)用的需求呈指數(shù)級(jí)增長(zhǎng),因此數(shù)據(jù)中心的設(shè)計(jì)、配置和管理必須采用新方法?!度A爾街日?qǐng)?bào)》估計(jì),目前全球數(shù)據(jù)中心容量的約 20% 用于人工智能。然而,由于超過 77% 的公司已經(jīng)在使用或探索人工智能技術(shù),傳統(tǒng)數(shù)據(jù)中心可能很快就會(huì)過時(shí)。
人工智能僵局
由于算法和模型復(fù)雜,人工智能應(yīng)用通常比其他應(yīng)用需要更多的電力和計(jì)算資源。例如,據(jù)說(shuō) ChatGPT 上的一個(gè)簡(jiǎn)單查詢所需的電力幾乎是谷歌快速搜索所需電力的十倍。傳統(tǒng)數(shù)據(jù)中心的平均密度為每機(jī)架 5-10kW,但處理人工智能應(yīng)用時(shí),每機(jī)架的密度會(huì)增加到 60kW+。
更多的工作量和能源需求意味著更高的間接成本。此外,數(shù)據(jù)中心必須想出替代和先進(jìn)的方法來(lái)處理由于人員短缺而可能出現(xiàn)的冷卻問題、漏洞、安全挑戰(zhàn)和維護(hù)問題。
然后,還有環(huán)境可持續(xù)性的問題。研究人員估計(jì),GPT-3 在 2020 年向公眾發(fā)布之前就產(chǎn)生了超過 552 噸的二氧化碳。這一數(shù)字相當(dāng)于一百二十三輛汽油汽車全年產(chǎn)生的二氧化碳。
不幸的是,除非這些挑戰(zhàn)得到戰(zhàn)略性和動(dòng)態(tài)的解決,否則我們可能會(huì)看到類似于GPU供應(yīng)短缺的基礎(chǔ)設(shè)施緊張局面。缺乏設(shè)備齊全的數(shù)據(jù)中心來(lái)處理人工智能技術(shù)的壓倒性需求,最終可能會(huì)減緩增長(zhǎng),促進(jìn)人工智能基礎(chǔ)設(shè)施的壟斷,并對(duì)環(huán)境產(chǎn)生嚴(yán)重影響。
為現(xiàn)在和未來(lái)而建
為了正面解決這些問題,許多公司已經(jīng)在實(shí)施新措施。這些措施包括使用共置數(shù)據(jù)中心來(lái)降低運(yùn)營(yíng)成本、提高可擴(kuò)展性并確保有熟練的現(xiàn)場(chǎng)維護(hù)人員。與傳統(tǒng)的空氣冷卻系統(tǒng)相比,數(shù)據(jù)中心還采用了更先進(jìn)的冷卻技術(shù),如液體冷卻、直接到芯片冷卻和沉浸式冷卻。
對(duì)于新中心,設(shè)計(jì)至關(guān)重要。例如,2022 年,Meta 暫停了其在德克薩斯州耗資 8 億美元的數(shù)據(jù)中心的建設(shè),以考慮重新設(shè)計(jì)這個(gè)占地 90 萬(wàn)平方英尺的設(shè)施。
然而,數(shù)據(jù)中心除了充當(dāng)人工智能支持的應(yīng)用程序和產(chǎn)品的基礎(chǔ)設(shè)施和計(jì)算中心之外,還可以利用相同的人工智能來(lái)優(yōu)化性能、管理成本,并通過多種方式確保運(yùn)營(yíng)效率。讓我們來(lái)看看其中的一些。
工作負(fù)載管理
人工智能和自動(dòng)化工具可以更準(zhǔn)確地預(yù)測(cè)和更有效地分配數(shù)據(jù)中心的工作負(fù)載,確保部署符合資源需求。這通過最大限度地減少計(jì)算硬件的利用率不足和降低能耗來(lái)減少浪費(fèi)。超過 32% 的云支出被浪費(fèi),主要是由于過度配置。然而,人工智能系統(tǒng)可以將資源重新分配給最需要它們的項(xiàng)目,從而優(yōu)化性能并最大限度地利用閑置硬件。
重復(fù)性和常規(guī)性任務(wù)可以方便地實(shí)現(xiàn)自動(dòng)化,從而節(jié)省時(shí)間、能源和熟練的人力。人工智能還可以處理數(shù)據(jù)和性能指標(biāo),從而采取戰(zhàn)略性、主動(dòng)性的措施,在潛在的工作負(fù)載管理問題發(fā)生之前解決它們。
人工智能驅(qū)動(dòng)的冷卻系統(tǒng)
除了引入更好的冷卻設(shè)施外,人工智能還可以在動(dòng)態(tài)檢測(cè)和調(diào)節(jié)溫度方面發(fā)揮重要作用。人工智能可以分析溫度數(shù)據(jù)并采取行動(dòng),為每個(gè)硬件提供所需的冷卻量,而不是靜態(tài)冷卻數(shù)據(jù)中心的硬件。這可以調(diào)節(jié)濕度條件以獲得最佳性能,提高電源效率,并延長(zhǎng)設(shè)備的使用壽命。
動(dòng)態(tài)電源使用效率
人工智能系統(tǒng)的實(shí)時(shí)監(jiān)控和預(yù)測(cè)分析可以提供有關(guān)電源使用模式和低效率的關(guān)鍵見解,使管理人員能夠做出數(shù)據(jù)支持的決策并實(shí)施必要的電源管理策略。雖然客觀事實(shí)仍然是運(yùn)行人工智能工作負(fù)載的數(shù)據(jù)中心的電力需求始終高于傳統(tǒng)數(shù)據(jù)中心,但人工智能驅(qū)動(dòng)的管理和數(shù)據(jù)中心設(shè)計(jì)的協(xié)同努力可以產(chǎn)生重大影響。
數(shù)據(jù)中心還可以通過優(yōu)先考慮高效的能源管理系統(tǒng)和采用動(dòng)態(tài)電壓和頻率調(diào)整 (DVFS) 等電源管理技術(shù)來(lái)最大限度地減少碳足跡并減少對(duì)環(huán)境的影響。
四舍五入
高度復(fù)雜的數(shù)字未來(lái)的代價(jià)在于基礎(chǔ)設(shè)施的核心。數(shù)據(jù)中心必須采用物理、運(yùn)營(yíng)和軟件變革,以跟上不斷發(fā)展的現(xiàn)代世界及其人工智能需求。
值得慶幸的是,人工智能挑戰(zhàn)也可以通過人工智能解決方案來(lái)解決。隨著科技行業(yè)逐漸適應(yīng)和技術(shù)進(jìn)步,人工智能驅(qū)動(dòng)的工作負(fù)載管理和優(yōu)化將成為主流,從而帶來(lái)強(qiáng)大的數(shù)據(jù)中心來(lái)為未來(lái)提供動(dòng)力。來(lái)自分散式計(jì)算基礎(chǔ)設(shè)施等其他替代方案的創(chuàng)新也將創(chuàng)造良性競(jìng)爭(zhēng)并提高效率。
作者:InFlux Technologies 首席執(zhí)行官 Daniel Keller
來(lái)源:千家網(wǎng)