人工智能、液體冷卻和未來的數(shù)據(jù)中心
生成式人工智能(AI)的迅速崛起,凸顯了企業(yè)采用人工智能的非凡速度。Accenture最近的一份報告指出,98%的企業(yè)領導人表示,人工智能將在未來三到五年的戰(zhàn)略中發(fā)揮重要作用。McKinsey分析師發(fā)現(xiàn),近65%的企業(yè)計劃在未來三年內增加對人工智能的投資。
這種勢頭才剛剛開始。NVIDIA、AMD和Intel正在推出專為生成式人工智能和高性能計算(HPC)設計的新芯片。公共云提供商和新興芯片企業(yè)也參與了競爭。IDC分析師預測,人工智能軟件、硬件和服務的全球支出將達到3000億美元,高于今年預計的1540億美元。
然而,擴展人工智能仍然存在挑戰(zhàn),其中最重要的是涉及支持這些工作負載所需的數(shù)據(jù)中心基礎設施的挑戰(zhàn)。
數(shù)據(jù)中心越來越“熱”
圖形處理單元(GPU),是人工智能和機器學習(ML)最常見的芯片,可以極大地加速人工智能應用的計算過程。其非常強大,如NVIDIA的H100 GPU包含800億個晶體管,因此會產生大量熱量,必須對其進行有效冷卻。
傳統(tǒng)上,在單個數(shù)據(jù)中心機架中達到10千瓦的配置被認為是高密度,但空氣冷卻仍然是冷卻這些服務器的有效方法。盡管Uptime Institute發(fā)現(xiàn)很少有數(shù)據(jù)中心擁有超過30千瓦的機架,但極端密度正在出現(xiàn)。高性能計算的商品化和生成式人工智能的興起正在增加電力需求,并使傳統(tǒng)的空氣冷卻方法負擔過重。
例如,NVIDIA最新的GPU的最大功耗比上一代芯片高出160%。機架配置很容易超過40千瓦范圍,這對于傳統(tǒng)的風冷方法而言是難以管理的。當今的數(shù)據(jù)中心必須不斷發(fā)展,以有效管理這些升高的熱負荷。
冷卻技術越來越重要
好在,有多種液體冷卻技術可以應對這一挑戰(zhàn),包括日益流行的后門熱交換和直接芯片技術。新興的浸入式冷卻技術也有不同的風格,這些技術本質上是將IT組件浸入充滿液體冷卻劑的容器中。
盡管浸入式冷卻尚處于早期采用階段,但分析師預測,該技術將在未來四年內成為主流,市場規(guī)模將從2021年的2.51億美元增長到2027年的超過16億美元。這將極大地影響數(shù)據(jù)中心基礎設施需求,并且企業(yè)領導者必須知道他其數(shù)據(jù)中心運營商是否愿意在短期內進行必要的投資來支持這種轉變。
液體冷卻的優(yōu)點和缺點
液體作為熱導體的效率是空氣的1,000倍,而且運行所需的基礎設施更少。風冷系統(tǒng)需要一個復雜的制冷基礎設施,其中包括冷卻器、氣泵、電纜、濕度控制和過濾系統(tǒng),以及冗余備份系統(tǒng),以確保在停電時服務器不會處于不冷卻狀態(tài)。
相比之下,液體冷卻系統(tǒng)相對簡單,但在當前數(shù)據(jù)中心基礎設施中實施其的前期投資和復雜性可能會帶來重大挑戰(zhàn)。設置可能很復雜,并且可能需要專門的維護。此外,服務器設計可能需要調整,浸入式方法可能會使OEM保修失效,并且冷卻系統(tǒng)泄漏可能會造成損壞和停機。數(shù)據(jù)中心運營商還必須考慮在數(shù)據(jù)中心使用液體的新法規(guī)和環(huán)境標準。
也就是說,液體或浸入式冷卻系統(tǒng)不需要太多的備份或特殊的地板或通道密封策略。對能源消耗和成本的總體影響可能是巨大的。最近的一項研究結果發(fā)現(xiàn),實施液體冷卻可以減少近20%的設施電力,總數(shù)據(jù)中心電力減少10%以上??偸褂眯?TUE)是一項新指標,旨在比較高性能計算環(huán)境中液體冷卻與空氣冷卻的效率,結果顯示,液體冷卻的能源效率提高了15%以上。
過渡到液體冷卻還有其他可持續(xù)發(fā)展的好處。液體冷卻系統(tǒng)比空氣冷卻系統(tǒng)需要更少的水。改造數(shù)據(jù)中心可以采用新的思維方式來縮小其物理足跡和碳足跡。熱再利用策略可以為周圍的企業(yè)和社區(qū)提供能源。這些可能性令人興奮,并且可能會像生成人工智能本身一樣具有變革性。
現(xiàn)在需要了解什么
對于大多數(shù)企業(yè)而言,實現(xiàn)本地數(shù)據(jù)中心的轉型可能過于復雜且昂貴。另一方面,當今的大部分公共云基礎設施并不是為運行大規(guī)模人工智能應用而構建的,而大容量工作負載的云成本不斷上升,促使許多組織尋找其他選擇。
考慮到這些挑戰(zhàn)和機遇,擁有處理無數(shù)客戶用例的基礎設施經驗的托管數(shù)據(jù)中心提供商,可能會為許多企業(yè)提供最佳解決方案。這個領域的領導者可以提供專業(yè)知識和支持,以指導組織完成轉型。還與許多硬件原始設備制造商和液體冷卻供應商建立了重要的關系,這些供應商將推動數(shù)據(jù)中心的發(fā)展,提供多樣化的選擇來滿足客戶的獨特需求。
組織現(xiàn)在需要知道其數(shù)據(jù)中心運營商是否已經在計劃,也許更重要的是,是否擁有可用的物理容量或適合安裝所需的技術,以使下一代數(shù)據(jù)中心的發(fā)展成為可能。數(shù)據(jù)中心已經面臨著將工作負載轉移到滿足其要求的最佳服務器的復雜挑戰(zhàn)。隨著人工智能和高性能計算工作負載的需求不斷增加,添加根本上不同的冷卻系統(tǒng)的額外挑戰(zhàn)肯定會使這些障礙變得更加復雜。
現(xiàn)在正在投資這些策略的數(shù)據(jù)中心運營商將處于有利地位,可以幫助其客戶正面應對這些挑戰(zhàn)。人工智能正在改變一切,包括數(shù)據(jù)中心?,F(xiàn)在是開始這次對話的時候了。