在過去的一年里,人工智能(AI)像數(shù)字復興一樣蓬勃發(fā)展,與20世紀90年代末互聯(lián)網(wǎng)的快速變革性崛起相呼應。它以驚人的速度徹底改變了行業(yè),重新定義了我們的日常生活,其影響將在未來幾年內更加顯著。2023年,對生成人工智能的投資達到252億美元,幾乎是2022年投資額的9倍,大約是2019年資金的20倍。
這種快速增長為數(shù)據(jù)中心公司提供了創(chuàng)新、擴展服務產(chǎn)品以及滿足人工智能驅動的應用程序和企業(yè)不斷變化的需求的機會。通過采用人工智能技術并相應地調整其基礎設施和運營,數(shù)據(jù)中心在促進人工智能在各個行業(yè)的廣泛采用和成功方面發(fā)揮著至關重要的作用。
然而,人工智能的整合也帶來了一系列挑戰(zhàn)。人工智能目前需要4.3GW的數(shù)據(jù)中心電力,預計到2028年將達到18GW。這一激增超過了當前數(shù)據(jù)中心電力需求的增長率,給容量和可持續(xù)性帶來了挑戰(zhàn)。人工智能要求數(shù)據(jù)中心不僅要擴展,還要從根本上改變其架構,包括專業(yè)的IT基礎設施、電力和冷卻系統(tǒng)。
為可持續(xù)的人工智能數(shù)據(jù)中心提供動力
到2028年,人工智能工作負載的增長速度預計將是傳統(tǒng)數(shù)據(jù)中心工作負載的兩到三倍,占所有數(shù)據(jù)中心容量的15%到20%。更多的工作負載也將開始向邊緣用戶靠近,以減少延遲并提高性能。
訓練大型語言模型通常需要數(shù)千個圖形處理單元(GPU)協(xié)同工作。在大型AI集群中,集群大小可以從1兆瓦到2兆瓦不等,機架密度從25千瓦到120千瓦不等,具體取決于GPU型號和數(shù)量。這些特性顯著影響機架功率密度,給數(shù)據(jù)中心帶來了巨大的基礎設施挑戰(zhàn)。目前,大多數(shù)數(shù)據(jù)中心只能支持約10至20千瓦的機架功率密度。
數(shù)據(jù)中心必須適應以有效和可持續(xù)地滿足人工智能驅動應用程序不斷變化的電力需求,因此優(yōu)化物理基礎設施以滿足人工智能要求至關重要。從低密度配置過渡到高密度配置可以幫助應對這些挑戰(zhàn)。與NVIDIA等技術提供商的合作,兩家公司最近進行的高管簡報強調了參考設計在加快數(shù)據(jù)中心高密度人工智能集群部署、推動邊緣人工智能和數(shù)字孿生技術進步方面的關鍵作用。將人工智能集群添加到現(xiàn)有設施中的改裝參考設計,以及專門為加速計算集群量身定制的新構建設計,可以支持各種應用,包括數(shù)據(jù)處理、工程仿真、電子設計自動化和生成式人工智能。
通過解決人工智能工作負載不斷變化的需求,這些參考設計將為將NVIDIA的加速計算平臺集成到數(shù)據(jù)中心提供一個強大的框架,從而提高性能、可擴展性和可持續(xù)性。
保持 AI 數(shù)據(jù)中心涼爽
AI 數(shù)據(jù)中心會產(chǎn)生大量熱量,因此需要使用液體冷卻來確保最佳性能、可持續(xù)性和可靠性。除 IT 基礎設施外,冷卻系統(tǒng)是數(shù)據(jù)中心的第二大能源消耗者。在使用密度較低的傳統(tǒng)數(shù)據(jù)中心和分布式 IT 位置,冷卻可占設施總能耗的 20% 至 40%。
液體冷卻具有許多優(yōu)勢,包括更高的能源效率、更小的占地面積、更低的總擁有成本 (TCO)、增強的服務器可靠性和更低的噪音水平。
隨著對 AI 處理能力的需求增長和熱負荷增加,液體冷卻成為數(shù)據(jù)中心設計中的關鍵要素。采用液體冷卻解決方案可以滿足各種需求,從空白空間解決方案到散熱策略。有關液體冷卻架構的白皮書等資源可以幫助數(shù)據(jù)中心公司應對系統(tǒng)設計、實施和運營考慮的復雜性。
AI 和數(shù)據(jù)中心為可持續(xù)未來而發(fā)展
AI 有可能優(yōu)化能源使用,但它也引發(fā)了對能源消耗增加的擔憂。加速計算推動了人工智能革命,使我們能夠在數(shù)據(jù)中心基礎設施中用更少的資源實現(xiàn)更多目標。
然而,評估人工智能對能源消耗和環(huán)境的更廣泛影響至關重要。Gartner 透露,到 2027 年,80% 的 CIO 將擁有與 IT 組織可持續(xù)性相關的績效指標。
根據(jù) 2024 年可持續(xù)發(fā)展指數(shù),澳大利亞近十分之一的商業(yè)決策者已經(jīng)在使用人工智能作為脫碳轉型的資源。將人工智能與實時監(jiān)控相結合可以將數(shù)據(jù)轉化為可操作的見解,從而提高可持續(xù)性。研究表明,先進的能源管理功能可以通過優(yōu)化電力使用和冷卻效率來大幅節(jié)省公用事業(yè)費用。
數(shù)據(jù)中心的運營需要大量的能源,這對環(huán)境可持續(xù)性構成了挑戰(zhàn)。優(yōu)化能源效率、降低碳排放和增強運營彈性對于使數(shù)據(jù)中心能夠負責任地運營、促進更可持續(xù)的未來至關重要。
對人工智能的需求和數(shù)據(jù)中心的發(fā)展是塑造數(shù)字格局的相互關聯(lián)的要素。增加的工作負載,尤其是深度學習人工智能模型,需要大量的計算資源來訓練。這需要能夠支持人工智能工作負載性能要求的數(shù)據(jù)中心。
隨著人工智能技術的進步,它將繼續(xù)影響數(shù)據(jù)中心的設計和運營。雖然這些進步帶來了效率和創(chuàng)新,但它們也帶來了與能源消耗、電力和冷卻系統(tǒng)相關的挑戰(zhàn)。
人工智能的這種不懈進步只會繼續(xù)下去,為了滿足這些不斷變化的需求,數(shù)據(jù)中心行業(yè)需要適應。
作者:Joe Craparotta,施耐德電氣太平洋地區(qū)云與服務提供商副總裁
來源:千家網(wǎng)