Ұйымдар өнеркәсіптік зерттеулер, терең оқыту, ғылыми модельдеу және нақты уақытта құрылымдау саласындағы жасанды интеллект шегін кеңейтіп отырған сайын, қуатты есептеу инфрақұрылымына деген сұраныс ешқашан да осындай деңгейге жеткен емес. Бұл түрлендірудің орталығында жоғары деңгейлі GPU орнатулары мұндағы шамасы бойынша өңдеу қабілетін сол деңгейде күшті жылу басқару мен қуат беру жүйелерімен теңестіру қажет. Қажетті инженерлік негіздер болмаған жағдайда ең алдыңғы қатарлы графикалық процессорлар (GPU) тез қызудан, тұрақсыздықтан немесе тұрақты зақымданудан ауырады — ал мұндай ақаулардың кәсіпорын ортасындағы құны өте жоғары болуы мүмкін.

Қандай суыту мен қоректендіру қоры жабдықтарының нақтылығы жоғары деңгейлі GPU орнатулары жабдықтың аппараттық ортасы мен жүйеге қойылатын операциялық талаптарға қатысты толық талдау жасауды қажет етеді. Сіз бір ғана жұмыс орнын орнатсаңыз да немесе өндірістік жұмыс жүктемелері үшін көп GPU-лы серверлік стойканы масштабтасаңыз да, жылу бақылауы мен қуат сапасын қамтамасыз ететін принциптер бірдей қалады. Бұл мақала инженерлер мен ИТ сатып алу топтарына жабдықты орнатуға дейін, орнату кезінде және одан кейін бағалауға тиісті негізгі факторларды талдайды.
Жоғары деңгейлі GPU жабдығының жылулық талаптары
GPU жылулық дизайн қуатын түсіну
Әрбір GPU-ның жылулық дизайн қуаты (TDP) көрсеткіші болады, бұл көрсеткіш салқындату шешімінің ұзақ уақыт бойы өңдей алатын максималды жылу шығысын көрсетеді. Қазіргі заманғы кәсіби деңгейдегі және есептеу бағытындағы GPU-лар үшін бұл мәндер картасына 200 Вт-тан 700 Вт-тан аса болуы мүмкін. жоғары деңгейлі GPU орнатулары бірнеше карта параллель түрде орнатылған жағдайда жалпы жылу жүктемесі бір ғана шасси ішінде бірнеше киловатттан аса болуы мүмкін, сондықтан жылулық жоспарлау – бұл инженерлік есептеудің негізгі мәселесі, ал ескерілмеген немесе соңғы қосымша фактор емес.
Егер TDP порогтық мәндері жеткілікті деңгейде басқарылмаса, GPU-лар силиконды қорғау мақсатында тактілік жиіліктері автоматты түрде төмендетілетін жылулық шектеу режиміне кіреді. Бұл есептеу өнімділігінің өлшенетін және кейде өте айқын төмендеуіне әкеледі, сол себепті премиум-деңгейлі құрылғыларға инвестициялардың бизнес-негізделуі тікелей әлсірейді. Қайталану уақыты өте маңызды болатын жасанды интеллекттің оқыту жұмыстарында қысқа мерзімді жылулық шектеу оқиғалары тіпті оқыту циклына сағаттармен ұзақтық қосуы мүмкін. Үшін жоғары деңгейлі GPU орнатулары дерекқор ортасында бақыланбайтын жылулық әрекеттердің болуы толығымен қабылданбайды.
Инженерлер тек GPU-ның өзінің жылу шығаруын ескеруі керек, сонымен қатар бірдей корпус ішінде орналасқан CPU, жады модульдері, сақтау құрылғылары және кернеу реттеу модульдерінен туындайтын айналадағы ортаның жылулық әсерін де ескеруі керек. Жалпы жылулық қапшығы әрбір компоненттің TDP мәндерінің қосындысынан әрқашан жоғары болады, себебі тығыз орналасқан корпус ішінде локальды ауа ағысына кедергі көрсету мен жылу қайта айналымы әсерлері бар.
Тығыз GPU ортасы үшін суыту архитектурасының нұсқалары
Кәсіби салада ең кең таралған суыту тәсілі жоғары деңгейлі GPU орнатулары белсенді ауа салқындату — бұл жылу шассиден шығару үшін жоғары жылдамдықты желдеткіштерге, құрылымдалған ауа ағысы жолдарына және стратегиялық желдету орындарына сүйенетін әдіс. GPU жұмыс жүктемелері үшін арнайы құрылған сервер платформалары әдетте алдыңғыдан артқыға дейінгі ауа ағысы конфигурациясын қолданады, ал қыздыру-салқындату модульдері ең жоғары жүктеме кезінде де жеткілікті статикалық қысымды сақтау үшін тиімді орналастырылады. Орнатылған GPU саны мен олардың орналасуына сәйкес дұрыс ауа ағысы архитектурасы бар шасси таңдау — негізгі шешім.
Сұйықпен салқындату енді ең жоғары тығыздықтағы орнатулар үшін барынша өнімді альтернатива болып табылады. Тікелей сұйықпен салқындату (DLC) және иммерсиялық салқындату шешімдері GPU кристалы мен салқындату ортасы арасындағы жылулық кедергіні әлдеқайда төмендетеді, сондықтан дәстүрлі желдеткіштік жүйелердің дыбыстық және ауа ағысы шектеулерінсіз тұрақты және ұзақ мерзімді өнімділікке қол жеткізуге мүмкіндік береді. Алайда, сұйықпен салқындату инфрақұрылымы ғимаратты дайындауға және қолданудың әрі қарайғы техникалық қызмет көрсету протоколдарына қосымша бастапқы инвестицияларды талап етеді.
Салқындату әдісіне қарамастан, көп GPU-лы жүйедегі GPU карталары арасындағы физикалық аралық жылулық сипаттамаларға терең әсер етеді. Карталар бір-біріне өте жақын орнатылса, ыстық шығыс ауасы көршілес кіріс аймақтарына қайта таратылуы мүмкін, нәтижесінде жылулық ыстық нүктелер пайда болады. Бұл мәселені шешу үшін арнайы құрылған платформалар корпус дизайндарына оптималды слот аралығын, бағытталған ауа ағысын реттейтін перделерді және GPU-ға арналған жылулық аймақтарды енгізеді. жоғары деңгейлі GPU орнатулары бұл мәселені шешу үшін оптималды слот аралығын, бағытталған ауа ағысын реттейтін перделерді және GPU-ға арналған жылулық аймақтарды корпус дизайндарына енгізеді.
Қоректендіру көзінің архитектурасы мен қуатты жоспарлау
Жалпы жүйелік қуат талаптарын есептеу
Қоректендіру көзінің өлшемін анықтау үшін жоғары деңгейлі GPU орнатулары бұл жалпы жүйе қуатының шығынын пик жүктемеде дәл есептеуден басталады. Бұған тек GPU TDP мәндерінің қосындысы ғана емес, сонымен қатар CPU пакетінің қуаты, DRAM қуаты, NVMe сақтау құрылғысы, PCIe инфрақұрылымы, BMC басқару ішкі жүйелері мен желдеткіштің қуаты да кіреді. Кеңінен таралған қате — қуат көзін тек GPU TDP негізінде таңдау, бұл қосымша жүктемелерге және GPU ядросын іске қосқан кезде пайда болатын өтпелі қуат шығынына жеткілікті резерв қалдырмайды.
Қуат инженерлері қуат көзін таңдаған кезде есептелген жоғарғы жүктемеден кемінде 20–30 пайызға артық қуат қорын ұстауды ұсынады. Бұл шектеу бірнеше мақсатқа қызмет етеді: қуат көзінің тұрақты жүктеме кезінде ең жоғары реттелген ПӘК нүктесінде жұмыс істеуін болдырмау; уақытша шыңдарға қажетті қуат қорын қамтамасыз ету; сондай-ақ айнымалы ток кіріс кернеуінің аздап тербелісі қуат көзін ашық ток қорғау аймағына итермейтінін қамтамасыз ету. Төрт GPU-дан тұратын және әрбірінің қуаты 400 Вт болатын жүйе үшін бұл қосымша қуат қоры ғана қажетті қуат көзінің қуатын 2000 Вт-тан 2500 Вт немесе одан да жоғары деңгейге көтеруі мүмкін.
Кәсіпорындар үшін әзірленген платформалар жоғары деңгейлі GPU орнатулары жиі екі немесе одан да көп қоректендіру блоктары (ҚБ) жүйенің жұмыс нагрузкасын бөлісіп алатын, ал бір қоректендіру блогының жұмысы тоқтаса, екіншісі жұмысты жалғастыра алатын резервті қоректендіру конфигурацияларын қолдайды. Бұл — GPU-ның жұмысы тоқтағанда тікелей қаржылық немесе операциялық салдары болатын өндірістік орталарда өте маңызды қолжетімділік функциясы. Резервті ҚБ конфигурациялары жоспарланған техникалық қызмет көрсетуді жеңілдетеді: серверді өшірмей-ақ, ақаулы құрылғыны ыстық ауыстыруға болады.
Қоректендірудің тиімділігі мен кернеудің тұрақтылығы
Қоректендіру блогының тиімділік рейтингі сервер стойкасындағы жұмыс шығындары мен жылу шығынына тікелей әсер етеді. 80 PLUS Titanium стандарты бойынша сертификатталған және 94 пайыздық тиімділікпен жұмыс істейтін ҚБ бірдей жүктеме кезінде 80 PLUS Bronze стандарты бойынша сертификатталған және 85 пайыздық тиімділікпен жұмыс істейтін ҚБ-ға қарағанда әлдеқайда аз ыдыраған жылу шығарады. Әсіресе жоғары деңгейлі GPU орнатулары тәулігіне 24 сағат, жылына 365 күн жұмыс істейтін жағдайда бұл тиімділік айырымы электр энергиясы үшін шығындар мен дерекқор орталығының суыту жүйесіне түсетін жүктемеде маңызды айырымдарға әкеледі.
Кернеу тұрақтылығы 12 В шинасында GPU-ға қатты тәуелді жүйелер үшін ерекше маңызды параметр болып табылады. Қазіргі заманғы GPU-лар 12 В қоректендіру көзінен үлкен және динамикалық токтарды тартады, ал кез келген маңызды кернеу төмендеуі уақытша жүктеме жағдайларында жүйенің тұрақсыздығына, күтпеген қайта іске қосылуларға немесе белсенді есептеулер кезінде деректердің бұзылуына әкелуі мүмкін. жоғары деңгейлі GPU орнатулары серверлік деңгейдегі қоректендіру көздері осы уақытша әсерден туындайтын ақаулар қаупін азайту үшін тұтынуға арналған қоректендіру көздеріне қарағанда толеранттылығы жоғары кернеу реттеуімен жасалған.
Кабельдік жүйенің ұйымдастырылуы мен PCIe қуатын қосатын тұрақтылығы да қуат берудің бүтіндігінде бағаланбаған рөл атқарады. Жоғары кедергілі қосқыштар немесе кішірек кабельдер қуат қорының шығысы мен GPU-ның қуат кірісі арасында кернеу төмендеуіне әкеледі, нәтижесінде картаға түсетін кернеу қуат қорының реттелген шығысынан төмендейді. Көп GPU-лы жүйелерде қуат берудің нашар инфрақұрылымының жинақталған әсері тұрақсыздыққа әкеледі, бұл қате суыту немесе GPU аппараттық проблемасы сияқты көрінеді, бірақ шын мәнінде бұл қуат беру жолындағы проблема.
Тұрақты GPU жұмысы үшін жүйелік деңгейдегі интеграция
Шасси мен аналық тақтаның платформасын таңдау
Шасси мен аналық тақта кез келген жүйенің интеграциялық негізін құрайды жоғары деңгейлі GPU орнатулары жоба. GPU жұмыс жүктемелерін ескере отырып құрылмаған платформа жиі жүйенің өнімділігі мен сенімділігін төмендететін жылу, қуат және механикалық сыйласымдылық қиындықтарын туғызады. Бағаланатын негізгі сипаттамаларға толық ұзындықтағы, толық биіктіктегі, екі еселі енде PCIe слоттарының саны мен механикалық арақашықтығы, CPU мен чипсеттен шығатын PCIe шинасының топологиясы және қосымша суыту шешімдерімен жабдықталған ұзын GPU карталарын орналастыру үшін қажетті шасси тереңдігі жатады.
GPU-ге оптимизацияланған суперсерверлердің негізінде құрылған кейбір кәсіби серверлік платформалар осы интеграциялық қиындықтарды шешуге арналған. Олар біртұтас расталған платформада құрылымдалған ауа ағысын, жоғары қуатты тарату жүйесін және оптималды PCIe слоттарының конфигурациясын үйлестіреді. GPU-ға қатты тәуелді жұмыс жүктемелері үшін сынақтан өткізілген және расталған платформаны таңдау жалпы мақсаттағы серверді GPU-ға тығыз конфигурацияға баптауға қарағанда инженерлік қаупін әлдеқайда төмендетеді.
Мақсатты жасалған платформаларды бағалайтын командалар үшін жоғары деңгейлі GPU орнатулары бұл қолдану жағдайы Supermicro 741GE сияқты жүйелер арқылы тікелей шешіледі, ол кәсіби көп GPU-лы орнатулардың біріктірілген жылулық және электрлік талаптарын қанағаттандыруға арналған шассидің ішінде төрт PCIe GPU-ға дейін қолдау көрсетеді. Бұл қолдану жағдайы үшін негізден бастап құрылған платформаларды бағалау — орнату қаупін азайтудың ең тиімді тәсілдерінің бірі.
BIOS, микропрограмма және операциялық жүйе конфигурациясы
Операциялық жүйеде тұрақты жұмыс істеу тек аппараттық құрамды таңдау арқылы ғана қамтамасыз етілмейді. жоғары деңгейлі GPU орнатулары bIOS және микропрограмма конфигурациясы көп GPU-лы жүйелер үшін дұрыс жұмыс параметрлерін орнатуда маңызды рөл атқарады. PCIe байланыс ені мен жылдамдығы, 4 ГБ-тан жоғары декодтау қолдауы, өлшемі өзгеретін BAR-ды іске қосу және қуат шектеу профилдері сияқты параметрлер GPU-лардың қажетті өнімділік деңгейлерінде жұмыс істеуін қамтамасыз ету үшін дұрыс конфигурациялануы тиіс; бұл сәйкестік немесе тұрақтылық мәселелерін туғызбауға кепілдік береді.
Әсіресе, 4 ГБ-тан жоғары декодтау — бұл заманауи жоғары жадты GPU-ларды көп карта конфигурациясында дұрыс жұмыс істеуі үшін қосылуы тиіс BIOS функциясы. Бұл параметр орнатылмаса, кейбір операциялық жүйелер мен GPU драйверлері GPU жадының адрес кеңістігін дұрыс салыстыра алмайды, нәтижесінде функционалдық төмендейді немесе карта мүлдем инициализацияланбайды. Бұл — жоғары деңгейлі GPU орнатулары жалпы мақсаттағы серверлерден құрастырылған, алайда арнайы GPU платформалары үшін құрастырылмаған жабдықтарда жиі ұмытылатын конфигурациялық қадам.
Операциялық жүйе деңгейінде GPU қуатын басқару профилдерін өндірістік жұмыс жүктемесі ортасында әрқашан қосылған, максималды өнімділік күйлеріне қарай қарастырып, орнату қажет. Әдеттегі ОЖ қуатын басқару параметрлері GPU-ларды есептеу жұмыстары берілген кезде кешігу туғызатын төмен қуатты тыныштық күйлеріне кіруге рұқсат етуі мүмкін, бұл кешігу сезімтал қорытындылау каналдарында немесе интерактивті визуализация қолданбаларында қажетсіз болып табылады, олар жоғары деңгейлі GPU орнатулары .
Мониторинг, техникалық қызмет көрсету және ұзақ мерзімді сенімділік
Нақты уақыттағы жылулық және қуат бақылауы
Ұзақ мерзімді сенімділікті қамтамасыз ету үшін берік бақылау инфрақұрылымын орнату маңызды жоғары деңгейлі GPU орнатулары . GPU басқару құралдары мен IPMI және Redfish сияқты платформа басқару интерфейстері GPU-ның түйінді температурасын, желдеткіштің айналу жиілігін, қуаттың тұтынул деңгейін және жады қателерінің жиілігін нақты уақытта бақылауға мүмкіндік береді. Осы көрсеткіштер үшін ескерту порогтарын орнату операциялық топтарға жылулық немесе қуаттық ақауларды аппараттық ақауларға айналдырмас бұрын анықтауға мүмкіндік береді.
Уақыт өте келе бақылауға алынатын трендтерді бақылау да соншалықты маңызды. Бірдей жұмыс жүктемесінде орташа жұмыс істеу температурасы постепен өсетін GPU-ның жылу шашқышының сапасы төмендегенін, желдеткіштің подшипниктері тозғанын немесе суыту пластинкаларында шаң жиналғанын көрсетуі мүмкін — бұлардың барлығы алдын ала техникалық қызмет көрсету арқылы жоюға болады. Трендтерді бақыламасаңыз, бұл постепен өзгерістер жүйе критикалық деңгейге жетіп, ақау оқиғасын немесе авариялық өшіруді тудырғанға дейін байқалмайды.
Кәсіпорындық орталарда жұмыс істейтін жоғары деңгейлі GPU орнатулары gPU телеметриясын орталықтандырылған инфрақұрылымды бақылау платформаларына интеграциялау арқылы есептеу ресурстарының пайдаланылуы, жылулық әрекеті және қуаттың тұтынуы арасындағы байланысты анықтауға болады. Бұл интеграция қуаттың аномалиялары пайда болған кезде әрі алдын-ала сыйымдылық жоспарлауын, әрі түбірлік себептерді талдауды қолдайды.
Алдын-ала болдырмау шаралары мен өмірлік циклды жоспарлау
Компоненттердің қызмет көрсету мерзімі жоғары деңгейлі GPU орнатулары олардың жұмыс істейтін жылулық ортаның тұрақтылығымен тығыз байланысты. Тұрақты жоғары температурада жұмыс істеу GPU-ның интерконнектілеріндегі электромиграцияны жеделдетеді, кристалл мен радиатор арасындағы жылулық аралық материалдардың сапасын төмендетеді және желдеткіштің подшипниктерінің механикалық қызмет көрсету мерзімін қысқартады. Жылулық пастаны алмастыру, желдеткішті тексеру және корпусын тазарту сияқты регулярлық алдын-ала болдырмау шаралары — кәсіби басқарылатын GPU-ның орнатылуында негізгі тәжірибе болып табылады.
Қуат көздерінде жоғары деңгейлі GPU орнатулары олардың рейтингіленген MTBF сипаттамалары мен нақты жұмыс істеу сағаттарына сәйкес ауыстыру үшін бағалануы тиіс. Жоғары жүктемелі ортада PSU-ды оның дизайн бойынша қызмет көрсету мерзімінен тыс қолдану конденсаторлардың тозу қаупін әлдеқайда көтереді; бұл шығыс шиналарындағы тербелістердің көбеюі ретінде көрінуі мүмкін және соңында күтпеген өшірулерге немесе кернеу реттеуінің сәтсіздігіне әкелуі мүмкін. PSU-дың алдын ала ауыстырылуы жүйе істен шығуынан кейінгі авариялық ауыстырудан әлдеқайда аз тосқауыл тудыратын және қымбат тұратын шара.
Өмірлік циклды жоспарлау жоғары деңгейлі GPU орнатулары gPU-ларды жаңарту кезіндегі жылулық және электрлік әсерлерді де ескеруі тиіс. Бірінші буын карталарды циклдың ортасында жаңа, жоғары TDP-мен жабдықталған моделдермен ауыстырған кезде бар болған суыту мен электр қоректендіру инфрақұрылымы жаңартылған жылулық және электрлік талаптарды қанағаттандыра алатынын растау үшін қайтадан бағалануы тиіс. Қайта бағалаусыз кері совместимділікті ұсыну – жаңартудан кейінгі сенімділік проблемаларының жиі кездесетін себебі.
Жиі қойылатын сұрақтар
Көптеген карта орнатылған жағдайда GPU-лар үшін ұсынылатын температура ауқымы қандай?
Көптеген кәсіби деңгейдегі GPU-лар әдетте жалпы температурасы шамамен 83–95°C дейін болғанда қауіпсіз жұмыс істеуге арналған, бірақ максималды температура шектеріне жақын тұрақты жұмыс компоненттердің қартаюын жеделдетеді. Ұзақ мерзімді сенімділік үшін жоғары деңгейлі GPU орнатулары gPU-лардың орташа температурасын толық және тұрақты жүктеме кезінде 75–80°C төменде ұстау үшін суыту жүйесін жобалау — бұл маңызды жылулық резерв қамтамасыз ететін және құрылғының қызмет ету мерзімін ұзартатын кеңінен ұсынылатын тәжірибе.
Төрт GPU-лы сервер үшін қандай деңгейде электр қоректендіру резерві ұсынылады?
Төрт GPU-лы жүйе үшін есептелген жүйенің пиктік жүктемесінен артық 20–30 пайызға дейін резерв ұсынылады. Бұл GPU ядроларының іске қосылу кезіндегі уақытша қуат шығынын, қосымша жүйелік жүктемелерді ескереді және электр қоректендіру блогы (PSU) өзінің максималды рейтингі бойынша тұрақты түрде жұмыс істемеуін қамтамасыз етеді. Практикада көптеген инженерлер жоғары деңгейлі GPU орнатулары жоғары TDP-лы картаға ие серверлерді орнатқан кезде теориялық пиктік жүктеме 2000 Вт болса да, электр қоректендіру блогын 2500 Вт немесе одан да жоғары қуатқа есептейді.
Ауа ағысы бағыты GPU серверінің корпусында маңызды ма?
Ауа ағысы бағыты кез келген жоғары деңгейлі GPU орнатулары корпус үшін өте маңызды. Көптеген кәсіби серверлік платформалар алдынан артқа қарай ауа ағысын қолданады, яғни салқын ауа стойканың алдыңғы жағынан кіреді де, ыстық шығарылым артқы жағынан шығады. Бұл мақсатты ауа ағысы жолын бұзатындай тәсілмен GPU-ларды, желдеткіштерді немесе бос орындарды толтыратын панельдерді орнату ыстық шығарылымның қайта айналуына, локальды ыстық дақтарға және жалпы суыту қуаты жеткілікті болса да GPU температурасының қатты көтерілуіне әкелуі мүмкін.
Кәсіби GPU серверлерін жинағанда тұтынушылық деңгейіндегі қоректендіру блоктарын қолдануға бола ма?
Тұтынушылық деңгейіндегі қоректендіру блоктары кәсіби жоғары деңгейлі GPU орнатулары олар әдетте кәсіпорындық орталықтарда қажетті тұрақты кернеу реттеу дәлдігінің төменгі шектерін, резервтік опцияларды, қыздыру кезінде ауыстыру мүмкіндігін және жоғары тиімділік көрсеткіштерін қамтамасыз етпейді. Одан да маңыздырақ, көптеген тұтынушылық қоректендіру блоктары GPU есептеу жұмыстарында жиі кездесетін, жақын шекті жүктемеде 24/7 үздіксіз жұмыс істеуге арналған бағаланбаған, бұл алдын-ала зақымдану мен жүйенің тоқтауы қаупін әлдеқайда арттырады.
Мазмұны
- Жоғары деңгейлі GPU жабдығының жылулық талаптары
- Қоректендіру көзінің архитектурасы мен қуатты жоспарлау
- Тұрақты GPU жұмысы үшін жүйелік деңгейдегі интеграция
- Мониторинг, техникалық қызмет көрсету және ұзақ мерзімді сенімділік
-
Жиі қойылатын сұрақтар
- Көптеген карта орнатылған жағдайда GPU-лар үшін ұсынылатын температура ауқымы қандай?
- Төрт GPU-лы сервер үшін қандай деңгейде электр қоректендіру резерві ұсынылады?
- Ауа ағысы бағыты GPU серверінің корпусында маңызды ма?
- Кәсіби GPU серверлерін жинағанда тұтынушылық деңгейіндегі қоректендіру блоктарын қолдануға бола ма?