ما هي مجموعة الأجهزة (وحدة معالجة الرسومات GPU، وحدة المعالجة المركزية CPU، الذاكرة، التخزين) التي توفر أداءً مثاليًا لاستنتاج الذكاء الاصطناعي وتدريبه؟

2026-05-07 13:00:00

اختيار مجموعة الأجهزة المناسبة لـ استنتاج الذكاء الاصطناعي وتدريبه يُعَدُّ هذا أحد أكثر القرارات البنية التحتية تأثيرًا التي يمكن أن تتخذها المؤسسة الحديثة. وعلى عكس أحمال الحوسبة التقليدية، فإن أحمال الذكاء الاصطناعي تفرض متطلباتٍ متزامنةً وشديدةً على كل طبقة من طبقات التسلسل الهرمي للأجهزة — بدءًا من وحدة معالجة الرسومات (GPU) ووحدة المعالجة المركزية (CPU) وصولًا إلى عرض النطاق الترددي للذاكرة وسرعة نقل البيانات في وحدات التخزين. وبمجرد أن يُخطَأ في اختيار مكوِّن واحد فقط، فقد ينتج عن ذلك عنق زجاجة يُبطِّئ الأداء الكامل للنظام، ما يؤدي إلى هدر الاستثمار، وتباطؤ دورات تكرار تطوير النماذج، وتراجع أداء الاستنتاج الفعلي في الزمن الحقيقي. ولذلك فإن فهم المساهمة التي يقدمها كل مكوِّن من مكوِّنات الأجهزة — وكيفية تفاعل هذه المكوِّنات مع بعضها — يشكِّل الأساس لبناء نظامٍ يحقِّق الأداء المطلوب فعليًّا.

تقدِّم هذه المقالة تحليلًا تفصيليًّا لمجموعة المعدات الصلبة المثلى المُستخدَمة في استنتاج الذكاء الاصطناعي وتدريبه ، وتغطي اختيار وحدة معالجة الرسومات (GPU)، وهندسة وحدة المعالجة المركزية (CPU)، وتكوين الذاكرة، والتسلسل الهرمي للتخزين. سواء كنت تقوم بتشغيل نماذج اللغة الكبيرة، أو تشغيل خطوط أنابيب رؤية الحاسوب، أو إدارة مجموعات التدريب الموزَّعة، فإن الإرشادات الواردة هنا ستساعدك على مواءمة خيارات البنية التحتية الخاصة بك مع أهداف الأداء المنشودة. والقرارات التي تتخذها على مستوى الأجهزة لا تحدد السرعة فحسب، بل تحدد أيضًا الكفاءة من حيث التكلفة، وقابلية التوسع، واستدامة عمليات الذكاء الاصطناعي لديك على المدى الطويل.

دور وحدات معالجة الرسومات (GPUs) في استنتاج الذكاء الاصطناعي وتدريبه

لماذا تُعَدُّ هندسة وحدة معالجة الرسومات (GPU) محوريةً في أداء الذكاء الاصطناعي

تُعَدُّ وحدات معالجة الرسومات (GPUs) القلب الحسابي لأي نظام مصمم لـ استنتاج الذكاء الاصطناعي وتدريبه إن معمارية المعالجات الرسومية الموازية الضخمة، التي تضم آلاف النوى من نوع CUDA أو ما يعادلها، تسمح لها بأداء عمليات ضرب المصفوفات والعمليات التنسورية التي تشكّل الأساس الحسابي للشبكات العصبية بسرعة استثنائية. فمهما بلغت قوة وحدة معالجة مركزية (CPU)، فإنها لا تستطيع أبدًا منافسة معدل الإنتاجية الذي تحققه وحدة معالجة رسومية (GPU) حديثة في هذه المهام المُحددة. والفرق ليس هامشيًّا — بل غالبًا ما يقاس بعدة رتب من حيث الحجم.

أما بالنسبة لأحمال العمل الخاصة بالتدريب، فإن الأداء الخطي العائم الخام — وبخاصة بصيغ مثل FP16 وBF16 وINT8 — هو ما يحدد سرعة حساب التدرجات وتحديث الأوزان. أما بالنسبة لـ استنتاج الذكاء الاصطناعي وتدريبه التشغيل (Serving)، فإن مقاييس زمن الاستجابة (Latency) ومعدل التدفق (Throughput) تصبح متساوية الأهمية، ما يتطلب وحدات معالجة رسومية تمتلك عرض نطاق ترددي عالي للذاكرة ونوى تنسورية فعّالة. وقد أصبحت وحدات معالجة الرسوميات عالية الأداء المخصصة لمراكز البيانات، والتي تضم محركات مُخصصة لمعالجة نماذج الترانسفورمر (Transformer Engine)، هي المعيار القياسي للنشر الإنتاجي، لأنها مُصمَّمة خصيصًا لتلبية هذين المطلبين المتزامنين.

إن عدد وحدات معالجة الرسومات (GPU) في الخادم يُعد أيضًا عاملًا بالغ الأهمية. فالتّكوينات متعددة وحدات معالجة الرسومات المتصلة عبر روابط توصيل عالية السرعة تسمح بتقسيم النماذج على عدة أجهزة بشكل متوازٍ، مما يقلل من وقت التدريب ويتيح استخدام أحجام دفعات أكبر أثناء الاستنتاج. وعند تقييم أي خادم مُخصَّص لأعمال جادة، استنتاج الذكاء الاصطناعي وتدريبه يجب أن يشكّل عدد وحدات معالجة الرسومات (GPU)، وهيكلة روابط التوصيل بينها، والسعة التخزينية للذاكرة المخصصة لكل وحدة معالجة رسومات معايير الاختيار الأساسية بدلًا من اعتبارها عوامل ثانوية.

ملاءمة سعة ذاكرة وحدة معالجة الرسومات لحجم النموذج

تُعرف ذاكرة وحدة معالجة الرسومات عمومًا باسم الذاكرة المخصصة للرسومات (VRAM)، وهي غالبًا أول قيد صارم يواجهه المستخدم عند نشر النماذج الكبيرة. فنموذج اللغة الذي يحتوي على عشرات المليارات من المعاملات يتطلب مئات الجيجابايت من ذاكرة وحدة معالجة الرسومات فقط لتخزين أوزانه بصيغة الدقة المنخفضة (FP16)، قبل حتى أخذ حالات التفعيل أو حالات المُحسِّن في الاعتبار أثناء التدريب. ولذلك، يجب أن توفر الأنظمة المصممة للتشغيل استنتاج الذكاء الاصطناعي وتدريبه على نطاق واسع إما سعةً كبيرة جدًّا للذاكرة المخصصة لكل وحدة معالجة رسومات، أو القدرة على توزيع أوزان النموذج بسلاسة عبر عدة وحدات معالجة رسومات.

عرض النطاق الترددي للذاكرة لا يقل أهميةً عن ذلك. فحتى لو كانت وحدة معالجة الرسومات (GPU) تمتلك سعة كافية، فإن انخفاض عرض النطاق الترددي سيؤدي إلى توقف نوى المعالجة عن العمل انتظارًا لتحميل البيانات. ولقد تم تطوير تقنيات الذاكرة عالية العرض الترددي تحديدًا لمعالجة هذا الاختناق في استنتاج الذكاء الاصطناعي وتدريبه السيناريوهات. وعند تقييم خيارات وحدات معالجة الرسومات (GPU)، فإن نسبة عرض النطاق الترددي للذاكرة إلى قدرة الحوسبة تُعد معيارًا موثوقًا لمدى أداء وحدة معالجة الرسومات في العمليات المقيدة بالذاكرة، وهي عمليات شائعة جدًّا في هياكل نماذج المحولات (transformer-based models).

متطلبات وحدة المعالجة المركزية (CPU) لأحمال العمل الخاصة بالذكاء الاصطناعي

الدور الداعم لوحدة المعالجة المركزية (CPU) في مكدس الذكاء الاصطناعي

بينما تهيمن وحدات معالجة الرسومات (GPU) على المراحل التي تتطلب حوسبة مكثفة في استنتاج الذكاء الاصطناعي وتدريبه يلعب وحدة المعالجة المركزية (CPU) دورًا تنسيقيًّا لا غنى عنه. فهي تتولى معالجة البيانات مبدئيًّا، وتجميعها في دفعات، وتحميل النماذج، والاتصال بين العمليات، والجدولة على مستوى النظام. ويمكن لوحدة معالجة مركزية ضعيفة أو غير مُهيَّأة جيدًا أن تحرم وحدات معالجة الرسومات (GPUs) من البيانات، مُحدثةً اختناقًا في جانب العرض حتى عندما تكون وحدات معالجة الرسومات نفسها ذات سعة كافية. وفي بيئات خدمة الاستنتاج عالي الإنتاجية، تتولى وحدة المعالجة المركزية أيضًا إدارة إدخال/إخراج الشبكة وتوجيه الطلبات، ما يجعل أداؤها مرتبطًا ارتباطًا مباشرًا بالتأخير الذي يشعر به المستخدم النهائي.

لـ استنتاج الذكاء الاصطناعي وتدريبه في الخوادم، تُفضَّل وحدات المعالجة المركزية الحديثة متعددة النوى المخصصة للخوادم والتي تتمتَّع بعدد كبير من النوى وذاكرة تخزين مؤقتة من المستوى الأخير كبيرة الحجم. وتقوم هذه المعالجات بمعالجة المهام المبدئية المتوازية — مثل تقسيم النصوص إلى رموز (Tokenization)، وفك تشفير الصور، واستخلاص الخصائص — التي يجب أن تتماشى مع معدل استهلاك وحدات معالجة الرسومات. كما أن عدد قنوات الذاكرة المرتفع في جانب وحدة المعالجة المركزية يؤثِّر تأثيرًا مباشرًا في سرعة نقل البيانات من ذاكرة النظام الرئيسية إلى وحدة معالجة الرسومات عبر مسارات PCIe أو NVLink.

اعتبارات عرض النطاق الترددي بين وحدة المعالجة المركزية ووحدة معالجة الرسومات

الواجهة بين وحدة معالجة المركز (CPU) ووحدة معالجة الرسومات (GPU) هي عامل أداء يُهمَل غالبًا في استنتاج الذكاء الاصطناعي وتدريبه البنية التحتية. وتُحدِّد الجيل المستخدم من واجهة الاتصال الخارجي السريعة (PCIe) وعدد المسارات (Lane Width) مدى سرعة نقل مدخلات النموذج من ذاكرة المضيف إلى ذاكرة وحدة معالجة الرسومات، وكذلك مدى سرعة إرجاع المخرجات. وقد حقق جيل PCIe 5 تحسُّنًا كبيرًا في عرض النطاق الترددي مقارنةً بالأجيال السابقة، وأصبحت الأنظمة التي تدعمه الآن هي المفضَّلة لأحمال العمل الاستنتاجية التي تتطلب كميات كبيرة من البيانات.

وفي سيناريوهات التدريب متعددة وحدات معالجة الرسومات (Multi-GPU)، تقوم وحدة معالجة المركز أيضًا بتنسيق عمليات الاتصال الجماعي — مثل عملية «التجميع الشامل» (All-Reduce) وعملية «الجمع الشامل» (All-Gather) — التي تُزامِن التدرجات (Gradients) عبر وحدات معالجة الرسومات. وعلى الرغم من أن الروابط بين وحدات معالجة الرسومات (GPU-to-GPU Interconnects) تتعامل مع معظم هذه الحركة المرورية، فإن قدرة وحدة معالجة المركز على بدء هذه العمليات وتنسيقها بكفاءة تؤثر في كفاءة التوسع الكلية للنظام. ولذلك، فإن اختيار منصة وحدة معالجة مركز تقدِّم بنيةً ممتازة لواجهة PCIe وعرض نطاق ترددي كافٍ لإدخال/إخراج البيانات (I/O Bandwidth) هو قرار هندسي مقصود وليس أمرًا يتم تجاهله عند تصميم الأنظمة الخاصة بـ استنتاج الذكاء الاصطناعي وتدريبه .

تكوين الذاكرة لخوادم الذكاء الاصطناعي

سعة وسرعة ذاكرة الوصول العشوائي للنظام

ذاكرة النظام، أو الذاكرة العشوائية الديناميكية (DRAM)، تُستخدم كمنطقة تحضير بين التخزين الدائم ووحدة معالجة الرسومات (GPU) أثناء استنتاج الذكاء الاصطناعي وتدريبه العمليات. وتمرّ عبر ذاكرة النظام البيانات، ونقاط التحقق من النماذج (model checkpoints)، والنتائج الوسيطة للحسابات. ويؤدي نقص الذاكرة العشوائية إلى اضطرار النظام إلى نقل البيانات إلى القرص الصلب (swapping)، ما يُسبِّب تأخيرًا كبيرًا قد يُفقِد تمامًا الفوائد المترتبة على إعداد وحدة معالجة رسومات عالية الأداء. ولأعمال الذكاء الاصطناعي الجادة، أصبحت ذاكرة النظام في نطاق ٥١٢ جيجابايت إلى عدة تيرابايت معيارًا متزايد الانتشار.

كما أن سرعة الذاكرة وعدد قنوات الذاكرة النشطة يلعبان دورًا كبيرًا أيضًا. وأصبحت ذاكرة DDR5 ذات التردد العالي والتأخير المنخفض المعيار المفضل للمنصات المصممة خصيصًا لحالات الاستخدام الخاصة بـ استنتاج الذكاء الاصطناعي وتدريبه الذكاء الاصطناعي، حيث توفر عرض نطاق ترددي أعلى بكثير مقارنةً بالأجيال السابقة. ويعتبر تشغيل الذاكرة عبر جميع القنوات المتاحة لتحقيق أقصى عرض نطاق ترددي تراكمي ممارسةً موصى بها بشدة عند تركيب خادم ذكاء اصطناعي، ولا ينبغي أبدًا إهمالها.

الذاكرة ذات التصحيح التلقائي للأخطاء (ECC) والموثوقية

ذاكرة التصحيح التلقائي للأخطاء (ECC) ليست اختيارية للبيئات الإنتاجية استنتاج الذكاء الاصطناعي وتدريبه الأنظمة. المهام التدريبية الطويلة التي تستغرق أيامًا أو أسابيع تكون عُرضةً جدًّا للأخطاء الصامتة في الذاكرة — مثل انقلاب بت واحد ناتج عن أشعة كونية أو تقلبات في الجهد الكهربائي — والتي قد تتسبب في تلف أوزان النموذج وإبطال مفعول عمليات التدريب بأكملها دون إظهار أي إشارة خطأ واضحة. وتقوم ذاكرة التصحيح التلقائي للأخطاء (ECC) باكتشاف هذه الأخطاء وتصحيحها بشكل شفاف، مما يحمي سلامة الحسابات على حساب هامش ضئيل من الانخفاض في الأداء، وهو أمرٌ دائمًا ما يكون مبرَّرًا في البيئات الاحترافية.

وبجانب الموثوقية، تشمل تهيئة الذاكرة أيضًا اعتبارات مثل بنية التوجُّه العددي غير المتجانسة (NUMA). ففي منصات الخوادم ذات المقاعد المزدوجة (Dual-socket)، يمتلك كل معالج وحدة ذاكرة محلية خاصة به، ويؤدي الوصول إلى وحدة الذاكرة البعيدة إلى تأخير إضافي. ولذلك فإن التخصيص الدقيق للذاكرة مع مراعاة بنية NUMA يضمن أن استنتاج الذكاء الاصطناعي وتدريبه تتم عملية الوصول إلى الذاكرة المحلية قدر الإمكان من قِبل العمليات المختلفة، مما يقلل من متوسط زمن وصول الذاكرة بشكل عام.

هندسة التخزين لخطوط أنابيب بيانات الذكاء الاصطناعي

محركات الأقراص الصلبة ذات واجهة NVMe كطبقة تخزين أولية

يُهمَل عادةً تصميم طبقة التخزين أكثر من أي طبقة أخرى عند بناء خوادم الذكاء الاصطناعي، رغم أن هذه الطبقة تؤثر مباشرةً على سرعة تكرار عمليات التدريب ومرونة نشر الاستنتاجات. بالنسبة إلى استنتاج الذكاء الاصطناعي وتدريبه مَسارات المعالجة، تُعَد محركات الأقراص الصلبة ذات واجهة NVMe المتصلة عبر واجهة PCIe الحد الأدنى المقبول لمعايير التخزين الأولي. وتوفّر هذه المحركات سرعات قراءة تسلسلية تقاس بالجيجابايت في الثانية، ما يسمح بتحميل مجموعات البيانات الكبيرة ونقاط التحقق من النماذج (model checkpoints) والتنشيطات (activations) إلى ذاكرة النظام وذاكرة وحدة معالجة الرسومات بمعدلات تتماشى مع متطلبات المعالجة.

كما أن عدد محركات الأقراص الصلبة ذات واجهة NVMe وتكوينها في نظام RAID أو التوزيع (striping) يحددان أقصى سعة نقل بيانات ممكنة. فتدريب النماذج على مجموعات بيانات رؤية حاسوبية كبيرة أو على مجموعات نصية متعددة الوسائط يتطلب أداء قراءة تسلسلية مستمر لا يمكن لمحرك واحد من نوع NVMe تأمينه دائمًا. أما نشر عدة محركات NVMe ضمن تكوين RAID-0 برمجي أو تكوين توزيع (striping) عتادي فيضاعف عرض النطاق الترددي المتاح، مما يضمن ألا تصبح منظومة التخزين أبدًا العامل المقيد في استنتاج الذكاء الاصطناعي وتدريبه سير العمل.

تخطيط سعة التخزين وتقسيم الطبقات التخزينية

وراء الأداء، يُعَدُّ تخطيط السعة مصدر قلقٍ جادٍ للفرق العاملة في مشاريع مستمرة. استنتاج الذكاء الاصطناعي وتدريبه يمكن أن تمتد مجموعات البيانات المستخدمة في مرحلة ما قبل تدريب نماذج اللغة الكبيرة (LLM) إلى عشرات التيرابايت، وقد تتراكم ملفات النقاط المرجعية (Checkpoints) بسرعة كبيرة خلال فترات التدريب الطويلة. وعادةً ما يتضمَّن استراتيجية تخزين الخوادم الذكية المُصمَّمة جيدًا طبقة سريعة من وحدات التخزين ذات واجهة NVMe لبيانات التدريب النشطة وملفات النقاط المرجعية، إلى جانب طبقة عالية السعة من وحدات التخزين الصلبة (SSD) أو الأقراص الصلبة التقليدية (HDD) لتخزين التجارب المنجزة ومجموعات البيانات الأولية لأغراض الأرشفة.

أما بالنسبة لتشغيل الاستنتاج (Inference Serving)، فإن سرعة التخزين تؤثِّر في زمن تحميل النموذج، والذي يُحدِّد زمن التأخُّر عند التشغيل الأولي (Cold-start Latency). وفي البيئات التي يتم فيها تحميل النماذج عند الطلب — كما هو الحال في عمليات الاستنتاج الخادمية بدون خادم (Serverless Inference Deployments) أو أنظمة خدمة نماذج متعددة (Multi-model Serving Systems) — فإن وحدات التخزين السريعة من نوع NVMe تقلِّل بشكل مباشر زمن التأخُّر المُدرَك من قِبل المستخدم. استنتاج الذكاء الاصطناعي وتدريبه وتقلِّل المنصة المزودة بتجميعة تخزين مُتناسقة جيدًا من هذه العقوبات الناتجة عن التشغيل الأولي (Cold-start Penalties)، وتدعم زيادة درجة التوازي في تشغيل النماذج دون حدوث تأخُّرات ناتجة عن التخزين.

دمج كامل مجموعة الأجهزة لتحقيق أقصى أداء

مبادئ التصميم المتوازن للأنظمة

أفضل مجموعات الأجهزة أداءً لـ استنتاج الذكاء الاصطناعي وتدريبه ليست ببساطة تجميعاتٍ من أفضل المكونات الفردية فقط، بل هي أنظمة متوازنةٌ بعنايةٍ بحيث يُحدَّد حجم كل طبقةٍ بما يتناسب مع سعة الإنتاجية التدفقية للطبقات الأخرى. فعلى سبيل المثال، لن تحقِّق منظومةٌ مكوَّنةٌ من ثمانية وحدات معالجة رسوميات عالية الأداء (GPU) لكنها مرتبطة بكل منها أربعة ممرات PCIe فقط، أو منظومةٌ لا تحتوي على عدد كافٍ من نوى وحدة المعالجة المركزية (CPU) لمعالجة المهام الأولية، أداءً يقترب من ذروتها النظرية. والمبدأ الحاكم هنا هو التوازن، والذي يتطلَّب من مهندسي تصميم الأنظمة نمذجة تدفق البيانات بدءًا من وحدة التخزين، مرورًا بالذاكرة ووحدة المعالجة المركزية، وانتهاءً بوحدة معالجة الرسوميات قبل الانتهاء من تحديد المواصفات النهائية.

تصميم التبريد الحراري عامل تكاملٍ آخر يسهل تجاهله حتى تظهر مشكلاته. فتوليد الحرارة في تشكيلات وحدات معالجة الرسوميات عالية الكثافة يكون كبيرًا جدًّا، ويؤدي عدم كفاية نظام التبريد إلى خفض سرعة تشغيل وحدات معالجة الرسوميات (Throttling)، ما يقلِّل من إنتاجيتها الحاسوبية الفعَّالة. أما خوادم الذكاء الاصطناعي المركَّبة في أرفف (Rack-mounted) المصمَّمة لـ استنتاج الذكاء الاصطناعي وتدريبه على نطاق واسع، دمج تصاميم هيكلية ذات تدفق هواء عالٍ، ووحدات إمداد طاقة احتياطية، وأنظمة إدارة حرارية تحافظ على درجات حرارة المكونات ضمن النطاقات التشغيلية المثلى حتى في ظل ظروف التحميل الكامل المستمر.

القابلية للتوسع وضمان التحديث المستقبلي للمنصة

تزداد نماذج الذكاء الاصطناعي حجمًا وتعقيدًا بوتيرة سريعة، ويجب تقييم الاستثمارات في الأجهزة ليس فقط وفق الاحتياجات الحالية، بل أيضًا وفق قدرتها على التوسع. وتُوفِّر المنصات التي تدعم تحديث وحدات معالجة الرسومات (GPU)، وإضافة شرائح ذاكرة إضافية (DIMMs)، والتوسيع عبر واجهة NVMe دون الحاجة إلى استبدال النظام بالكامل تكلفة ملكية إجمالية أفضل بكثير للفِرق العاملة في مجالات البحث والنشر على المدى الطويل. استنتاج الذكاء الاصطناعي وتدريبه وتُعَد فتحات التوسُّع عبر واجهة PCIe، والمحارب المفتوحة لوحدات التخزين، وهياكل توصيل الطاقة القابلة للتعديل جميعها مؤشراتٍ على منصة صُمِّمت مع مراعاة القابلية للتوسع.

ويشكِّل الاتصال الشبكي جزءًا أيضًا من اعتبارات المنصة الكاملة بالنسبة للأنظمة الموزَّعة استنتاج الذكاء الاصطناعي وتدريبه النشر. تتيح تقنية إنفيني باند عالية السرعة أو شبكة إيثرنت القادرة على الوصول المباشر إلى الذاكرة (RDMA) التدريب متعدد العُقد، مما يسمح بتوسيع نطاق الأحمال التشغيلية لتجاوز سعة خادم واحد. وتخطيط الوصول إلى وحدات التخزين المتصلة بالشبكة والتواصل بين العُقد فيما يتعلق بتدرجات البيانات منذ البداية يمنع الحاجة إلى تعديلات مكلفة لاحقًا مع توسع نطاق عمليات الذكاء الاصطناعي.

الأسئلة الشائعة

ما المكوّن المادي الوحيد الأكثر أهميةً في أداء استنتاج الذكاء الاصطناعي وتدريبه؟

وحدة معالجة الرسومات (GPU) هي المكوّن الوحيد الأكثر حرجًا في استنتاج الذكاء الاصطناعي وتدريبه لأنها تقوم بالجزء الأكبر من العمليات الحسابية الفعلية. ومع ذلك، لا يمكنها تحقيق إمكاناتها الكاملة دون توفر كمية كافية من ذاكرة النظام (RAM)، ووحدات تخزين سريعة، ووحدة معالجة مركزية (CPU) قادرة على تزويدها بالبيانات باستمرار. واعتبار وحدة معالجة الرسومات العنصر الوحيد المهم يؤدي إلى أنظمة غير متوازنة لا تحقق الأداء المذكور في مواصفاتها.

كمية ذاكرة النظام (RAM) الموصى بها لخوادم استنتاج الذكاء الاصطناعي وتدريبه؟

للمهام الجادة استنتاج الذكاء الاصطناعي وتدريبه لأحمال العمل هذه، يُوصى بحد أدنى من ذاكرة النظام من نوع ECC DDR5 تبلغ سعتها 256 جيجابايت، بينما يُفضَّل أن تكون السعة 512 جيجابايت أو أكثر للتدريب على نطاق واسع في هياكل النماذج متعددة الوسائط أو نماذج اللغات الكبيرة. ويعتمد المطلوب بالضبط على حجم مجموعة البيانات وحجم الدفعة (Batch Size)، وكذلك على ما إذا كان النظام يستخدم أساسًا للتدريب أو الاستنتاج (Inference) أو لكليهما معًا.

هل تؤثر سرعة التخزين فعلاً في أداء الاستنتاج (Inference) والتدريب في مجال الذكاء الاصطناعي؟

نعم، وبشكل كبير. فسرعة التخزين تؤثر في مدى سرعة تحميل بيانات التدريب في كل تكرار (Iteration)، وفي سرعة حفظ واستعادة نقاط التحقق من النموذج (Model Checkpoints)، وكذلك في سرعة تحميل النماذج أثناء عملية الاستنتاج. ويؤدي التخزين البطيء إلى حالات انتظار إدخال/إخراج (I/O Wait States) تمنع وحدات معالجة الرسومات (GPUs) من العمل عند طاقتها القصوى خلال استنتاج الذكاء الاصطناعي وتدريبه مما يؤدي مباشرةً إلى خفض الإنتاجية الفعالة وزيادة الوقت الكلي (Wall-Clock Time) المطلوب لإكمال عملية التدريب.

ما الميزات التي تمتلكها وحدة المعالجة المركزية (CPU) والتي تكتسب أهمية قصوى في منصات الخوادم المخصصة للاستنتاج (Inference) والتدريب في مجال الذكاء الاصطناعي؟

لـ استنتاج الذكاء الاصطناعي وتدريبه على المنصات، فإن أهم ميزات وحدة المعالجة المركزية (CPU) هي ارتفاع عدد النوى، والدعم المقدم لعدد كبير من قنوات الذاكرة، واتصال PCIe الجيل الخامس، وسعة كبيرة لذاكرة التخزين المؤقت من المستوى الأخير. وتضمن هذه الخصائص أن تكون وحدة المعالجة المركزية قادرةً على إدارة معالجة البيانات الأولية، والتواصل مع وحدة معالجة الرسومات (GPU)، وتنظيم النظام بكفاءة، دون أن تصبح عنق زجاجة في خط أنابيب الحوسبة الذكائية.

التالي: كيف تختار المنصة الاصطناعية المناسبة للرؤية الحاسوبية أو معالجة اللغة الطبيعية أو التحليلات التنبؤية؟

جدول المحتويات

دور وحدات معالجة الرسومات (GPUs) في استنتاج الذكاء الاصطناعي وتدريبه
- لماذا تُعَدُّ هندسة وحدة معالجة الرسومات (GPU) محوريةً في أداء الذكاء الاصطناعي
- ملاءمة سعة ذاكرة وحدة معالجة الرسومات لحجم النموذج
متطلبات وحدة المعالجة المركزية (CPU) لأحمال العمل الخاصة بالذكاء الاصطناعي
- الدور الداعم لوحدة المعالجة المركزية (CPU) في مكدس الذكاء الاصطناعي
- اعتبارات عرض النطاق الترددي بين وحدة المعالجة المركزية ووحدة معالجة الرسومات
تكوين الذاكرة لخوادم الذكاء الاصطناعي
- سعة وسرعة ذاكرة الوصول العشوائي للنظام
- الذاكرة ذات التصحيح التلقائي للأخطاء (ECC) والموثوقية
هندسة التخزين لخطوط أنابيب بيانات الذكاء الاصطناعي
- محركات الأقراص الصلبة ذات واجهة NVMe كطبقة تخزين أولية
- تخطيط سعة التخزين وتقسيم الطبقات التخزينية
دمج كامل مجموعة الأجهزة لتحقيق أقصى أداء
- مبادئ التصميم المتوازن للأنظمة
- القابلية للتوسع وضمان التحديث المستقبلي للمنصة
الأسئلة الشائعة

شريكك الموثوق في حلول أجهزة الحاسوب المكتبية والخوادم للشركات

جميع الفئات