مدونة الإدارة الحرارية

في مجال تقنيات تبديد الحرارة، تُعدّ الإدارة الحرارية أمرًا بالغ الأهمية. تُعدّ مدونة Walmate الحرارية منصةً مثاليةً. هنا، نشارك حلولًا متقدمةً لإدارة الحرارة، بدءًا من مشتتات الحرارة المبتكرة ووصولًا إلى أنظمة التبريد الذكية، مما يُمكّنك من البقاء في الطليعة.

حل تبريد زيت الغمر لخادم وحدة معالجة الرسومات NVIDIA H200

حل تبريد زيت الغمر لخادم وحدة معالجة الرسومات NVIDIA H200

يُعدّ معالج NVIDIA H200 قوةً حاسوبيةً هائلة، إذ يُسهم في إحداث ثورة في الذكاء الاصطناعي بفضل نطاق ترددي للذاكرة وسرعة معالجة لا مثيل لهما. ومع ذلك، يأتي هذا الأداء بتكلفة حرارية باهظة. فمع طاقة تصميم حرارية (TDP) تتجاوز 700 واط لكل وحدة معالجة رسومية وكثافات طاقة الرفوف تدفع الماضي 50 كيلو واطلم يعد التبريد الهوائي التقليدي غير فعال فحسب، بل أصبح يُشكل عائقًا رئيسيًا في الأداء. ولإطلاق العنان للإمكانات الكاملة لهذه التجمعات عالية الكثافة، يجب على مراكز البيانات التحول إلى نموذج إدارة حرارية أكثر فعالية.

تبريد زيت الغمر تتضمن هذه الطريقة غمر البنية التحتية لخادم H200 بالكامل في سائل عازل موصل للحرارة. تُلغي هذه الطريقة المقاومة الحرارية للهواء، مما يُتيح تصنيفات منخفضة لفعالية استخدام الطاقة (PUE) تصل إلى 1.03، زيادة كثافة الرف بمقدار حتى 100٪، وضمان سرعات ساعة قصوى ثابتة دون خطر الاختناق الحراري.

يقدم هذا الدليل تحليلاً هندسياً شاملاً لنشر التبريد بالغمر لمجموعات HGX H200. سندرس الديناميكا الحرارية للزيت أحادي الطور، ونختار السوائل العازلة المثلى، ونحدد بنية النظام اللازمة، ونعالج تحديات توافق المواد لبناء مركز بيانات ذكاء اصطناعي عالي الكثافة ومتطور ومواكب للمستقبل.

لماذا أصبح تبريد الهواء قديمًا بالنسبة لمجموعات NVIDIA H200؟

يُمثل الانتقال إلى NVIDIA H200 نهايةً نهائيةً لعصر التبريد الهوائي في الحوسبة عالية الأداء. ويُعتبر الحد الحراري للتبريد الهوائي القسري التقليدي عمومًا حوالي 30-40 كيلو واط لكل رفومع ذلك، يمكن لمجموعات H200 عالية الكثافة أن تتجاوز بسهولة 100 كيلو واط لكل رفمما يُولّد حملاً حرارياً يعجز الهواء فعلياً عن إزالته دون التسبب في ضوضاء واهتزازات مفرطة وتكاليف طاقة باهظة. تؤدي محاولة تبريد هذه الأنظمة بالهواء إلى اختناق حراري فوري وانخفاض حاد في كفاءة الحوسبة.

الديناميكا الحرارية للفشل: مواصفات H200O

لفهم سبب تعطل الهواء، علينا النظر إلى البيانات الحرارية الخام للأجهزة. إن NVIDIA H200 ليس مجرد شريحة؛ بل هو تحدٍّ حراري يتجاوز حدود الفيزياء:

  • TDP المتطرفة: تتمتع وحدة معالجة الرسوميات H200 (SXM5) واحدة بقوة تصميم حرارية (TDP) تبلغ 700Wمع أحمال ذروة عابرة غالبًا ما تتجاوز هذا. تُولّد لوحة أساسية HGX ذات 8 وحدات معالجة رسومية وحدها 5.6 كيلو واط من الحرارة في هيكل 4U أو 6U.
  • درجات حرارة الوصلات العالية: للحفاظ على ساعات الذروة، يجب إبقاء درجة حرارة وصلة وحدة معالجة الرسوميات (Tj) أقل بكثير من الحد الأقصى لها (عادةً ~90 درجة مئوية إلى 95 درجة مئوية). يكافح تبريد الهواء للحفاظ على دلتا T هذه عند تدفقات الحرارة العالية هذه.
  • انفجار كثافة الرف: يمكن لرف قياسي مملوء بخوادم H200 أن يصل إلى كثافات طاقة تصل إلى 50 كيلوواط إلى 100 كيلو واطيتطلب الهواء معدل تدفق حجمي هائل (CFM) لتبريده، مما يؤدي إلى متطلبات سرعة مستحيلة.

عواقب التشبث بالهواء

إن الاستمرار في استخدام تبريد الهواء لنشر H200 يؤدي إلى عقوبات تشغيلية شديدة:

  • فقدان الطاقة الطفيلية: لتبريد رفّ بقدرة ١٠٠ كيلوواط بالهواء، يجب تشغيل مراوح الخادم بأقصى سرعة دوران (١٠٠٠٠+). قد يستهلك هذا الحمل الزائد 15٪ إلى٪ 25 من إجمالي طاقة مركز البيانات، مما يرفع بشكل كبير من فعالية استخدام الطاقة (PUE).
  • الاهتزاز الصوتي: تنتج المراوح عالية السرعة مستويات ضوضاء تتجاوز شنومكس دباتتسبب هذه الطاقة الصوتية في حدوث اهتزازات دقيقة يمكن أن تؤدي إلى تدهور أداء محرك الأقراص الصلبة (HDD) وإضعاف الموصلات بمرور الوقت.
  • الخنق الحراري: يُشكّل الهواء "نقاطًا ساخنة" بسبب التوزيع غير المتساوي لتدفق الهواء. عندما يصل مُعالج الرسومات إلى الحد الأقصى للحرارة، يُخفّض الحرارة تلقائيًا، مما يعني أنك تدفع مقابل أداء H200 ولكنك تحصل على سرعات H100 (أو أقل).
المواصفات الخاصه متطلبات NVIDIA H200 (SXM5) حد تبريد الهواء نتيجة
TDP لكل وحدة معالجة رسومية 700 واط ~350-400 واط (بكفاءة) خنق الحراري
كثافة طاقة الرف > 50 كيلو واط – 100 كيلو واط ~30 كيلو واط – 40 كيلو واط يتطلب نشرًا منخفض الكثافة (مساحة مهدرة)
دلتا تي (رقاقة إلى سائل تبريد) يتطلب مقاومة حرارية منخفضة مقاومة عالية (الهواء عازل) درجات حرارة التقاطع العالية
استهلاك الطاقة مروحة غير متوفر (بدون مروحة في الزيت) 20% من حمل تكنولوجيا المعلومات PUE عالية (>1.5)

ما هو التبريد بالغمر؟ أحادي الطور أم ثنائي الطور؟

يتم تصنيف التبريد بالغمر إلى تقنيتين متميزتين: على مرحلة واحدة و مرحلتين. في الغمر أحادي الطوريتم غمر الخوادم في سائل عازل (عادةً ما يكون زيتًا هيدروكربونيًا) يبقى في حالة سائلة، مما يؤدي إلى إزالة الحرارة عن طريق الحمل الحراري المضخّ النشط. في الغمر على مرحلتين، وهو سائل هندسي متخصص يغلي مباشرةً على سطح المُكوّن، مُستغلاً الحرارة الكامنة للتبخر لإزالة الحرارة قبل تكثيفها مُجدداً إلى سائل. في حين يُوفر الزيت ثنائي الطور معدلات نقل حرارة نظرية أعلى، يُعتبر الزيت أحادي الطور على نطاق واسع الخيار الأمثل لاستقرار التشغيل طويل الأمد وتكلفة الملكية الإجمالية (TCO).

التبريد بالغمر أحادي الطور (المعيار الصناعي)

تستخدم الأنظمة أحادية الطور سائلًا عازلًا ذو نقطة غليان عالية (عادةً > 150 ° C) بحيث لا تتغير حالته أبدًا أثناء التشغيل. يمتص السائل الحرارة من وحدات معالجة الرسومات H200، ويدور بواسطة مضخة إلى وحدة توزيع سائل التبريد (CDU) لطرد الحرارة.

  • آلية: يعتمد على الحراري الجبريتقوم المضخات بتوزيع الزيت عبر الخزان وهيكل الخادم.
  • كفاءة نقل الحرارة: يتراوح معامل انتقال الحرارة النموذجي (h) من 1,200 إلى 1,500 واط/م²كعلى الرغم من أن درجة الحرارة أقل من درجة الغليان، إلا أنها كافية لتبريد وحدة معالجة الرسوميات H200 بقدرة 700 واط بمعدل تدفق متواضع.
  • تكلفة السوائل: يستخدم سوائل تعتمد على الهيدروكربون (زيوت معدنية أو مواد بولي أزوتية صناعية)، وهي فعالة من حيث التكلفة (حوالي 100%). 5 دولار – 15 دولار للتر).
  • صيانة: تصميمات الحمام المفتوح تُسهّل الوصول. لا يتبخر السائل بسرعة، مما يُسهّل إجراءات الصيانة، مثل تبديل وحدة ذاكرة DIMM أو وحدة معالجة الرسومات (GPU)، ("الغمس والمسح").

تبريد الغمر ثنائي الطور (المجال عالي الأداء)

تستخدم الأنظمة ثنائية الطور سوائل تعتمد على الفلوروكربون مصممة للغليان عند درجات حرارة منخفضة (على سبيل المثال، 50 درجة مئوية). تؤدي عملية الغليان إلى إنشاء فقاعات بخار على سطح الشريحة، والتي ترتفع إلى ملف تكثيف في الجزء العلوي من الخزان المغلق.

  • آلية: يعتمد على غليان النواة وتغير الطور (الحرارة الكامنة للتبخر).
  • كفاءة نقل الحرارة: عالية للغاية، مع معاملات تتجاوز 10,000 واط / م² ك. وهذا يوفر أقل درجات حرارة ممكنة للوصلات.
  • تكلفة السوائل: السوائل الهندسية باهظة الثمن للغاية (على سبيل المثال، Novec)، والتي غالبًا ما تكلف 150 دولارًا إلى 300 دولارًا أمريكيًا للتر.
  • المخاطر البيئية: يتم تصنيف العديد من السوائل ثنائية الطور على أنها PFAS ("المواد الكيميائية الدائمة")، في مواجهة حظر تنظيمي وشيك في الاتحاد الأوروبي والولايات المتحدة.
  • المخاطر التشغيلية: يجب أن يكون الخزان محكم الإغلاق. حتى التسريب الدقيق يؤدي إلى فقدان سريع لآلاف الدولارات من السوائل نتيجةً لتسرب البخار.

رؤية هندسية: بالنسبة لمعظم عمليات النشر الضخمة، توصي Walmate Thermal زيت أحادي الطورفي حين أن نظام ثنائي الطور يوفر مقاييس حرارية أفضل قليلاً، إلا أن التكلفة الباهظة للسوائل، وتعقيد الصيانة العالي (العزل المحكم)، وعدم اليقين التنظيمي بشأن PFAS، تجعله استثمارًا محفوفًا بالمخاطر لدورة حياة مركز بيانات مدتها 10 سنوات. تتميز أنظمة أحادية الطور بالمتانة والاستدامة، وتوفر سعة تبريد أكثر من كافية (تصل إلى 200 كيلو واط + لكل خزان) لمجموعات H200 الحالية والمستقبلية.

الميزات أحادي الطور (زيت) ثنائي الطور (سائل هندسي)
معامل انتقال الحرارة ~1,200 – 1,500 واط/م²ك > 10,000 واط/م²ك
تكلفة السوائل (تقريبًا) منخفض (5 – 15 دولارًا / لتر) مرتفع جدًا (150 دولارًا أمريكيًا إلى 300 دولارًا أمريكيًا أو أكثر / لتر)
تعقيد الصيانة منخفض (الوصول المفتوح) عالية (تتطلب وعاءً مغلقًا)
خطر فقدان السوائل مهمل (غير متطاير) مرتفع (تبخر سريع في حالة كسر الختم)
إمكانات PUE ٢٠٢٤/٢٠٢٣ ٢٠٢٤/٢٠٢٣
الوضع التنظيمي خيارات آمنة وقابلة للتحلل البيولوجي مخاطر حظر PFAS

اختيار السائل العازل المناسب (الزيت)

السائل العازل هو شريان الحياة لنظام الغمر. فهو يعمل كمبرد وعازل كهربائي. بالنسبة لمجموعات H200 عالية الكثافة، يجب أن يفي السائل بمتطلبات صارمة: قوة عازلة تتجاوز 40 كيلو فولت لمنع حدوث دوائر قصيرة، والتوصيل الحراري العالي لنقل الحمل الحراري 700 واط لكل وحدة معالجة رسومية، والدقة التوافق الماديفي حين أن الزيوت المعدنية المكررة شائعة، فإن مراكز البيانات الحديثة تتجه نحو زيوت PAO (بولي ألفا أوليفين) الاصطناعية لاستقرار الأكسدة المتفوق واللزوجة الثابتة على مدى شنومكس + سنة فترة الحياة.

الخصائص الرئيسية: فيزياء السائل

لا يعتمد اختيار السائل على السعر فحسب؛ بل يعتمد أيضًا على ديناميكيات السوائل ومواصفات السلامة:

  • اللزوجة (cSt): هذا يحدد مدى قوة عمل المضخة. كلما انخفضت اللزوجة، كان ذلك أفضل لنقل الحرارة. السوائل المثالية لها لزوجة حركية قدرها < 10 cSt عند 40 درجة مئوية. تؤدي السوائل ذات اللزوجة العالية إلى إنشاء طبقات حدودية راكدة على قالب وحدة معالجة الرسومات، مما يؤدي إلى زيادة درجات حرارة الوصلات.
  • نقطة الوميض والسلامة من الحرائق: يجب ألا يكون السائل قابلاً للاشتعال في ظروف التشغيل العادية. نقطة الوميض > 150 درجة مئوية هو هامش الأمان القياسي، وهو أعلى بكثير من درجة حرارة تشغيل الخادم التي تتراوح بين ~50-60 درجة مئوية.
  • نقطة صب: ضروري للتشغيل البارد. يجب أن يبقى السائل سائلاً في درجات الحرارة المنخفضة، ويفضل <-40 درجة مئويةلضمان قدرة المضخات على تدوير السوائل فورًا بعد انقطاع التيار الكهربائي عن المنشأة في الشتاء.

المخاطر الخفية: التوافق المادي

لم يكن الفشل الأكثر شيوعًا في عمليات النشر المبكر للغمر حراريًا، بل كيميائيًا. يمكن للزيوت الهيدروكربونية أن تعمل كمذيبات.

  • تقوية الكابلات: يمكن للزيوت أن تُسرّب المُليّنات من عازل كابلات PVC القياسي، مما يجعلها هشة وعرضة للتشقق. لذا، يُشترط استخدام كابلات جاهزة للغمر (مثل التيفلون/PTFE).
  • TIM Washout: قد تذوب المعاجين الحرارية القياسية أو تتسرب إلى الزيت، مما يُلوث السائل ويُضعف اتصال شريحة وحدة معالجة الرسومات بالحرارة. لذا، يلزم استخدام رقائق الإنديوم أو معاجين حرارية حرارية متخصصة عالية الجودة.
الممتلكات حمض الباوباب الاصطناعي زيت معدني مكرر زيت المحولات القياسي الهدف المثالي لـ H200
قوة عازلة > 50 كيلوفولت > 40 كيلوفولت > 30 كيلوفولت > 45 كيلوفولت
اللزوجة عند 40 درجة مئوية 6 – 8 سنت 10 – 15 سنت > 20 cSt (سميك جدًا) < 10 سنتي ست
نقطة مضيئة > 160 درجة مئوية > 140 درجة مئوية ~ 135 درجة مئوية > 150 درجة مئوية
التكلفة النسبية $$ $ $ التوازن بين الأداء والتكلفة

هندسة النظام: الخزانات ووحدات التوزيع الموزعة والمشعبات

إن نشر التبريد بالغمر ليس ببساطة ملء حوض بالزيت. فهو يتطلب بنية هيدروليكية متطورة ذات حلقة مغلقة مصممة لنقل كميات هائلة من الطاقة الحرارية بدقة. يتكون نظام التبريد بالغمر الكامل لمجموعات NVIDIA H200 من ثلاثة أنظمة فرعية بالغة الأهمية: خزان الغمر (السفينة الأساسية)، وحدة توزيع سائل التبريد (CDU) (محرك الإدارة الحرارية)، و نظام رفض الحرارة (المبردات الجافة أو المبردات). يجب تصميم كل مكون للتعامل مع ديناميكيات التدفق المحددة ومتطلبات توافق المواد للسوائل العازلة.

يعتمد نظام التبريد الغمري الكامل لمجموعات NVIDIA H200 على ثلاثة أنظمة فرعية متكاملة تعمل بتناغم. أولًا، خزان الغمر يحتوي على أجهزة الخادم، ويعمل كوعاء أساسي لالتقاط الحرارة. ثانيًا، وحدة توزيع سائل التبريد (CDU) يعمل بمثابة قلب النظام، حيث يتحكم في تدفق السوائل والترشيح وتنظيم درجة الحرارة عبر مبادل حراري من سائل إلى سائل. وأخيرًا، يوجد نظام خارجي مبرد جاف أو مبرد يقوم بطرد الحرارة الملتقطة إلى الغلاف الجوي، مما يكمل الحلقة الحرارية.

خزان الغمر: أكثر من مجرد حاوية

الخزان هو الواجهة بين أجهزة تكنولوجيا المعلومات والسائل. بالنسبة لرفوف H200 عالية الكثافة، يجب أن يُعالج تصميم الخزان العديد من التحديات الميكانيكية:

  • بناء المواد: يتم تصنيع الخزانات عادة من الفولاذ المقاوم للصدأ (304 أو 316) لضمان عدم وجود تفاعل مع السائل العازل وتوفير الصلابة الهيكلية للحمل السائل الثقيل (غالبًا > 1,000 كجم (من الزيت لكل خزان).
  • إدارة الكابلات والفتيل: يمكن أن ينتقل الزيت عبر الكابلات عبر الخاصية الشعرية ("الفتيل"). يجب أن تحتوي الخزانات على صواني كابلات وأختام خاصة لمنع الزيت من التساقط على الأرض أو الوصول إلى المناطق غير المغمورة.
  • توصيل الطاقة للباص: تقديم 100 كيلو واط يتطلب نقل الطاقة إلى الخزان استخدام قضبان توصيل صلبة بدلاً من الكابلات القياسية. يجب أن تكون هذه القضبان متوافقة مع السائل العازل ومصممة لتقليل انخفاض الجهد.

الحزب الديمقراطي المسيحي: قلب النظام

وحدة توزيع سائل التبريد (CDU) تُنشئ حلقة ثانوية، تعزل السائل العازل المُكلف في الخزان عن حلقة مياه المنشأة. وهي مسؤولة عن التحكم في معدل التدفق، والترشيح، واستقرار درجة الحرارة.

  • المبادلات الحرارية: هذا هو المكون الأساسي. كفاءة عالية المبادلات الحرارية ذات الصفائح الملحومة (BPHE) تُستخدم لنقل الحرارة من الزيت إلى مياه المنشأة. تتخصص شركة Walmate Thermal في تصنيع هذه المكونات الأساسية، مع تحسين هندسة الصفائح للتعامل مع اللزوجة العالية للزيت مقارنةً بالماء.
  • استراتيجية التكرار: الموثوقية غير قابلة للتفاوض. عادةً ما تستخدم وحدات CDU لمجموعات H200 تكوين مضخة N+1إذا تعطلت إحدى المضخات، فإن المضخة الاحتياطية تتولى المهمة على الفور لمنع الانفلات الحراري، والذي يمكن أن يحدث في <30 ثانية عند كثافات الطاقة هذه.
  • الترشيح: يجب على وحدة CDU ترشيح الزيت باستمرار لإزالة الجسيمات (الحطام، مواد اللحام) التي قد تسد نقاط التلامس. تصنيف الترشيح < 10 ميكرون هو المعيار لحماية مكونات وحدة معالجة الرسومات الحساسة.

المجمعات وتوزيع التدفق

لا يكفي مجرد ضخ الزيت إلى الخزان. يجب توجيه التدفق بدقة إلى المكونات الساخنة. ويتحقق ذلك من خلال مشعبات مصممة خصيصًا.

  • متطلبات سرعة التدفق: لتبريد وحدة معالجة الرسوميات بقوة 700 وات بشكل فعال باستخدام زيت أحادي الطور، يجب استخدام معدل تدفق موضعي يبلغ حوالي 10-15 لترًا في الدقيقة (LPM) غالبًا ما تكون هناك حاجة لكل عقدة.
  • التوحيد: يجب أن يضمن تصميم مشعب التبريد انخفاضًا متساويًا في الضغط عبر جميع فتحات الخادم. يؤدي سوء تصميم مشعب التبريد إلى "تجويع" الخوادم في الطرف البعيد من الخزان، مما يؤدي إلى ارتفاع درجة حرارتها بينما تبقى الخوادم الأخرى باردة.
  • خبرة وول مايت: نقوم بتصميم وتصنيع مشعبات توزيع السوائل المصنوعة من الفولاذ المقاوم للصدأ حسب الطلب باستخدام محاكاة ديناميكا الموائع الحسابية لضمان ملفات تعريف السرعة الموحدة عبر حجم الخزان بالكامل.
مكون الوظيفة الرئيسية المواصفات الحرجة (البيانات)
خزان الغمر معدات تكنولوجيا المعلومات والسوائل في المنازل السعه: 42U – 52U؛ قوة: 100 كيلو واط+
وحدة المبادل الحراري (CDU) ينقل الحرارة إلى مياه المنشأة درجة حرارة الاقتراب: شنومكس ° C - شنومكس ° C؛ يكتب: صفيحة ملحومة
مضخات الدورة الدموية يحرك السائل العازل معدل المد و الجزر: > 300 لتر في الدقيقة (لكل خزان 100 كيلو وات)؛ التكرار: N + 1
نظام الترشيح يزيل الجسيمات تصنيف: 5 – 10 ميكرونقابلة للاستبدال أثناء التشغيل
برودة جافة يرفض الحرارة إلى الغلاف الجوي درجة حرارة المياه العائدة: شنومكس ° C - شنومكس ° C (يسمح بالتبريد المجاني)

عائد الاستثمار في الانغماس: PUE والكثافة والتكلفة الإجمالية للملكية

يتطلب الانتقال إلى التبريد بالغمر نفقات رأسمالية أولية أعلى للخزانات والسوائل، إلا أن عائد الاستثمار سريع وكبير. وترتكز الجدوى المالية للغمر على ثلاثة ركائز أساسية: تخفيضات جذرية في استهلاك الطاقة، وزيادة هائلة في كثافة الحوسبة (توفير المساحة)، وإطالة عمر الأجهزة. بالنسبة لمجموعة NVIDIA H200 عالية الكثافة، غالبًا ما يكون التبريد بالغمر هو السبيل الوحيد لتحقيق تكلفة إجمالية مستدامة للملكية.

يُخفّض التبريد بالغمر تكاليف التشغيل بشكل كبير من خلال معالجة الأسباب الجذرية لانخفاض كفاءة مركز البيانات. فمن خلال التخلص من مراوح الخوادم ووحدات CRAC المستهلكة للطاقة، يُخفّض إجمالي استهلاك الطاقة بمقدار 30-50٪، مما يتيح تصنيفات فعالية استخدام الطاقة (PUE) منخفضة تصل إلى 1.03 مقارنةً بـ 1.5+ نموذجي للمرافق المبردة بالهواء. بالإضافة إلى ذلك، يسمح بزيادة كثافة الأجهزة بمقدار 2-3x، مما يوفر مساحة الأرضية باهظة الثمن وتكاليف البناء.

تفصيل توفير الطاقة

يأتي توفير الطاقة من إزالة حمولتين طفيليتين هائلتين:

  • إزالة مشجعي الخادم: في خادم H200 المبرد بالهواء، يمكن للمراوح أن تستهلك 15-20٪ من إجمالي طاقة تكنولوجيا المعلومات لدفع الهواء عبر مشتتات حرارية كثيفة. في حالة الغمر، تُزال المراوح تمامًا. هذا يُقلل حمل تكنولوجيا المعلومات على الفور بنسبة تصل إلى 20% لنفس ناتج الحوسبة.
  • تبريد بدون ضاغط: يتطلب تبريد الهواء من المُبرِّدات إنتاج هواء بارد (غالبًا ١٥-٢٠ درجة مئوية). يعمل زيت الغمر عند درجات حرارة أعلى (٤٠-٥٠ درجة مئوية)، مما يسمح تبريد مجاني استخدام مبردات جافة خارجية فقط في أي مناخ تقريبًا، مما يلغي الحاجة إلى التبريد الميكانيكي الذي يستهلك الكثير من الطاقة (الضواغط).

عمر الأجهزة وموثوقيتها

الغمر لا يُبرّد الأجهزة فحسب، بل يحميها أيضًا. هذا يُطيل متوسط ​​الوقت بين الأعطال (MTBF):

  • الاستقرار الحراري: تمنع الكتلة الحرارية العالية للزيت ارتفاع درجات الحرارة السريع (الدورة الحرارية) التي تسبب إجهاد مفصل اللحام.
  • حماية الملوثات: تتمتع المكونات المغمورة بمقاومة للغبار والرطوبة والكبريت والأكسدة، وهي عوامل قاتلة شائعة للإلكترونيات المبردة بالهواء.
  • إزالة الاهتزاز: بدون مراوح عالية السرعة، يتم التخلص من الاهتزاز الصوتي، مما يحمي مجموعات محركات الأقراص الصلبة وموصلاتها.
متري تبريد الهواء القديم تبريد زيت الغمر المدخرات/المكاسب
PUE (فعالية استخدام الطاقة) ٢٠٢٤/٢٠٢٣ ٢٠٢٤/٢٠٢٣ ~30% انخفاض إجمالي الطاقة
كثافة طاقة الرف (كيلوواط) 15،30 - XNUMX،XNUMX كيلوواط 100 كيلو واط – 200 كيلو واط+ كثافة 3x – 6x
قوة مروحة الخادم 15% – 20% من حمل تكنولوجيا المعلومات 0% (تمت الإزالة) مكاسب الكفاءة الفورية
معدل الفشل (MTBF) خط الأساس ممتد (درجة حرارة مستقرة) تكلفة صيانة أقل
المساحة الأرضية المطلوبة مرتفع (الممرات الساخنة/الباردة) منخفض (خزانات مضغوطة) توفير حوالي 60% من المساحة

تحديات التصميم والتنفيذ (والحلول)

يتطلب تطبيق التبريد بالغمر لمجموعات H200 التغلب على عقبات هندسية محددة تتجاوز مجرد الديناميكا الحرارية. ويطرح هذا التحول تحديات فيزيائية فريدة: توافق المواد القضايا التي يمكن أن تؤدي فيها الهيدروكربونات إلى تجريد الملدنات من الكابلات؛ فتيل الكابل، حيث ينتقل الزيت إلى أعلى عزل الأسلاك عن طريق الخاصية الشعرية إلى مناطق غير مغمورة؛ و للخدمة تتطلب هذه القيود بروتوكولات جديدة للتعامل مع المعدات الزيتية. ويتطلب التخفيف الناجح من هذه المخاطر اختيارًا دقيقًا للمواد، مثل استخدام كابلات PTFE ورقائق الإنديوم TIMs، إلى جانب تصميم متين للمنشأة.

التوافق المادي: القاتل الصامت

مكونات الخوادم القياسية مصممة للهواء، وليس للزيت. التعرض طويل الأمد للسوائل الهيدروكربونية قد يُسبب تدهورًا كيميائيًا في مواد معينة، مما يؤدي إلى تعطل النظام.

  • عزل الكابلات: Standard بولي كلوريد الفينيل (البولي فينيل كلورايد) تحتوي الكابلات على مُليّنات قد تتسرب إلى الزيت مع مرور الوقت، مما يجعلها هشة وعرضة للتشقق، بالإضافة إلى تلويثها للسائل العازل. حل: يجب استبدال جميع الكابلات المغمورة PTFE (تفلون) or FEP العزل، وهو خامد كيميائيا في الزيت.
  • الحشيات والأختام: يمكن أن تتورم أو تذوب الأختام المطاطية الشائعة مثل EPDM. حل: استعمل فيتون (جبهة مالوكو) or نتريل (بونا- إن) الحشيات، التي أثبتت استقرارها على المدى الطويل في البيئات الهيدروكربونية.
  • الوسم: ستؤدي الملصقات الورقية والمواد اللاصقة القياسية إلى انفصال المرشحات وسدها. حل: استخدم ملصقات النقش بالليزر أو البوليستر المقاوم للزيت.

ظاهرة الفتيل (الخاصية الشعرية)

يتمتع الزيت بتوتر سطحي منخفض للغاية، مما يسمح له بالتسلق على النحاس المجدول داخل الكابل، ومن المحتمل أن ينتقل على بعد أمتار من الخزان إلى وحدة توزيع الطاقة (PDU) أو مفتاح الشبكة.

  • خطر: تساقط الزيت على بلاط الأرضيات غير المغمورة أو دخوله إلى منافذ معدات الشبكة.
  • تخفيف: تثبيت غدد الكابلات المحكمة أو "كتل فتيل" عند مخرج الخزان. كبديل، يُمكن إضافة "حلقة خدمة" في مسار الكابل الذي ينخفض ​​أسفل نقطة الخروج، مما يُشكّل مصيدة جاذبية.

تعديل خوادم H200 للغمر

لا يمكنك ببساطة إسقاط اللوح الأساسي HGX H200 القياسي في الزيت؛ فهو يتطلب تعديلات محددة ليعمل بشكل صحيح:

  • إزالة المروحة والتزييف: يجب إزالة المراوح المادية للسماح بتدفق السوائل. مع ذلك، سيكتشف جهاز التحكم في إدارة اللوحة الأساسية (BMC) عطلًا في المروحة ويمنع تشغيلها. حل: تثبيت مُخادِعي المعجبين (مفاتيح صغيرة) ترسل إشارة مقياس سرعة الدوران "كل شيء على ما يرام" المزيفة إلى اللوحة الأم.
  • استبدال TIM: يمكن أن يتآكل الشحم الحراري القياسي أو يتحلل في الزيت بمرور الوقت. حل: استبدال الشحوم بـ رقائق الإنديوم أو صلبة مادة تغيير الطور (PCM) وسادات. توفر رقائق الإنديوم توصيلًا ممتازًا (86 واط / م · ك) وهي محصنة ضد الغسيل الكيميائي.
عامل الخطر التأثير المحتمل استراتيجية التخفيف (الحل الهندسي)
تلوث السوائل انخفاض القوة العازلة؛ انسداد الفلتر قم بإزالة جميع الملصقات الورقية؛ استخدم كابلات خالية من مادة PVC؛ مستمر ترشيح 10 ميكرومتر.
فتيل الكابل تسرب الزيت خارج الخزان (خطر على السلامة) استخدم سلكًا صلبًا حيثما أمكن؛ قم بالتثبيت كتل ختم الضغط عند مخرج الخزان.
تيم واش أوت ارتفاع درجة حرارة وحدة معالجة الرسومات بسبب تكوين الفجوة استبدال المعجون بـ رقائق الإنديوم أو وسادات الجرافيت (مستقرة عموديا).
فشل الختم فقدان كميات كبيرة من السوائل (قضية بيئية) استعمل حلقات O من الفيتون/FKMتصميم خزانات احتواء ذات جدار مزدوج.

الأسئلة الشائعة (FAQs)

1. هل يؤدي التبريد بالغمر إلى إبطال ضمان NVIDIA؟

سيؤدي تعديل اللوحة الأساسية HGX H200 القياسية المبردة بالهواء عن طريق إزالة المراوح ومبددات الحرارة إلى إلغاء الضمان القياسي. ومع ذلك، تعمل NVIDIA مع مُدمجي أنظمة معتمدين (مثل Supermicro وGigabyte وQCT) الذين يقدمون "جاهز للانغماس" وحدات SKU مضمونة بالكامل ضد الغمر في السوائل. احرص دائمًا على شراء أجهزة معتمدة ضد الغمر بدلاً من تحديث الوحدات القياسية لضمان تغطية الدعم.

2. ما هي المدة التي يجب فيها تغيير الزيت العازل؟

تتميز سوائل العزل الكهربائي الاصطناعية عالية الجودة المصنوعة من أكسيد الفوسفات ثنائي الأمين (PAO) باستقرارها المذهل. بخلاف جليكول الماء في حلقات DLC التي قد تحتاج إلى صيانة كل 3-5 سنوات، فإن زيت الغمر أحادي الطور عادةً ما يتجاوز عمره الافتراضي 10 إلى 15 سنةيتم ترشيح السائل بشكل مستمر لإزالة الجسيمات، ويوصى بإجراء تحليل معملي دوري للتحقق من الأكسدة أو دخول الرطوبة، ولكن نادرًا ما تكون هناك حاجة إلى الاستبدال الكامل أثناء دورة حياة الخادم.

3. هل يمكنني إعادة تجهيز خوادم H200 المبردة بالهواء الحالية للغمر؟

من الناحية الفنية، نعم، ولكنه يتطلب هندسة مكثفة. يجب إزالة جميع المراوح، واستبدال وحدة المعالجة المركزية (TIM) برقائق إنديوم أو وسادات جرافيت (لأن المعجون يزول)، وتركيب مُزيِّفات للمراوح، وربما تعديل BIOS. مع أن هذا ممكن في تجارب إثبات المفهوم، إلا أنه لا يُنصح به لمجموعات الإنتاج نظرًا لمخاطر الضمان وتكاليف العمالة. خوادم الغمر المُصممة خصيصًا هي الخيار الأمثل.

4. ماذا يحدث إذا تعطلت المضخة في خزان الغمر؟

يوفر الغمر حمايةً كبيرةً مقارنةً بالألواح الباردة. لأن الخزان يحتوي على أكثر من لتر 1,000 من السائل، توجد كتلة حرارية هائلة. إذا توقفت الدورة، ترتفع درجة حرارة السائل ببطء، مما يمنح المشغلين عدة دقائق للتفاعل قبل الوصول إلى حدود الوصلة T. علاوة على ذلك، تستخدم تصميمات الأنظمة القوية مضخات زائدة N+1لذا فإن فشل مضخة واحدة لا يؤدي إلى توقف الدورة أو التأثير على أداء التبريد.

5. هل الزيت المعدني قابل للاشتعال؟

السوائل العازلة قابلة للاشتعال، لكن يصعب اشتعالها. تتميز سوائل الغمر القياسية بنقطة وميض عالية، وعادةً ما تكون > 150 درجة مئوية (302 درجة فهرنهايت)نظراً لأن درجة حرارة تشغيل الزيت تتراوح بين 40 و50 درجة مئوية، فإن هامش الأمان كبير ويتجاوز 100 درجة مئوية. أنظمة إخماد الحرائق قياسية في مراكز البيانات، إلا أن خطر الاشتعال التلقائي منخفض للغاية مقارنةً بمخاطر الحرائق الكهربائية في الرفوف المبردة بالهواء.

6. ما مقدار المساحة الأرضية التي توفرها تقنية التبريد بالغمر؟

يُحسّن التبريد بالغمر كفاءة المساحة بشكل كبير. قد يدعم رف تبريد الهواء القياسي 30 كيلو واطيتطلب تباعدًا كبيرًا بين الممرات الساخنة والباردة. خزان الغمر قادر على التعامل مع 100 كيلوواط إلى 200 كيلو واط في مساحة مماثلة دون الحاجة إلى ممرات. وهذا يؤدي عادةً إلى تخفيض من 60% إلى 75% في المساحة البيضاء المطلوبة لنفس مقدار قوة الحوسبة.

7. هل يمكن لشركة Walmate تصميم خزانات غمر أو وحدات CDU مخصصة؟

نعم. شركة Walmate Thermal متخصصة في تصنيع المكونات الحرارية الأساسية في أنظمة الغمر. نصمم ونصنع مكونات عالية الكفاءة مبادلات حرارية ذات صفائح ملحومة لحزب الاتحاد الديمقراطي المسيحي و مشعبات سوائل من الفولاذ المقاوم للصدأ مخصصة لضمان توزيع موحد للتدفق داخل الخزانات. نتعاون مع مُدمجي الأنظمة لتوفير الأجهزة الحرارية المُصممة خصيصًا واللازمة لنشر أنظمة H200 عالية الكثافة.

خاتمة

يتطلب نظام NVIDIA H200 نقلة نوعية في مفهوم التبريد الحراري. فمع تجاوز كثافة الرفوف 50 كيلوواط، أصبحت فيزياء التبريد الهوائي عبئًا، مما يحد من الأداء ويرفع تكاليف التشغيل. ولا يُعد التبريد بالزيت الغاطس مجرد بديل، بل هو المسار الهندسي المُثبت لإطلاق العنان للإمكانات الكاملة للبنية التحتية للذكاء الاصطناعي. فمن خلال التخلص من المقاومة الحرارية وأحمال المراوح الطفيلية، يُمكّن هذا النظام من تحقيق أعلى أداء ممكن مع خفض استهلاك الطاقة.

ويتطلب نشر هذه التكنولوجيا بنجاح أكثر من مجرد خزان؛ إذ يتطلب بنية هيدروليكية قوية ومتكاملة قادرة على إدارة تدفقات الحرارة الهائلة بموثوقية مطلقة.

تعاون مع خبراء التبريد عالي الكثافة.
تتخصص شركة Walmate Thermal في تصنيع الأجهزة الأساسية لتشغيل أنظمة الغمر. بدءًا من الكفاءة العالية مبادلات حرارية ذات صفائح ملحومة من أجل وحدات الحزب الديمقراطي المسيحي الخاصة بك مشعبات توزيع السوائل المصنوعة من الفولاذ المقاوم للصدأ حسب الطلب مُصممة خصيصًا لهندسة خزانك، نوفر لك الهيكل الحراري الأساسي لمراكز البيانات من الجيل التالي. نساعدك في تصميم نظام يتولى 100 كيلو واط+ رفوف بكل سهولة.

تواصل مع مهندسينا الحراريين اليوم للحصول على استشارة. لنبنِ مستقبلًا أكثر ذكاءً وسرعةً للذكاء الاصطناعي.

 

مدونة حديثة

ابحث في مدونة Walmate

يمكن لشركة Walmate Thermal الإجابة على أسئلتك الفنية:

على الرغم من امتلاكنا للعديد من المقالات النظرية والتقنية، إذا كانت لديكم أسئلة واستفسارات حول المشعات، أو ألواح التبريد السائل، أو المواد الجديدة في عملية التصميم الحراري، يمكنكم مراسلتنا عبر البريد الإلكتروني، وسيقوم مهندسونا بالرد عليكم.

يمكنك مراسلتنا عبر البريد الإلكتروني:

جدول المحتويات

اتصل بنا