Liquid Cooling และความท้าทายใหม่ของทีม Operation ในยุค AI Data Center
- Chakrapan Pawangkarat
- 5 hours ago
- 2 min read
จักรพันธ์ ภวังคะรัตน์
Head of Property Management, JLL Thailand
Advisory Committee, Air-Conditioning Engineering Association of Thailand
Member ASHRAE, Board of Governors - ASHRAE Thailand Chapter
28 February 2026

ถ้าให้ทีม Operation เล่าความเปลี่ยนแปลงของ Data Center ในช่วงสิบปีที่ผ่านมา เราจะไม่เริ่มจากคำว่า Chiller หรือ CRAC แต่จะเริ่มจากคำว่า “ความเครียดของระบบ” เพราะในอดีต การดูแล Data Center คือการรักษาเสถียรภาพของอุณหภูมิห้อง การบาลานซ์ลม และการป้องกัน Hotspot เป็นจุด ๆ ปัญหาเกิดแล้วแก้ วัดค่าแล้วปรับ ตั้ง Alarm แล้วคอยเฝ้า มันเป็นเกมของความเสถียรในระบบที่ค่อนข้างนิ่งและคาดเดาได้
AI ทำให้เกมนั้นเปลี่ยนไปโดยสิ้นเชิง
วันนี้สิ่งที่ทีม Operation ต้องเผชิญไม่ใช่แค่ความร้อนที่มากขึ้น แต่คือความร้อนที่ “ก้าวกระโดด” และ “ผันผวนรุนแรง” Rack หนึ่งตู้ที่เคยอยู่ระดับ 30–40 kW ขยับมา 70 kW จากนั้น 125 kW และกำลังมุ่งหน้าไปสู่ 600 kW และอาจแตะ 1 MW ในอนาคตอันใกล้ สำหรับคนออกแบบ นี่คือโจทย์เชิงวิศวกรรม สำหรับคนปฏิบัติการ นี่คือโจทย์ของความเสี่ยงแบบใหม่ทั้งหมด
ในโลกของ AI Cluster ถ้าอุณหภูมิแกว่งไม่กี่องศา มันไม่ได้แค่ทำให้ Alarm ดัง แต่มันอาจหมายถึง GPU หลายสิบตัวใน Rack เดียวทำงานผิดปกติ งาน Training หลายสัปดาห์ต้องเริ่มใหม่ และ SLA ที่ผูกกับมูลค่าทางธุรกิจระดับหลายล้านดอลลาร์ถูกกระทบ ทีม Operation จึงไม่ได้แค่ดูแลเครื่องจักร แต่กำลังดูแล “ความต่อเนื่องของเศรษฐกิจดิจิทัล” โดยตรง
จาก Room-Level Thinking สู่ Component-Level Thinking
ในยุค Air Cooling ทีม Operation คิดในระดับห้อง เราดูค่า Supply Air Temperature, Return Air Temperature, Differential Pressure ใต้ Raised Floor และความสม่ำเสมอของ Cold Aisle สิ่งที่ต้องทำคือจัดการลมให้ไหลไปในทิศทางที่ควรไหล ปิดช่องโหว่ ใส่ Blanking Panel และบาลานซ์ลมให้เหมาะสม
AI บังคับให้เราคิดใหม่ เพราะความร้อนไม่ได้กระจายออกสู่ห้องแบบเดิมอีกต่อไป มันกระจุกตัวที่ GPU, VRM, Memory และ Power Module การจัดการความร้อนจึงย้ายจากระดับห้องไปสู่ระดับชิ้นส่วน การใช้ Liquid Cooling โดยเฉพาะ Direct-to-Chip ทำให้ทีม Operation ต้องเข้าใจว่าใน Rack หนึ่งตู้มีวงจรของเหลวไหลผ่านจุดใดบ้าง ค่า Flow Rate เท่าไร ความดันต่าง (Differential Pressure) ควรอยู่ที่ระดับใด และ Delta-T ระหว่าง Inlet กับ Outlet บอกอะไรเกี่ยวกับสุขภาพของระบบ
นี่คือการเปลี่ยนจาก “Airflow Balancing” ไปสู่ “Hydraulic Management” ซึ่งเป็นโลกอีกใบหนึ่ง
Liquid Cooling ไม่ได้เพิ่มแค่ประสิทธิภาพ แต่มันเพิ่มความรับผิดชอบ
ในมุมของทีม Operation Liquid Cooling ให้ข้อดีมหาศาล ระบบเสถียรกว่า ตอบสนองเร็วกว่า ลดภาระ Fan และช่วยให้ PUE ดีขึ้น แต่สิ่งที่ตามมาคือความซับซ้อนของระบบเพิ่มขึ้นอย่างชัดเจน จากเดิมที่ต้องดูแล AHU, CRAC, Chiller และ Pump หลัก ตอนนี้เราต้องดูแล CDU, Secondary Loop, Flexible Hose, Quick Connector, Filter และระบบควบคุมแรงดันอย่างละเอียด
การรั่วซึมของน้ำใน Air-Cooled Data Center แทบไม่มีใครคิดถึง แต่ใน Liquid-Cooled Data Center การรั่วซึมคือเหตุการณ์ที่ต้องมีแผนรับมือชัดเจน ต้องมี Leak Detection ที่แม่นยำ ต้องมี SOP สำหรับ Isolation ต้องมีทีมที่รู้ว่าจะปิดวาล์วไหนก่อนโดยไม่ทำให้ Rack อื่นได้รับผลกระทบ
ทีม Operation จึงไม่ได้แค่เรียนรู้เทคโนโลยีใหม่ แต่ต้องพัฒนาวินัยใหม่
Response Time: ความเร็วที่สำคัญพอ ๆ กับความแม่นยำ
AI Workload โดยเฉพาะ Machine Learning Training มีลักษณะโหลดที่พุ่งขึ้นและลดลงอย่างรวดเร็ว ระบบลมมีความเฉื่อยทางความร้อนสูง การเปลี่ยนแปลงอุณหภูมิในห้องจึงใช้เวลา แต่ระบบของเหลวสามารถปรับ Flow และ Pressure ได้เร็วกว่า อย่างไรก็ตาม ความเร็วนี้จะมีประโยชน์ก็ต่อเมื่อ Control System ได้รับการ Tuning อย่างถูกต้อง
ทีม Operation ต้องเข้าใจพฤติกรรมของ PID Control ต้องอ่าน Trend Log และวิเคราะห์ Oscillation ของระบบ หากตั้งค่าไม่เหมาะสม ระบบอาจตอบสนองเร็วเกินไปจนเกิดความแกว่ง หรือช้าเกินไปจนไม่ทันต่อโหลดที่พุ่งขึ้น นี่คือโลกของ Data-Driven Operation ที่ทีมต้องอ่านข้อมูลและตัดสินใจจาก Insight ไม่ใช่สัญชาตญาณ
Predictive Operation แทน Reactive Operation
ในยุค Air Cooling การทำงานส่วนใหญ่เป็น Reactive เมื่อ Alarm ดัง เราจึงตรวจสอบและแก้ไข แต่ในโลกของ Liquid Cooling และ AI Cluster ความผิดพลาดหนึ่งครั้งมีต้นทุนสูงเกินกว่าจะรอให้เกิดเหตุ ทีม Operation ต้องย้ายตัวเองไปสู่ Predictive Operation
การเก็บข้อมูล Real-Time ของ Temperature, Flow, Pressure และ Vibration ของ Pump กลายเป็นเรื่องพื้นฐาน การสร้าง Digital Twin ของระบบ Cooling ช่วยให้จำลองสถานการณ์ล่วงหน้า เช่น หาก Rack ใหม่เพิ่มอีก 300 kW ระบบจะตอบสนองอย่างไร การบำรุงรักษา Pump ตัวใดควรทำก่อนเพื่อไม่ให้เกิด Bottleneck การวิเคราะห์ข้อมูลเหล่านี้กลายเป็นความสามารถหลักของทีม Operation ยุคใหม่
การบำรุงรักษาในโลกของของเหลว
Maintenance Strategy ต้องเปลี่ยนจาก Preventive แบบตายตัวไปสู่ Condition-Based Maintenance การตรวจสอบคุณภาพน้ำ การควบคุมค่า Conductivity การป้องกันการกัดกร่อน และการจัดการสิ่งปนเปื้อนกลายเป็นเรื่องสำคัญ ทีมต้องเข้าใจว่าการเปลี่ยน Filter ช้าเกินไปอาจเพิ่มความต้านทานในระบบและลด Flow ไปยัง Cold Plate ซึ่งกระทบโดยตรงต่อ GPU
Spare Part Strategy ก็ต้องเปลี่ยน CDU ไม่ใช่อุปกรณ์ที่หาอะไหล่ได้ง่ายเหมือนพัดลมทั่วไป การมี Vendor Partnership ที่แน่นแฟ้นและมี SLA ด้าน Service ชัดเจนจึงเป็นเรื่องจำเป็น
Waste Heat และความรับผิดชอบที่มากขึ้น
เมื่อ Data Center เชื่อมต่อกับระบบใช้ประโยชน์จากความร้อน เช่น District Heating ทีม Operation ต้องรับผิดชอบ Interface เพิ่มขึ้น ความผิดพลาดในระบบภายนอกอาจย้อนกลับมากระทบระบบภายใน จึงต้องมี Isolation Strategy และ Emergency Procedure ที่ชัดเจน
Data Center ไม่ได้เป็นเกาะโดดเดี่ยวอีกต่อไป แต่มันกลายเป็นส่วนหนึ่งของระบบพลังงานเมือง ซึ่งหมายถึงความรับผิดชอบที่มากขึ้น
คนคือหัวใจของระบบ
เทคโนโลยีเปลี่ยนเร็ว แต่คนต้องตามให้ทัน ทีม Operation ต้องได้รับการ Upskill จากความเข้าใจระบบลมไปสู่ความเข้าใจระบบไฮดรอลิก ต้องอ่านค่า Pressure Drop เป็น ต้องเข้าใจ Curve ของ Pump และต้องสามารถสื่อสารกับทีม IT เกี่ยวกับ Thermal Profile ของ Workload ได้
การมี Liquid Cooling โดยไม่มีทีมที่เข้าใจ Liquid Cooling คือความเสี่ยงที่ใหญ่ที่สุด
บทสรุปจากมุม Operation
สำหรับทีม Operation Liquid Cooling ไม่ใช่แค่เทคโนโลยีใหม่ แต่มันคือการเปลี่ยนวิธีคิดทั้งหมด จากการดูแลอุณหภูมิห้อง ไปสู่การบริหารพลังงานระดับชิ้นส่วน จากการแก้ปัญหาเมื่อเกิดเหตุ ไปสู่การทำนายและป้องกันก่อนเกิดเหตุ จากการควบคุมลม ไปสู่การบริหารแรงดันและอัตราการไหล
Air Cooling ทำหน้าที่ได้ดีในยุคหนึ่ง แต่ในโลกที่ Rack อาจแตะ 1 MW เกมเปลี่ยนแล้ว และสำหรับทีม Operation คำถามไม่ใช่ว่า Liquid Cooling ดีหรือไม่ดี แต่คือ “เราพร้อมจะบริหารความซับซ้อนของมันหรือยัง” เพราะในโลก AI ความเสถียรของระบบทำความเย็นไม่ใช่แค่เรื่องวิศวกรรม แต่มันคือความน่าเชื่อถือของทั้งองค์กร
Liquid Cooling จึงไม่ใช่เพียงโครงสร้างพื้นฐานของ AI Economy แต่มันคือบททดสอบความพร้อมของทีม Operation อย่างแท้จริง 💙


