กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see


ข่าว ไมโครซอฟท์เล่าเบื้องหลังเครื่องที่ใช้เทรน ChatGPT ใช้จีพียู A100 เป็นหลักหมื่นตัว

  • ผู้เริ่มหัวข้อ ผู้เริ่มหัวข้อ News 
  • วันที่เริ่มต้น วันที่เริ่มต้น

News 

Moderator
สมาชิกทีมงาน
Moderator
Verify member
เข้าร่วม
1 มิถุนายน 2011
ข้อความ
9,784
  • กระทู้ ผู้เขียน
  • #1
ไมโครซอฟท์เล่าเบื้องหลังการสร้างซูเปอร์คอมพิวเตอร์ขนาดใหญ่บน Azure เพื่อให้บริการ OpenAI เทรนโมเดล AI ขนาดใหญ่จนกลายมาเป็น ChatGPT แบบที่เราเห็นกันทุกวันนี้

จุดเริ่มต้นของเรื่องนี้มาจากข้อตกลงระหว่างไมโครซอฟท์กับ OpenAI ในปี 2019 ตอนนั้นไมโครซอฟท์มีระบบเซิร์ฟเวอร์สำหรับเทรนโมเดล AI ของตัวเองอยู่แล้ว (เช่น โมเดลที่ใช้ใน Microsoft Translator หรือตัวตรวจสะกดใน Word) แต่ขีดความสามารถนั้นไม่พอกับที่โมเดลขนาดใหญ่มากๆ ของ OpenAI ต้องการใช้งาน ทำให้ไมโครซอฟท์ต้องหาวิธีออกแบบระบบใหม่

6a0d5abfa481f9551abb4e1e62435760.jpg


ระบบเบื้องหลังซูเปอร์คอมพิวเตอร์ตัวนี้ใช้จีพียู NVIDIA A100 จำนวน "หลายหมื่นตัว" (tens of thousands) ซึ่งไมโครซอฟท์ประเมินคร่าวๆ ว่าต้นทุนของโครงการอยู่ในหลัก "หลายร้อยล้านดอลลาร์" (several hundred million dollars) แต่มีเงินซื้อจีพียูอย่างเดียวก็ไม่พอ ไมโครซอฟท์ต้องหาวิธีต่อเชื่อมจีพียูจำนวนเยอะขนาดนี้ที่กระจายตัวอยู่ตามศูนย์ข้อมูล 60 เขตทั่วโลกเข้าด้วยกัน

ตัวแกนของเทคโนโลยีเชื่อมต่อความเร็วสูงคือ InfiniBand ของ NVIDIA (จากการซื้อ Mellanox ในปี 2019) แต่ NVIDIA เองก็ไม่เคยนำจีพียูจำนวนเยอะขนาดนี้มาต่อกัน ทำให้ไม่มีใครรู้ว่าข้อจำกัดของเทคโนโลยีเชื่อมต่อเป็นไปได้แค่ไหน

44abb5f7410029e14d22a05060b4f970.jpg


ไมโครซอฟท์ใช้วิธีแบ่งส่วนงาน (partition) แล้วกระจายไปยังคลัสเตอร์ของจีพียูต่างๆ เป็นชุดๆ โดยมี InfiniBand เป็นตัวเชื่อม แต่ก็ต้องพัฒนาซอฟต์แวร์สำหรับกระจายงานทั้งจีพียูและระบบเครือข่ายเพิ่มอีกมาก (ผ่านซอฟต์แวร์ ONNX Runtime ที่เปิดเป็นโอเพนซอร์ส) ซึ่งใช้เวลาหลายปีที่ผ่านมาทำเรื่องนี้ อีกวิธีที่ใช้คือค่อยๆ ขยายจำนวนจีพียูและเครือข่ายทีละน้อย เพื่อดูว่าระบบโดยรวมรองรับได้แค่ไหน รวมถึงมีเรื่องระบบระบายความร้อน ระบบไฟสำรอง ที่ต้องขยายตัวรองรับด้วย

เนื่องจากระบบคอมพิวเตอร์เหล่านี้เป็นของ Azure เป้าหมายจึงเป็นการออกแบบเพื่อเปิดให้คนนอกใช้งานด้วย แม้จุดเริ่มต้นเกิดจากการคัสตอมระบบตามความต้องการของลูกค้าเพียงรายเดียว (OpenAI) แต่วิธีการสร้างเครื่องของ Azure คือสร้างโดยมีโจทย์ให้คนทั่วไปใช้งาน (generalized) ซึ่งตอนนี้เครื่องถูกนำมาให้บริการ Azure OpenAI ที่บุคคลทั่วไปสามารถเช่าเทรนโมเดล

18d11aab95fa8bb8ea1111c951ea8443.jpg


ศูนย์ข้อมูลแห่งหนึ่งของไมโครซอฟท์ที่รัฐวอชิงตัน ที่ให้บริการ OpenAI Service

ตอนนี้ไมโครซอฟท์กำลังสร้างเครื่องซูเปอร์คอมพิวเตอร์ใหม่ที่ใช้จีพียู NVIDIA H100 รุ่นใหม่ ซึ่งจะใช้เทรนโมเดลตัวใหม่ๆ ที่ใหญ่กว่าเดิมขึ้นไปอีก และตอนนี้เริ่มเปิดให้คนนอกเช่าเครื่อง H100 ใช้งานแล้ว

ที่มา - Microsoft, Bloomberg

Topics:
Microsoft Azure
Cloud Computing
ChatGPT
OpenAI
NVIDIA Ampere
GPU
Artificial Intelligence

อ่านต่อ...
 

ไฟล์แนบ

  • 6a0d5abfa481f9551abb4e1e62435760.jpg
    6a0d5abfa481f9551abb4e1e62435760.jpg
    132.8 กิโลไบต์ · จำนวนการดู: 20
  • 44abb5f7410029e14d22a05060b4f970.jpg
    44abb5f7410029e14d22a05060b4f970.jpg
    197.4 กิโลไบต์ · จำนวนการดู: 22
  • 18d11aab95fa8bb8ea1111c951ea8443.jpg
    18d11aab95fa8bb8ea1111c951ea8443.jpg
    73.4 กิโลไบต์ · จำนวนการดู: 20

กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see
กลับ
ยอดนิยม