ข่าว Meta โชว์คลัสเตอร์ใหม่สำหรับฝึก LLaMA 3 ชิป H100 24,576 ตัว ซื้อเพิ่มต่อเนื่องสิ้นปี 350,000 ตัว

  • ผู้เริ่มหัวข้อ ผู้เริ่มหัวข้อNews 
  • วันที่เริ่มต้น วันที่เริ่มต้น
กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see


News 

Moderator
สมาชิกทีมงาน
Moderator
Verify member
Meta รายงานถึงข้อมูลของคลัสเตอร์ใหม่ที่บริษัทใช้ฝึกปัญญาประดิษฐ์ โดยทำขึ้นมาเพื่อออกแบบและฝึก LLaMA 3 โดยเฉพาะ และเป็นพื้นที่ทดสอบสถาปัตยกรรมคลัสเตอร์ใหม่ที่จะขยายต่อไปในอนาคต โดยประกาศแผนว่าจะซื้อเพิ่มไปเรื่อยๆ จนสิ้นปีมีชิป H100 ประมาณ 350,000 ตัว พลังประมวลผลรวมเทียบเท่ากับชิป H100 จำนวน 600,000 ตัว

คลัสเตอร์มีสองชุดหลัก ต่างกันที่ระบบเน็ตเวิร์คที่ต้องรองรับการเข้าถึงแรมข้ามเครื่อง ชุดแรกใช้ remote direct memory access (RDMA) over converged Ethernet (RoCE) เน็ตเวิร์คของ Arista 7800 พร้อม Wedge400 อีกชุดใช้ NVIDIA Quantum2 InfiniBand ทั้งสองชุดมีแบนวิดท์เชื่อมต่อ 400Gbps เท่ากัน โดยตอนนี้พบว่าทั้งสองชุดใช้งานต่างๆ ได้ดี

ตัวเซิร์ฟเวอร์ใช้เครื่อง Grand Teton ที่ Meta ออกแบบเอง สำหรับงาน AI โดยเฉพาะ ระบบสตอเรจเป็นแบบ Flash แล้ว mount เข้าลินุกซ์ด้วยระบบสตอเรจ Tectonic ที่ Meta สร้างมาใช้เองเช่นกัน

ความยากของการสร้างคลัสเตอร์ขนาดใหญ่เช่นนี้คือระบบสื่อสารจะสร้างคอขวดได้อย่างรวดเร็ว ทีมงานต้องออปติไมซ์ทั้งซอฟต์แวร์และตัวเน็ตเวิร์คเองเพื่อให้ประสิทธิภาพกลับไปใกล้เคียง 100% ที่เคยทำได้ในคลัสเตอร์ขนาดเล็ก

ที่มา - Meta

No Description


Topics:
Meta
Artificial Intelligence

อ่านต่อ...
 

ไฟล์แนบ

  • eccdf02419dceee380556c7c52627237.png
    eccdf02419dceee380556c7c52627237.png
    1 MB · จำนวนการดู: 20

กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see
กลับ
ยอดนิยม ด้านล่าง