NVIDIA เผยผลเบนช์มาร์คแรกของจีพียู Blackwell B200 โดยเป็นเบนช์มาร์ค MLPerf Inference: Datacenter ที่นิยมใช้กันในวงการ AI ทดสอบกับโมเดล Llama 2 70B ผลคือได้ประสิทธิภาพต่อจีพียูสูงกว่าชิป H100 (Hopper) ประมาณ 4 เท่าตัว
ผลการทดสอบของ NVIDIA ใช้เครื่องซีพียู Xeon Silver 4410Y ร่วมกับชิป B200 แรม 180GB ได้คะแนนออกมาดังนี้
NVIDIA บอกว่าประสิทธิภาพที่เพิ่มขึ้น มาจากฟีเจอร์ Blackwell FP4 Transformer Engine ที่ต้องแปลงโมเดลเป็นข้อมูลประเภท FP4 ก่อน ช่วยให้ประสิทธิภาพในการรันโมเดลเร็วขึ้นอย่างก้าวกระโดด เพราะจีพียูมีเอนจินสำหรับประมวลผล FP4 ในตัว
NVIDIA ยังโชว์ผลการรัน MLPerf กับจีพียู H200 รุ่นท็อปสุดในปัจจุบันที่ใช้แรมความเร็วสูงแบบ HBM3e มีแบนด์วิดท์แรมเพิ่มขึ้น 1.4x เทียบกับ H100
การรันโมเดล Llama 2 70B โหมด Server โดยใช้จีพียู H200 จำนวน 8 ตัว ได้ผลลัพธ์ที่ 32,790 token/s หรือประมาณ 4,098 token/s ต่อจีพียูหนึ่งตัว
ที่มา - NVIDIA
หมายเหตุ: แผนภาพอธิบายโหมดการทำงานของ MLPerf, ภาพจาก NVIDIA
Topics:
NVIDIA
Blackwell
GPU
Benchmark
Artificial Intelligence
Continue reading...
ผลการทดสอบของ NVIDIA ใช้เครื่องซีพียู Xeon Silver 4410Y ร่วมกับชิป B200 แรม 180GB ได้คะแนนออกมาดังนี้
- โหมด Offline (ชุดทดสอบส่งข้อมูลตัวอย่างทั้งหมดให้เซิร์ฟเวอร์รวดเดียว) ได้ 11,264 token/s (เพิ่ม 3.7x เทียบกับ H100)
- โหมด Server (ชุดทดสอบทยอยส่งข้อมูลตัวอย่างให้เซิร์ฟเวอร์ เลียนแบบการใช้งานจริง) ได้ 10,756 (เพิ่ม 4x เทียบกับ H100)
NVIDIA บอกว่าประสิทธิภาพที่เพิ่มขึ้น มาจากฟีเจอร์ Blackwell FP4 Transformer Engine ที่ต้องแปลงโมเดลเป็นข้อมูลประเภท FP4 ก่อน ช่วยให้ประสิทธิภาพในการรันโมเดลเร็วขึ้นอย่างก้าวกระโดด เพราะจีพียูมีเอนจินสำหรับประมวลผล FP4 ในตัว
NVIDIA ยังโชว์ผลการรัน MLPerf กับจีพียู H200 รุ่นท็อปสุดในปัจจุบันที่ใช้แรมความเร็วสูงแบบ HBM3e มีแบนด์วิดท์แรมเพิ่มขึ้น 1.4x เทียบกับ H100
การรันโมเดล Llama 2 70B โหมด Server โดยใช้จีพียู H200 จำนวน 8 ตัว ได้ผลลัพธ์ที่ 32,790 token/s หรือประมาณ 4,098 token/s ต่อจีพียูหนึ่งตัว
ที่มา - NVIDIA
หมายเหตุ: แผนภาพอธิบายโหมดการทำงานของ MLPerf, ภาพจาก NVIDIA
Topics:
NVIDIA
Blackwell
GPU
Benchmark
Artificial Intelligence
Continue reading...