กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see


ข่าว PyTorch ทดสอบรัน LLM ด้วย OpenAI Triton แทน CUDA พบอสูงสุด 82% ของ CUDA

  • ผู้เริ่มหัวข้อ ผู้เริ่มหัวข้อNews 
  • วันที่เริ่มต้น วันที่เริ่มต้น

News 

Moderator
สมาชิกทีมงาน
Moderator
Verify member
ทีมวิศวกรจาก IBM และ Meta รายงานถึงการทดลองเปลี่ยนเคอร์เนลการรัน LLM ใน PyTorch จากเดิมที่ใช้ CUDA เป็นหลัก มาเป็นภาษา Triton ของ OpenAI โดยพบว่าประสิทธิภาพเริ่มใกล้เคียงกับ CUDA

OpenAI เปิดตัวโครงการ Triton มาตั้งแต่ปี 2021 โดยมุ่งจะพัฒนาภาษาที่ทำให้โปรแกรมเมอร์เขียนโปรแกรมโดยตรงบนชิปกราฟิกได้ง่ายขึ้น นอกจากการถอด CUDA แล้วยังต้องเลือกเอนจิน Flash Attention มาแทน cuDNN Flash Attention เพื่อรันโมเดล LLM พบว่า AMD Flash Attention ทำงานได้ครบถ้วนทุกโหมด

ประสิทธิภาพโดยรวมของการรัน LLM โดยถอด CUDA ออกทั้งหมดเช่นนี้ สามารถรันได้ที่ 76-78% ของ CUDA บนชิป A100 และได้ 62-82% บนชิป H100

CUDA เป็นจุดขายสำคัญของชิป NVIDIA ที่ทำให้นักพัฒนาแน่ใจว่าจะสามารถรันโมเดลปัญญาประดิษฐ์ต่างๆ ได้ประสิทธิภาพดี และเข้ากับโมเดลต่างๆ ได้ครบถ้วน แม้ชิปแบรนด์อื่นๆ จะชูความได้เปรียบราคาถูกกว่าก็ตาม

ที่มา - PyTorch

No Description


Topics:
PyTorch
CUDA
Artificial Intelligence

Continue reading...
 

กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see
กลับ
ยอดนิยม ด้านล่าง