กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see


ข่าว Cerebras เปิดบริการคลาวด์ Llama 3.1 ความเร็วสูงเกิน 1,800 โทเค็นต่อวินาที ใส่แรมในชิป

  • ผู้เริ่มหัวข้อ ผู้เริ่มหัวข้อNews 
  • วันที่เริ่มต้น วันที่เริ่มต้น

News 

Moderator
สมาชิกทีมงาน
Moderator
Verify member
Cerebras บริษัทชิปปัญญาประดิษฐ์ เปิดบริการ Cerebras Inference รันโมเดล Llama 3.1 ที่ความเร็วสูง โดยสามารถรัน Llama 3.1 70B ที่ 450 token/s ขณะที่ Llama 3.1 8B ได้ถึง 1,800 token ต่อวินาที นับว่าเป็นบริการที่ความเร็วสูงที่สุดในโลกในตอนนี้ จากเดิมที่ Groq ทำได้ที่ 750 token/s

จุดขายของ Cerebras คือชิป Wafer Scale Engine ที่ใส่ SRAM ความเร็วสูง 44GB อยู่บนตัวชิป เชื่อมต่อกับหน่วยประมวลผลที่แบนวิดท์รวมสูงถึง 21 Petabytes/s เทียบกับชิป NVIDIA H100 ที่แม้แบนวิดท์จะสูงแล้วแต่ก็ได้เพียง 3.3 Terabytes/s แนวทางนี้มีความจำเป็นสำหรับการรันโมเดลให้มีความเร็วเนื่องจากข้อมูลแต่ละ token จะต้องผ่านโมเดลทั้งหมด เช่นโมเดล 70B การรันโมเดลให้ได้ 1000 token/s จะต้องการแบนวิดท์ถึง 140 Terabytes/s

ค่าใช้งานโมเดล 70B คิดค่าใช้งาน 0.6 ดอลลาร์ต่อล้านโทเค็น แต่มีข้อจำกัดคือใส่อินพุตได้เพียง 8,000 token เท่านั้น

ที่มา - Cerebras

No Description


No Description


Topics:
Artificial Intelligence
LLM
Cloud

Continue reading...
 

กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see
กลับ
ยอดนิยม ด้านล่าง