- เข้าร่วม
- 1 มิถุนายน 2011
- ข้อความ
- 9,811
- กระทู้ ผู้เขียน
- #1
Cerebras ผู้พัฒนาชิปเฉพาะทางในการรันโมเดลปัญญาประดิษฐ์ขนาดใหญ่ โชว์บริการ Cerebras Inference ที่ให้บริการโมเดล Llama 3.1 405B แบบความละเอียดเต็ม 16-bit แต่ได้ควมเร็วสูงมากถึง 969 token/s และเริ่มตอบโทเค็นแรกในเวลาเพียง 240ms ใกล้เคียงการตอบแบบทันที
ทาง Cerebras โชว์ความเร็วของชิปตัวเองเป็นระยะ เดือนที่แล้วก็เพิ่งโชว์การรัน Llama 3.2 70B ที่ระดับ 2,100 token/s ไป แต่ก็ไม่เปิดเผยว่าจะให้บริการจริงเมื่อใด แต่มารอบนี้ทาง Cerebras ระบุว่าจะเปิดให้บริการตลาวด์ไตรมาสแรกของปี 2025 และยังประกาศราคาอินพุต 6 ดอลลาร์ต่อล้านโทเค็น และเอาท์พุต 12 ดอลลาร์ต่อล้านโทเค็น (เทียบกับ Azure ที่อินพุต 5.33 ดอลาร์และเอาท์พุต 15 ดอลลาร์)
ตอนนี้เริ่มเปิดบริการแบบวงปิดแล้ว คนที่สนใจสามารถไปลงชื่อรอคิวได้
ที่มา - Cerebras
Topics:
Cerebras
LLM
Continue reading...
ทาง Cerebras โชว์ความเร็วของชิปตัวเองเป็นระยะ เดือนที่แล้วก็เพิ่งโชว์การรัน Llama 3.2 70B ที่ระดับ 2,100 token/s ไป แต่ก็ไม่เปิดเผยว่าจะให้บริการจริงเมื่อใด แต่มารอบนี้ทาง Cerebras ระบุว่าจะเปิดให้บริการตลาวด์ไตรมาสแรกของปี 2025 และยังประกาศราคาอินพุต 6 ดอลลาร์ต่อล้านโทเค็น และเอาท์พุต 12 ดอลลาร์ต่อล้านโทเค็น (เทียบกับ Azure ที่อินพุต 5.33 ดอลาร์และเอาท์พุต 15 ดอลลาร์)
ตอนนี้เริ่มเปิดบริการแบบวงปิดแล้ว คนที่สนใจสามารถไปลงชื่อรอคิวได้
ที่มา - Cerebras
Topics:
Cerebras
LLM
Continue reading...