กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see


ข่าว ไม่หวั่นแม้โดนเนิร์ฟ DeepSeek พัฒนา LLM ด้วยชิป H800 2048 ชุด แข่งราคากับโมเดลจากสหรัฐฯ

News 

Moderator
สมาชิกทีมงาน
Moderator
Verify member
DeepSeek v3 โมเดลปัญญาประดิษฐ์ LLM ที่เปิดให้ดาวน์โหลดไปใช้งานเองที่ใหญ่ที่สุดในตอนนี้ รวม 685B ออกรายงานเชิงเทคนิค เปิดเผยถึงสถาปัตยกรรมและกระบวนการฝึก

เซิร์ฟเวอร์ที่ใช่งานเป็นคลัสเตอร์ NVIDIA H800 รุ่นขายในจีนโดยเฉพาะ ซอฟต์แวร์เป็น HAI-LLM ของบริษัท High Flyer (ตัว DeekSeek ได้ทุนจาก High Flyer Capital Management) รายงานระบุว่า DeepSeek พยายามใช้ช่องทางการสื่อสารระหว่างชิปอย่างเต็มประสิทธิภาพ โดยชิป H800 ถูกบีบแบนวิดท์ระหว่างชิปเหลือ 300Gbps เทียบกับ H100 ที่ส่งข้อมูลได้ 600Gbps กระบวนการฝึกทั้งหดใช้เวลา 2.788 ล้านชั่วโมง

กระบวนการฝึกใช้ข้อมูลแบบ FP8 ข้อมูลที่ใช้ฝึกมีขนาดรวม 14.8 ล้านโทเค็น โดยทีมงานลดความซ้ำซ้อนข้อมูลก่อนใช้งานจริง รูปแบบโทเค็นที่รองรับมีขนาด 128K หลังจากนั้นฝึกแบบ supervised fine-tuning อีกครั้ง ด้วยตัวอย่าง 1.5 ล้านรูปแบบ

ตอนนี้ DeepSeek V3 ให้บริการในราคา 0.014 ดอลลาร์ต่อล้านโทเค็นสำหรับอินพุต และ 0.28 ดอลลาร์สำหรับเอาท์พุต เว็บ Artificial Analysis เทียบให้เห็นว่าเป็นโมเดลที่สุดคุ้ม เพราะราคาเกาะกลุ่มกับ Gemini 1.5 Flash แต่คุณภาพพอๆ กับ Gemini 1.5 Pro หากจะแข่งคุณภาพสูงกว่านี้ก็มีตัวเลือก OpenAI o1-mini หรือ o1-preview ที่ราคาแพงกว่ามาก

ที่มา - DeepSeek

No Description


Topics:
LLM
Artificial Intelligence

Continue reading...
 

กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see
กลับ
ยอดนิยม ด้านล่าง