ข่าว ทีมวิจัย Hugging Face เปิดโครงการ Open-R1 เตรียมทำซ้ำ DeepSeek-R1 เต็มรูปแบบ

News · 2025-01-28T19:37:11+0700

ทีมวิจัยจาก Hugging Face ประกาศโครงการ Open-R1 พยายามฝึกโมเดลใหม่ที่เทียบเท่ากับ DeepSeek-R1 แต่มีชุดข้อมูลเปิดให้คนอื่นไปทำซ้ำได้

หลักการของ DeepSeek-R1 ในแกนกลางนั้นตรงไปตรงมา คือผู้ฝึกมีชุดข้อมูลการให้เหตุผลในการแก้ปัญหาไว้ล่วงหน้า จากนั้นพยายามฝึกโมเดล LLM ปกติสักตัว โดยให้รางวัลการให้เหตุผลแบบ reinforcement learning (RL) แบบเดียวกับการให้รางวัล AI เล่นเกมที่ให้รางวัลเมื่อเล่นชนะ

แม้ DeepSeek-R1 จะเปิดโค้ดสำหรับรันโมเดล แต่ก็ไม่ได้เปิดเผยชุดข้อมูลเอาไว้ รวมถึงไม่ได้เปิดโค้ดสำหรับการฝึกโมเดล การศึกษาโมเดลจึงทำได้เฉพาะในแง่การใช้งานเท่านั้น การสร้างชุดข้อมูลเปิดพร้อมกับโค้ดฝึกให้ทุกคนใช้งานจะเปิดให้มีการพัฒนาโมเดลแบบนี้กว้างขึ้นมาก

แนวทางการพัฒนา Open-R1 แบ่งออกเป็น 3 ขั้น ได้แก่

สร้างชุดข้อมูลการให้เหตุผล โดยใช้ข้อมูลจากเอาท์พุตของ DeepSeek-R1 เอง
สร้างโค้ดการฝึกแบบ RL ที่สามารถฝึกโมเดล LLM อื่นให้สามารถให้เหตุผลแบบเดียวกันได้
สาธิตการสร้างโมเดลแบบเดียวกับ DeepSeek-R1 เต็มรูปแบบ

หากทีมงานสามารถสร้างชุดข้อมูลและฝึกโมเดลสาธิตได้สำเร็จก็จะเปิดทางการพัฒนาโมเดลให้เหตุผลแบบอื่นๆ ต่อไป เช่น การให้เหตุผลทางการแพทย์ที่โมเดลสามารถคิดแนวทางวินิจฉัยต่างๆ เป็นขั้นตอนก่อนจะทำนายโรคหรือแนะนำการรักษา

ตอนนี้โครงการยังเป็นเพียงช่วงเริ่มต้นแต่ก็มีดาวบน GitHub ถึงหมื่นดาวแล้ว

ที่มา - HuggingFace

Topics:
Hugging Face
DeepSeek
LLM

Continue reading...

ข่าว ทีมวิจัย Hugging Face เปิดโครงการ Open-R1 เตรียมทำซ้ำ DeepSeek-R1 เต็มรูปแบบ

News

Moderator