ทีมวิจัยจาก Hugging Face ประกาศโครงการ Open-R1 พยายามฝึกโมเดลใหม่ที่เทียบเท่ากับ DeepSeek-R1 แต่มีชุดข้อมูลเปิดให้คนอื่นไปทำซ้ำได้
หลักการของ DeepSeek-R1 ในแกนกลางนั้นตรงไปตรงมา คือผู้ฝึกมีชุดข้อมูลการให้เหตุผลในการแก้ปัญหาไว้ล่วงหน้า จากนั้นพยายามฝึกโมเดล LLM ปกติสักตัว โดยให้รางวัลการให้เหตุผลแบบ reinforcement learning (RL) แบบเดียวกับการให้รางวัล AI เล่นเกมที่ให้รางวัลเมื่อเล่นชนะ
แม้ DeepSeek-R1 จะเปิดโค้ดสำหรับรันโมเดล แต่ก็ไม่ได้เปิดเผยชุดข้อมูลเอาไว้ รวมถึงไม่ได้เปิดโค้ดสำหรับการฝึกโมเดล การศึกษาโมเดลจึงทำได้เฉพาะในแง่การใช้งานเท่านั้น การสร้างชุดข้อมูลเปิดพร้อมกับโค้ดฝึกให้ทุกคนใช้งานจะเปิดให้มีการพัฒนาโมเดลแบบนี้กว้างขึ้นมาก
แนวทางการพัฒนา Open-R1 แบ่งออกเป็น 3 ขั้น ได้แก่
หากทีมงานสามารถสร้างชุดข้อมูลและฝึกโมเดลสาธิตได้สำเร็จก็จะเปิดทางการพัฒนาโมเดลให้เหตุผลแบบอื่นๆ ต่อไป เช่น การให้เหตุผลทางการแพทย์ที่โมเดลสามารถคิดแนวทางวินิจฉัยต่างๆ เป็นขั้นตอนก่อนจะทำนายโรคหรือแนะนำการรักษา
ตอนนี้โครงการยังเป็นเพียงช่วงเริ่มต้นแต่ก็มีดาวบน GitHub ถึงหมื่นดาวแล้ว
ที่มา - HuggingFace
Topics:
Hugging Face
DeepSeek
LLM
Continue reading...
หลักการของ DeepSeek-R1 ในแกนกลางนั้นตรงไปตรงมา คือผู้ฝึกมีชุดข้อมูลการให้เหตุผลในการแก้ปัญหาไว้ล่วงหน้า จากนั้นพยายามฝึกโมเดล LLM ปกติสักตัว โดยให้รางวัลการให้เหตุผลแบบ reinforcement learning (RL) แบบเดียวกับการให้รางวัล AI เล่นเกมที่ให้รางวัลเมื่อเล่นชนะ
แม้ DeepSeek-R1 จะเปิดโค้ดสำหรับรันโมเดล แต่ก็ไม่ได้เปิดเผยชุดข้อมูลเอาไว้ รวมถึงไม่ได้เปิดโค้ดสำหรับการฝึกโมเดล การศึกษาโมเดลจึงทำได้เฉพาะในแง่การใช้งานเท่านั้น การสร้างชุดข้อมูลเปิดพร้อมกับโค้ดฝึกให้ทุกคนใช้งานจะเปิดให้มีการพัฒนาโมเดลแบบนี้กว้างขึ้นมาก
แนวทางการพัฒนา Open-R1 แบ่งออกเป็น 3 ขั้น ได้แก่
- สร้างชุดข้อมูลการให้เหตุผล โดยใช้ข้อมูลจากเอาท์พุตของ DeepSeek-R1 เอง
- สร้างโค้ดการฝึกแบบ RL ที่สามารถฝึกโมเดล LLM อื่นให้สามารถให้เหตุผลแบบเดียวกันได้
- สาธิตการสร้างโมเดลแบบเดียวกับ DeepSeek-R1 เต็มรูปแบบ
หากทีมงานสามารถสร้างชุดข้อมูลและฝึกโมเดลสาธิตได้สำเร็จก็จะเปิดทางการพัฒนาโมเดลให้เหตุผลแบบอื่นๆ ต่อไป เช่น การให้เหตุผลทางการแพทย์ที่โมเดลสามารถคิดแนวทางวินิจฉัยต่างๆ เป็นขั้นตอนก่อนจะทำนายโรคหรือแนะนำการรักษา
ตอนนี้โครงการยังเป็นเพียงช่วงเริ่มต้นแต่ก็มีดาวบน GitHub ถึงหมื่นดาวแล้ว
ที่มา - HuggingFace
Topics:
Hugging Face
DeepSeek
LLM
Continue reading...