ข่าว ทีมวิจัย Hugging Face เปิดโครงการ Open-R1 เตรียมทำซ้ำ DeepSeek-R1 เต็มรูปแบบ

กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see


News 

Moderator
สมาชิกทีมงาน
Moderator
Verify member
ทีมวิจัยจาก Hugging Face ประกาศโครงการ Open-R1 พยายามฝึกโมเดลใหม่ที่เทียบเท่ากับ DeepSeek-R1 แต่มีชุดข้อมูลเปิดให้คนอื่นไปทำซ้ำได้

หลักการของ DeepSeek-R1 ในแกนกลางนั้นตรงไปตรงมา คือผู้ฝึกมีชุดข้อมูลการให้เหตุผลในการแก้ปัญหาไว้ล่วงหน้า จากนั้นพยายามฝึกโมเดล LLM ปกติสักตัว โดยให้รางวัลการให้เหตุผลแบบ reinforcement learning (RL) แบบเดียวกับการให้รางวัล AI เล่นเกมที่ให้รางวัลเมื่อเล่นชนะ

แม้ DeepSeek-R1 จะเปิดโค้ดสำหรับรันโมเดล แต่ก็ไม่ได้เปิดเผยชุดข้อมูลเอาไว้ รวมถึงไม่ได้เปิดโค้ดสำหรับการฝึกโมเดล การศึกษาโมเดลจึงทำได้เฉพาะในแง่การใช้งานเท่านั้น การสร้างชุดข้อมูลเปิดพร้อมกับโค้ดฝึกให้ทุกคนใช้งานจะเปิดให้มีการพัฒนาโมเดลแบบนี้กว้างขึ้นมาก

แนวทางการพัฒนา Open-R1 แบ่งออกเป็น 3 ขั้น ได้แก่

  1. สร้างชุดข้อมูลการให้เหตุผล โดยใช้ข้อมูลจากเอาท์พุตของ DeepSeek-R1 เอง
  2. สร้างโค้ดการฝึกแบบ RL ที่สามารถฝึกโมเดล LLM อื่นให้สามารถให้เหตุผลแบบเดียวกันได้
  3. สาธิตการสร้างโมเดลแบบเดียวกับ DeepSeek-R1 เต็มรูปแบบ

หากทีมงานสามารถสร้างชุดข้อมูลและฝึกโมเดลสาธิตได้สำเร็จก็จะเปิดทางการพัฒนาโมเดลให้เหตุผลแบบอื่นๆ ต่อไป เช่น การให้เหตุผลทางการแพทย์ที่โมเดลสามารถคิดแนวทางวินิจฉัยต่างๆ เป็นขั้นตอนก่อนจะทำนายโรคหรือแนะนำการรักษา

ตอนนี้โครงการยังเป็นเพียงช่วงเริ่มต้นแต่ก็มีดาวบน GitHub ถึงหมื่นดาวแล้ว

ที่มา - HuggingFace

No Description


Topics:
Hugging Face
DeepSeek
LLM

Continue reading...
 

กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see
กลับ
ยอดนิยม ด้านล่าง