ข่าว Alibaba เผยแพร่ EMO โมเดล AI สร้างวิดีโอร้องเพลงที่ทำจากรูปภาพบุคคลเพียง 1 รูป

  • ผู้เริ่มหัวข้อ ผู้เริ่มหัวข้อNews 
  • วันที่เริ่มต้น วันที่เริ่มต้น
กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see


News 

Moderator
สมาชิกทีมงาน
Moderator
Verify member
หน่วยงานวิจัย Intelligent Computing ของ Alibaba เผยแพร่เทคโนโลยีโมเดล AI สร้างวิดีโอขึ้นจากรูปภาพและเสียง (image-audio-video) ซึ่งเรียกชื่อโมเดลนี้ว่า EMO

EMO ต้องการอินพุทเพียง รูปภาพพอร์ตเทรตบุคคล กับไฟล์เสียง ก็สามารถสร้างวิดีโอที่เป็นบุคคลนั้นพูดหรือร้องเพลงตามไฟล์เสียงได้ ความยาวสูงสุด 1 นาที 30 วินาที จุดเด่นของ EMO คือการแสดงออกจากสีหน้าของบุคคลก็เป็นไปตามเสียงที่ออกมาด้วย ไม่ใช่แค่การขยับปากเท่านั้น

ตัวอย่างที่นำเสนอ EMO สามารถสร้างวิดีโอให้รูปภาพร้องเพลงได้, ปรับได้ตามภาษาของเพลง, มีการขยับตามจังหวะเพลงที่รวดเร็ว ตัวอย่างหนึ่งที่นำเสนอดูเป็นการข้ามโซนสักหน่อย เพราะใช้ภาพนิ่งจากคลิปผู้หญิงญี่ปุ่นเดินบนถนนที่สร้างจาก Sora โมเดลสร้างวิดีโอของ OpenAI นั่นเอง

รายละเอียดของ EMO สามารถดูเพิ่มเติมได้ที่ GitHub และชมคลิปตัวอย่างได้ท้ายข่าว

ที่มา: Pandaily

No Description


Topics:
Alibaba
Artificial Intelligence

อ่านต่อ...
 

ไฟล์แนบ

  • 0193906f9b4dd4b3bf9900e358fa0619.png
    0193906f9b4dd4b3bf9900e358fa0619.png
    532.6 กิโลไบต์ · จำนวนการดู: 18

กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see
กลับ
ยอดนิยม ด้านล่าง