ข่าว Alibaba เปิดตัวโมเดล Qwen2-VL สามารถเข้าใจรูปภาพ และวิดีโอที่มีความยาวระดับ 20 นาทีได้

News · 30 ส.ค. 2024

Alibaba Cloud ปล่อยโมเดล LLM ตระกูล Qwen 2 รุ่นล่าสุด Qwen2-VL โดย VL ย่อมาจาก Vision Language ที่พัฒนาบนพื้นฐานของ Qwen2

Qwen2-VL มีจุดเด่นคือความสามารถในการทำความเข้าใจรูปภาพ ที่มีความละเอียดและอัตราส่วนภาพหลากหลาย ผลการทดสอบทำงานได้ดีกว่าโมเดลประเภทเดียวกัน ซึ่งสามารถนำไปประยุกต์ใช้ได้กับอุปกรณ์ที่ต้องใช้การทำความเข้าใจภาพที่เห็น เช่น สมาร์ทโฟน, หุุ่นยนต์ หรือระบบอัตโนมัติอื่นที่ต้องอาศัยภาพในการตัดสินใจ

ความสามารถของ Qwen2-VL ยังสามารถสรุปเนื้อหาวิดีโอได้ที่ความยาวถึง 20 นาที โดยสามารถตอบคำถามเนื้อหาจากวิดีโอ หรือสรุปบทสนทนาได้ด้วย ภาษาที่รองรับได้แก่ ภาษาเกือบทั้งหมดที่ใช้ในทวีปยุโรป, ภาษาญี่ปุ่น, ภาษาเกาหลี, ภาษาอาหรับ, ภาษาเวียดนาม และอื่น ๆ

Qwen2-VL มีสามขนาดโมเดล โดย Qwen2-Vl-2B และ Qwen2-VL-7B โอเพนซอร์สภายใต้ไลเซนส์ Apache 2.0 และโมเดลใหญ่ Qwen2-VL-72B เปิดให้ใช้งานผ่าน API ของ Alibaba Cloud ดูรายละเอียดเพิ่มเติมได้ที่ Hugging Face

ที่มา: Alibaba Cloud

Topics:
Alibaba Cloud
LLM

Continue reading...

ข่าว Alibaba เปิดตัวโมเดล Qwen2-VL สามารถเข้าใจรูปภาพ และวิดีโอที่มีความยาวระดับ 20 นาทีได้

News

Moderator