กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see


ข่าว Alibaba เปิดตัวโมเดล Qwen2-VL สามารถเข้าใจรูปภาพ และวิดีโอที่มีความยาวระดับ 20 นาทีได้

  • ผู้เริ่มหัวข้อ ผู้เริ่มหัวข้อNews 
  • วันที่เริ่มต้น วันที่เริ่มต้น

News 

Moderator
สมาชิกทีมงาน
Moderator
Verify member
Alibaba Cloud ปล่อยโมเดล LLM ตระกูล Qwen 2 รุ่นล่าสุด Qwen2-VL โดย VL ย่อมาจาก Vision Language ที่พัฒนาบนพื้นฐานของ Qwen2

Qwen2-VL มีจุดเด่นคือความสามารถในการทำความเข้าใจรูปภาพ ที่มีความละเอียดและอัตราส่วนภาพหลากหลาย ผลการทดสอบทำงานได้ดีกว่าโมเดลประเภทเดียวกัน ซึ่งสามารถนำไปประยุกต์ใช้ได้กับอุปกรณ์ที่ต้องใช้การทำความเข้าใจภาพที่เห็น เช่น สมาร์ทโฟน, หุุ่นยนต์ หรือระบบอัตโนมัติอื่นที่ต้องอาศัยภาพในการตัดสินใจ

ความสามารถของ Qwen2-VL ยังสามารถสรุปเนื้อหาวิดีโอได้ที่ความยาวถึง 20 นาที โดยสามารถตอบคำถามเนื้อหาจากวิดีโอ หรือสรุปบทสนทนาได้ด้วย ภาษาที่รองรับได้แก่ ภาษาเกือบทั้งหมดที่ใช้ในทวีปยุโรป, ภาษาญี่ปุ่น, ภาษาเกาหลี, ภาษาอาหรับ, ภาษาเวียดนาม และอื่น ๆ

Qwen2-VL มีสามขนาดโมเดล โดย Qwen2-Vl-2B และ Qwen2-VL-7B โอเพนซอร์สภายใต้ไลเซนส์ Apache 2.0 และโมเดลใหญ่ Qwen2-VL-72B เปิดให้ใช้งานผ่าน API ของ Alibaba Cloud ดูรายละเอียดเพิ่มเติมได้ที่ Hugging Face

ที่มา: Alibaba Cloud

No Description


Topics:
Alibaba Cloud
LLM

Continue reading...
 

กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see
กลับ
ยอดนิยม ด้านล่าง