กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see


ข่าว Gemini 2.0 ใช้ทำ Object Detection ได้ในตัว ได้พิกัดในภาพโดยตรง

  • ผู้เริ่มหัวข้อ ผู้เริ่มหัวข้อ News 
  • วันที่เริ่มต้น วันที่เริ่มต้น

News 

Moderator
สมาชิกทีมงาน
Moderator
Verify member
เข้าร่วม
1 มิถุนายน 2011
ข้อความ
10,283
  • กระทู้ ผู้เขียน
  • #1
วันนี้หลังจากกูเกิลเปิดตัว Gemini 2.0 Flash เอกสารสำหรับนักพัฒนาก็แสดงฟีเจอร์เพิ่มเติมที่ไม่ได้อยู่ในประกาศเปิดตัวโดยตรง ได้แก่

  • รองรับการทำ Google Search เต็มรูปแบบ: เมื่อเปิดให้เข้าถึง Google Search แล้ว Gemini 2.0 จะตัดสินใจเองว่าต้องการค้นหาหรือไม่ รวมถึงสามารถต้นหาเพิ่มเติมได้ด้วย (multi-turn search)
  • Multimodal Live API: เป็น API ใหม่แบบเดียวกับ Realtime API ของ OpenAI อาศัย WebSocket ในการรับข้อมูลจาก Gemini 2.0 ทำให้สามารถคุยต่อเนื่อง ใส่ภาพ, วิดีโอ, ข้อความได้ พูดแทรกได้ นอกจากนี้ยังสามารถค้น Google, เรียกฟังก์ชั่น, หรือรันโค้ด ไปด้วยระหว่างคุยกัน กูเกิลเตือนว่าหากใส่ข้อความพร้อมกับเสียง ความสามารถในการเรียกใช้เครื่องมือจะแย่ลง
  • เรียกฟังก์ชั่นเป็นชุด (compositional fuction calling): แทนที่จะเรียกใช้เครื่องมือทีละตัว Gemini 2.0 สามารถเขียนโค้ดเพื่อเรียกเครื่องมือที่ต้องการ แล้วรอผลจากแต่ละฟังก์ชั่น กูเกิลสาธิตความสามารถนี้ด้วยการสั่งเปิดไฟสิบวินาทีแล้วปิดไฟ Gemini สามารถเขียนโค้ดให้รอสิบวินาทีก่อนเรียกฟังก์ชั่นปิดไฟ
  • เรียกได้หลายฟังก์ชั่นพร้อมกัน (multi-tool): แทนที่จะต้องการค่าจากแต่ละฟังก์ชั่นทีละตัว Gemini 2.0 สามารถเรียกใช้ฟังก์ชั่นเป็นชุดได้ในการเรียกครั้งเดียว ทั้งฟังก์ชั่นจากผู้ใช้, การเขียนโค้ด, และการค้นกูเกิล
  • ค้นตำแหน่งในภาพ (bounding box detection): แทนที่จะถามว่าในภาพมีวัตถุอะไรบ้าง Gemini 2.0 สามารถคืนค่าพิกัดของวัตถุในภาพได้อย่างแม่นยำ แต่บังคับว่าต้องเป็นพิกัดแบบ [y_min, x_min, y_max, x_max] เท่านั้น และภาพรองรับไม่เกิน 1000x1000 พิกเซล แนวทางนี้ไม่น่าแปลกใจนักเพราะกูเกิลเปิดตัว Project Mariner สำหรับการควบคุมเบราว์เซอร์มาพร้อมกัน แต่ก่อนหน้านี้ Anthropic ก็เปิดตัวฟีเจอร์ Computer Use แบบเดียวกัน แต่ Claude กลับไม่มีฟีเจอร์คืนพิกัดโดยตรง

ฟีเจอร์การสร้างเสียงและภาพยังจำกัดวงปิดเท่านั้น ส่วนฟีเจอร์อื่นๆ สามารถใช้ได้เลยตั้งแต่วันนี้

ที่มา - Gemini API Docs

No Description


พรอมพ์ "Detect the 2d bounding boxes of texts (with “label” as text content)"

Topics:
Gemini
Development
LLM

Continue reading...
 

กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see
กลับ
ยอดนิยม