Alibaba เปิดตัว Qwen3-VL สุดยอดโมเดลประสิทธิภาพทัดเทียม Gemini
Qwen3-VL โมเดลภาพ–ภาษายุคใหม่จาก Alibaba รองรับภาพ เสียง วิดีโอ เอกสารยาวถึง 1 ล้านโทเคน แรงกว่าคู่แข่งอย่าง Gemini 2.5 Pro
Alibaba เปิดตัวโมเดล AI รุ่นใหม่ล่าสุดของบริษัทในชื่อ Qwen3-VL โมเดลภาพแลภาษาที่ทรงพลังที่สุดของตระกูล Qwen ด้วยคุณสมบัติพร้อมรองรับเนื้อหาภาพและเสียง บริบทขนาดใหญ่ ความสัมพันธ์จากภาพและเสียงในวีดีโอ ไปจนคุณสมบัติด้าน Agentic AI ช่วยให้โมเดลนี้มีประสิทธิภาพเหนือกว่า Gemini 2.5 Pro
ตัวโมเดลได้รับการเทรนด้วยเนื้อหาข้อความและตัวอักษรเป็นจำนวนมาก โดดเด่นในด้านการทำความเข้าใจเนื้อหารูปภาพปจนวีดีโอ รองรับบริบทโทเคนสูงสุด 1 ล้านโทเคน ที่สามารถรองรับเนื้อหาเอกสารหลายร้อยหน้าได้ในครั้งเดียว และสามารถใช้งานทั้งบนคอมพิวเตอร์และสมาร์ทโฟนได้อย่างราบรื่น
ในด้านการคำนวณและการใช้เหตุผล Qwen3-VL รองรับการใช้เหตุผลและการคิดขั้นสูง เมื่อเผชิญคำถามที่มีเนื้อหาซับซ้อน โมเดลจะทำการสังเกตประเด็นในแต่ละหัวข้อพร้อมแบ่งออกเป็นรายละเอียดปลีกย่อย ทำการแก้ปัญหาเป็นขั้นตอน วิเคราะห์เหตุผล และให้คำตอบที่อ้างอิงตรรกะและเนื้อหาได้ดีเยี่ยม
นั่นเป็นเหตุผลให้คะแนนการทดสอบในส่วนการให้เหตุผลเทียบเท่ากับโมเดลเรือธงของ Google อย่าง Gemini 2.5 Pro รองรับการใช้งานร่วมกับ 32 ภาษาทั่วโลก พร้อมสามารถทำความเข้าใจฟอนต์หรืออักขระเฉพาะ ภาษาโบราณ หรือแม้แต่ศัพท์เทคนิคเฉพาะทางได้อย่างมีประสิทธิภาพ
ในส่วนรูปภาพนับเป็นด้านที่ได้รับการพัฒนามาอย่างดีเยี่ยม สามารถอ่านเนื้อหาในภาพได้ในสภาพแวดล้อมจริง เช่น แสงน้อย ภาพเบลอ และภาพเอียง พร้อมสามารถทำความเข้าใจรายละเอียดในภาพทั้งตัวอักษร จุดตัด หรือองค์ประกอบซับซ้อน ทั้งในรูปแบบ 2 มิติและ 3 มิติ อีกทั้งยังสามารถทำความเข้าใจเนื้อหาวีดีโอยาว 2 ชั่วโมงได้อย่างแม่นยำ
ปัจจุบัน Qwen3-VL รองรับการใช้งานทั้งบนแพลตฟอร์ม Qwen chat และช่องทางโอเพนซอร์สยอดนิยมทั่วไป


