posttoday

Alibaba เปิดตัว Qwen3-VL สุดยอดโมเดลประสิทธิภาพทัดเทียม Gemini

25 กันยายน 2568

Qwen3-VL โมเดลภาพ–ภาษายุคใหม่จาก Alibaba รองรับภาพ เสียง วิดีโอ เอกสารยาวถึง 1 ล้านโทเคน แรงกว่าคู่แข่งอย่าง Gemini 2.5 Pro

Alibaba เปิดตัวโมเดล AI รุ่นใหม่ล่าสุดของบริษัทในชื่อ Qwen3-VL โมเดลภาพแลภาษาที่ทรงพลังที่สุดของตระกูล Qwen ด้วยคุณสมบัติพร้อมรองรับเนื้อหาภาพและเสียง บริบทขนาดใหญ่ ความสัมพันธ์จากภาพและเสียงในวีดีโอ ไปจนคุณสมบัติด้าน Agentic AI ช่วยให้โมเดลนี้มีประสิทธิภาพเหนือกว่า Gemini 2.5 Pro

 

ตัวโมเดลได้รับการเทรนด้วยเนื้อหาข้อความและตัวอักษรเป็นจำนวนมาก โดดเด่นในด้านการทำความเข้าใจเนื้อหารูปภาพปจนวีดีโอ รองรับบริบทโทเคนสูงสุด 1 ล้านโทเคน ที่สามารถรองรับเนื้อหาเอกสารหลายร้อยหน้าได้ในครั้งเดียว และสามารถใช้งานทั้งบนคอมพิวเตอร์และสมาร์ทโฟนได้อย่างราบรื่น

 

ในด้านการคำนวณและการใช้เหตุผล Qwen3-VL รองรับการใช้เหตุผลและการคิดขั้นสูง เมื่อเผชิญคำถามที่มีเนื้อหาซับซ้อน โมเดลจะทำการสังเกตประเด็นในแต่ละหัวข้อพร้อมแบ่งออกเป็นรายละเอียดปลีกย่อย ทำการแก้ปัญหาเป็นขั้นตอน วิเคราะห์เหตุผล และให้คำตอบที่อ้างอิงตรรกะและเนื้อหาได้ดีเยี่ยม

 

นั่นเป็นเหตุผลให้คะแนนการทดสอบในส่วนการให้เหตุผลเทียบเท่ากับโมเดลเรือธงของ Google อย่าง Gemini 2.5 Pro รองรับการใช้งานร่วมกับ 32 ภาษาทั่วโลก พร้อมสามารถทำความเข้าใจฟอนต์หรืออักขระเฉพาะ ภาษาโบราณ หรือแม้แต่ศัพท์เทคนิคเฉพาะทางได้อย่างมีประสิทธิภาพ

 

ในส่วนรูปภาพนับเป็นด้านที่ได้รับการพัฒนามาอย่างดีเยี่ยม สามารถอ่านเนื้อหาในภาพได้ในสภาพแวดล้อมจริง เช่น แสงน้อย ภาพเบลอ และภาพเอียง พร้อมสามารถทำความเข้าใจรายละเอียดในภาพทั้งตัวอักษร จุดตัด หรือองค์ประกอบซับซ้อน ทั้งในรูปแบบ 2 มิติและ 3 มิติ อีกทั้งยังสามารถทำความเข้าใจเนื้อหาวีดีโอยาว 2 ชั่วโมงได้อย่างแม่นยำ

 

ปัจจุบัน Qwen3-VL รองรับการใช้งานทั้งบนแพลตฟอร์ม Qwen chat และช่องทางโอเพนซอร์สยอดนิยมทั่วไป

ข่าวล่าสุด

งานเข้า! EU สอบสวน Google ข้อหาผูกขาดเนื้อหาให้กับ AI ของบริษัท