TrafficInternVL เบื้องหลัง AI ระบบจราจรอัจฉริยะ จากบริษัท ARV
เจาะสถาปัตยกรรม AI จราจรจาก ARV ที่ใช้ NVIDIA H100 เทรนโมเดล InternVL-38B ผสานเทคนิค Caption Refinement ยกระดับการวิเคราะห์อุบัติเหตุแม่นยำ
ทีมวิจัย ARV Core Technology จากบริษัท เอไอ แอนด์ โรโบติกส์ เวนเจอร์ส จำกัด (ARV) เปิดตัว "TrafficInternVL" เฟรมเวิร์กอัลกอริทึมอัจฉริยะสำหรับการวิเคราะห์ความปลอดภัยจราจร (Traffic Safety Analysis) ซึ่งล่าสุดคว้าอันดับ 4 จากรายการ AI City Challenge 2025 และได้รับการตีพิมพ์ในงานประชุมวิชาการระดับโลก ICCV 2025
สถาปัตยกรรมเบื้องหลัง (Technical Architecture)
TrafficInternVL ถูกพัฒนาโดยต่อยอดจาก Vision-Language Model (VLM) ขนาดใหญ่อย่าง InternVL-38B โดยทีมวิศวกรได้ออกแบบสถาปัตยกรรมเฉพาะเพื่อแก้ปัญหาความซับซ้อนของภาพการจราจร ผ่าน 2 โมดูลสำคัญ
1.Spatially-Guided Cropping เทคนิคการประมวลผลภาพที่เน้นการ "เลือกพื้นที่สำคัญ" (Region of Interest) ในช่วงเวลาที่เกิดเหตุการณ์โดยอัตโนมัติ ช่วยให้โมเดลโฟกัสจุดที่เกี่ยวข้องกับอุบัติเหตุหรือพฤติกรรมเสี่ยงได้แม่นยำกว่าการประมวลผลทั้งภาพ
2.Caption Refinement กระบวนการ Post-processing เพื่อขัดเกลาคำบรรยายที่โมเดลสร้างขึ้น ลดความกำกวมและเพิ่มความถูกต้องของบริบททางภาษา (Semantic Accuracy)
จุดเด่นของเฟรมเวิร์กนี้คือการยกระดับจากระบบ Computer Vision แบบดั้งเดิมที่ทำได้เพียงตรวจจับวัตถุ (Object Detection) หรือความเร็ว ไปสู่การสร้างความเข้าใจเชิงบริบท (Contextual Understanding) ผ่านฟีเจอร์หลัก
- Dense Captioning สามารถสร้างคำบรรยายวิดีโอแบบละเอียด เพื่ออธิบายลำดับเหตุการณ์ (Temporal Events) ทั้งก่อนและหลังเกิดอุบัติเหตุ รวมถึงพฤติกรรมของคนเดินเท้าและยานพาหนะจากมุมมองกล้อง CCTV ที่หลากหลาย
- Visual Question Answering (VQA) รองรับการตอบคำถามเฉพาะเจาะจงจากภาพเหตุการณ์ ซึ่งเป็นฟังก์ชันสำคัญสำหรับศูนย์ควบคุมจราจรในการประเมินความเสี่ยง หรือใช้ในการตรวจสอบหลักฐานสำหรับคดีประกันภัย
ทรัพยากรและการวัดผล (Resources & Performance)
ในด้าน Engineering การพัฒนา TrafficInternVL ใช้ทรัพยากรการประมวลผลประสิทธิภาพสูงอย่าง NVIDIA H100 จำนวน 3 ตัว สำหรับการออกแบบสถาปัตยกรรมและปรับจูนโมเดล (Fine-tuning) ภายใต้กรอบเวลาการพัฒนาเพียง 1 เดือน
ผลการทดสอบประสิทธิภาพในการแข่งขัน AI City Challenge 2025 แทร็ก Traffic Safety Analysis พบว่า
- Dense Captioning: ทำคะแนนเฉลี่ยได้ 32.75 (วัดผลผ่านเกณฑ์มาตรฐาน BLEU-4, METEOR, ROUGE-L และ CIDEr)
- VQA Accuracy: มีความแม่นยำในการตอบคำถามสูงถึง 83.08%
งานวิจัยฉบับเต็มในหัวข้อ "TrafficInternVL: Spatially-Guided Fine-Tuning with Caption Refinement for Fine-Grained Traffic Safety Captioning and Visual Question Answering" จะถูกนำเสนออย่างเป็นทางการในงาน International Conference on Computer Vision (ICCV) 2025 ณ รัฐฮาวาย สหรัฐอเมริกา ในเดือนตุลาคมนี้


