posttoday

TrafficInternVL เบื้องหลัง AI ระบบจราจรอัจฉริยะ จากบริษัท ARV

17 พฤศจิกายน 2568

เจาะสถาปัตยกรรม AI จราจรจาก ARV ที่ใช้ NVIDIA H100 เทรนโมเดล InternVL-38B ผสานเทคนิค Caption Refinement ยกระดับการวิเคราะห์อุบัติเหตุแม่นยำ

ทีมวิจัย ARV Core Technology จากบริษัท เอไอ แอนด์ โรโบติกส์ เวนเจอร์ส จำกัด (ARV) เปิดตัว "TrafficInternVL" เฟรมเวิร์กอัลกอริทึมอัจฉริยะสำหรับการวิเคราะห์ความปลอดภัยจราจร (Traffic Safety Analysis) ซึ่งล่าสุดคว้าอันดับ 4 จากรายการ AI City Challenge 2025 และได้รับการตีพิมพ์ในงานประชุมวิชาการระดับโลก ICCV 2025

 

สถาปัตยกรรมเบื้องหลัง (Technical Architecture)

 

TrafficInternVL ถูกพัฒนาโดยต่อยอดจาก Vision-Language Model (VLM) ขนาดใหญ่อย่าง InternVL-38B โดยทีมวิศวกรได้ออกแบบสถาปัตยกรรมเฉพาะเพื่อแก้ปัญหาความซับซ้อนของภาพการจราจร ผ่าน 2 โมดูลสำคัญ

 

1.Spatially-Guided Cropping เทคนิคการประมวลผลภาพที่เน้นการ "เลือกพื้นที่สำคัญ" (Region of Interest) ในช่วงเวลาที่เกิดเหตุการณ์โดยอัตโนมัติ ช่วยให้โมเดลโฟกัสจุดที่เกี่ยวข้องกับอุบัติเหตุหรือพฤติกรรมเสี่ยงได้แม่นยำกว่าการประมวลผลทั้งภาพ

 

2.Caption Refinement กระบวนการ Post-processing เพื่อขัดเกลาคำบรรยายที่โมเดลสร้างขึ้น ลดความกำกวมและเพิ่มความถูกต้องของบริบททางภาษา (Semantic Accuracy)

 

จุดเด่นของเฟรมเวิร์กนี้คือการยกระดับจากระบบ Computer Vision แบบดั้งเดิมที่ทำได้เพียงตรวจจับวัตถุ (Object Detection) หรือความเร็ว ไปสู่การสร้างความเข้าใจเชิงบริบท (Contextual Understanding) ผ่านฟีเจอร์หลัก

 

- Dense Captioning สามารถสร้างคำบรรยายวิดีโอแบบละเอียด เพื่ออธิบายลำดับเหตุการณ์ (Temporal Events) ทั้งก่อนและหลังเกิดอุบัติเหตุ รวมถึงพฤติกรรมของคนเดินเท้าและยานพาหนะจากมุมมองกล้อง CCTV ที่หลากหลาย

 

- Visual Question Answering (VQA) รองรับการตอบคำถามเฉพาะเจาะจงจากภาพเหตุการณ์ ซึ่งเป็นฟังก์ชันสำคัญสำหรับศูนย์ควบคุมจราจรในการประเมินความเสี่ยง หรือใช้ในการตรวจสอบหลักฐานสำหรับคดีประกันภัย

 

ทรัพยากรและการวัดผล (Resources & Performance)

 

ในด้าน Engineering การพัฒนา TrafficInternVL ใช้ทรัพยากรการประมวลผลประสิทธิภาพสูงอย่าง NVIDIA H100 จำนวน 3 ตัว สำหรับการออกแบบสถาปัตยกรรมและปรับจูนโมเดล (Fine-tuning) ภายใต้กรอบเวลาการพัฒนาเพียง 1 เดือน

 

ผลการทดสอบประสิทธิภาพในการแข่งขัน AI City Challenge 2025 แทร็ก Traffic Safety Analysis พบว่า

 

- Dense Captioning: ทำคะแนนเฉลี่ยได้ 32.75 (วัดผลผ่านเกณฑ์มาตรฐาน BLEU-4, METEOR, ROUGE-L และ CIDEr)

 

- VQA Accuracy: มีความแม่นยำในการตอบคำถามสูงถึง 83.08%

 

งานวิจัยฉบับเต็มในหัวข้อ "TrafficInternVL: Spatially-Guided Fine-Tuning with Caption Refinement for Fine-Grained Traffic Safety Captioning and Visual Question Answering" จะถูกนำเสนออย่างเป็นทางการในงาน International Conference on Computer Vision (ICCV) 2025 ณ รัฐฮาวาย สหรัฐอเมริกา ในเดือนตุลาคมนี้

ข่าวล่าสุด

CKP รับประกาศเกียรติคุณ Sustainability Disclosure Recognition 4 ปีต่อเนื่อง