YouDescribe สู่อนาคตในการดูหนังและคลิปวีดีโอของคนตาบอด
เทคโนโลยี AI Vision-Language เสริมพลัง YouDescribe ผลิตคำบรรยายเสียงให้คลิปนับล้าน เปิดทางผู้พิการทางสายตาเสพสื่อออนไลน์อย่างเท่าเทียม
KEY
POINTS
- YouDescribe เป็นแพลตฟอร์มที่นำ AI ประเภท Vision Language Model (VLM) มาใช้สร้างคำบรรยายเสียงในวิดีโอโดยอัตโนมัติ เพื่อช่วยเหลือผู้พิการทางสายตา
- เทคโนโลยี AI นี้ช่วยแก้ปัญหาการขาดแคลนอาสาสมัครที่สร้างคำบรรยายเสียงได้ไม่ทันต่อปริมาณเนื้อหาบนโลกออนไลน์ ทำให้ผู้พิการทางสายตาสามารถเข้าถึงคลิปวิดีโอได้มากขึ้น
- โมเดล AI มีความสามารถในการบรรยายการเคลื่อนไหวและสีหน้าของมนุษย์ได้อย่างแม่นยำ แต่ยังคงต้องอาศัยมนุษย์ในการตรวจสอบและแก้ไขในเนื้อหาที่ซับซ้อน เช่น การ์ตูน
การรับชมสื่อบันเทิงไม่ว่าจะเป็นภาพยนตร์ รายการ ไปจนคลิปวีดีโอ ล้วนเป็นอีกหนึ่งงานอดิเรกที่ได้รับความนิยมกันทั่วไป จากการเป็นกิจกรรมที่เข้าถึงง่าย สนุกสนาน และเหมาสมกับทุกเพศทุกวัย อย่างไรก็ตามใช่ว่าทุกคนจะมีโอกาสเข้าถึงสื่อบันเทิงประเภทนี้เสมอไป โดยเฉพาะกับกลุ่มคนตาบอดหรือผู้พิการทางสายตา
นี่เป็นเหตุผลให้ YouDescribe เริ่มเกิดแนวคิดในการนำ AI เข้ามาช่วยใส่คำบรรยายเสียงในวีดีโอ
AI คำบรรยายเสียง ความหวังของผู้พิการทางสายตา
ผลงานนี้เป็นของทีมวิจัยจาก Northeastern University ทีมีแนวคิดในการใช้โมเดล AI อย่าง Vision Language Model(VLM) ที่มีคุณสมบัติประมวลผลทำความเข้าใจเนื้อหาทั้งประเภทภาพและเสียง เพื่อนำมาใช้เป็นส่วนหนึ่งของแพลตฟอร์ม YouDescribe สร้างคำบรรยายเสียงให้แก่ผู้พิการทางสายตา
ตามปกติการแปลงเนื้อหาวีดีโอทั้งหลายให้เป็นคำบรรยายเสียง เป็นบทบาทหน้าที่ของสถานีโทรทัศน์หรือสตรีมมิ่งที่ออกอากาศ แต่สำหรับการรับชมวีดีโอบนแพลตฟอร์มโซเชียลมีเดียสำหรับพวกเขาเป็นเรื่องยาก แม้แพลตฟอร์มอย่าง YouDescribe จะถูกออกแบบมาเพื่อแก้ไขเรื่องนี้ ปริมาณงานที่ออกมาก็ไม่มีทางพอเท่ากับเนื้อหาบนโลกออนไลน์
นั่นเป็นเหตุผลให้พวกเขาเริ่มมองให้ AI กลายเป็นหนึ่งในตัวเลือกแก้ปัญหา ด้วยการนำโมเดล AI แบบ VLM เข้ามาใช้งาน เพื่อตรวจสอบรายละเอียดเนื้อหาภายในวีดีโอแล้วสร้างคำบรรยายออกมาอัตโนมัติ จะช่วยให้เนื้อหาภายในคลิปถูกบรรยายออกมาในรูปแบบเสียงโดยอัตโนมัติ ไม่ต้องรอให้มีคนมาแปลหรือแปลงให้อีกต่อไป
จุดเด่นสำคัญในการใช้ VLM คือ โมเดล AI โดดเด่นในการอ่านเนื้อหาบนคลิปวีดีโอ โดยเฉพาะในส่วนสีหน้าท่าทางและการเคลื่อนไหวของมนุษย์ที่ทำได้อย่างละเอียดแม่นยำ ทำให้โมเดลสามารถสร้างรายละเอียดคำบรรยายเสียงในวีดีโอที่มีเนื้อหาเกี่ยวกับการกระทำของมนุษย์ได้อย่าละเอียด
นี่เองจะช่วยลดกระบวนการและภาระงานในการจัดทำคำบรรยายเสียงลงอย่างมาก
อนาคตของคำบรรยายเสียงที่ไม่จำกัดแค่กับคนตาบอด
ตามที่กล่าวไปข้างต้น คำบรรยายเสียงคือหนทางเดียวที่ผู้พิการทางสายตาจะได้รับชมและเพลิดเพลินกับรายการแบบคนทั่วไป แต่ที่ผ่านมาพวกเขามีโอกาสสัมผัสสิ่งเหล่านี้จากเพียงสถานีโทรทัศน์หรือสตรีมมิ่งเจ้าใหญ่ แต่แทบไม่มีโอกาสได้สัมผัสวีดีโอบนโซเชียลมีเดียแบบ Youtube, Facebook หรือ Tiktok เลย
ปัญหานี้เกิดจากความไม่เพียงพอของแรงงานที่จัดทำคำบรรยายเสียง แม้จะมีการจัดตั้งแพลคฟอร์มจัดทำคำบรรยายเสียงโดยเฉพาะอย่าง YouDescribe ที่มีอาสาสมัครช่วยเหลือถึง 3,000 คน แต่ไม่มีทางรองรับปริมาณเนื้อหาบนโลกออนไลน์นับล้านได้ทัน ทำให้เนื้อหาที่รีเควสเข้ามาบนเว็บไซต์ ได้รับการจัดทำคำบรรยายเสียงจริงแค่ 7% เท่านั้น
การเข้ามาของ AI จึงจะช่วยรองรับกลไกในส่วนนั้น โดยจะช่วยเร่งกระบวนการทำงานและจัดทำคำบรรยายเสียงให้เร็วยิ่งขึ้น นอกจากนี้คลิปขนาดสั้นแบบคลิปเต้นหรือเนื้อหาขำขันที่ยาวไม่เกิน 1 นาที ตามปกติคลิปพวกนี้จะไม่ได้รับการพิจารณาจัดทำมากนัก แต่หากมีการใช้ AI ก็มีโอกาสได้รับการจัดทำ เปิดโอกาสให้คนตาบอดเข้าถึงคลิปเหล่านี้มากขึ้น
แน่นอนโมเดล AI ไม่ได้สมบูรณ์แบบ แม้จะสามารถจัดทำคำบรรยายเสียงอย่างมีประสิทธิภาพในคลิปเกี่ยวกับคนจริง แต่ในกรณีสื่อบันเทิงประเภทอื่นแบบตัวการ์ตูน โมเดลยังไม่สามารถจับการเคลื่อนไหวหรือบรรยายรายละเอียดได้ดีนัก อีกทั้งรายละเลียดของฉากในบางครั้ง AI ยังไม่สามารถบรรยายองค์ประกอบศิลป์ได้
ส่วนนี้เองที่ยังจำเป็นต้องพึ่งพาอาสาสมัครคอยช่วยเหลือ เนื้อหาบางประเภทหรือการปรับปรุงรายละเอียดปลีกย่อยยังต้องใช้คนจริง นี่จึงไม่ใช่การเข้ามาทดแทนแรงงานโดยตรง แต่เป็นการลดภาระงานให้ AI จัดทำบทแปลเบื้องต้นมาให้ จากนั้นจึงค่อยให้ผู้เชี่ยวชาญหรือคนจริงมาตรวจทาน จะช่วยลดภาระและทำให้จำนวนคำบรรยายเสียงทำได้รวดเร็วยิ่งขึ้น
นี่ถือเป็นก้าวแรกทีน่าสนใจสำหรับผู้พิการทางสายตา จริงอยู่สื่อบันเทิงในปัจจุบันทั้งซีรีส์ ภาพยนตร์ หรือเกม เริ่มทำระบบรองรับผู้พิการทางสายตามากขึ้นแต่ยังไม่เพียงพอ ในอนาคตหากโมเดลนี้พัฒนาจนแพร่หลาย แพลตฟอร์มโซเชียลมีเดียและสตรีมมิ่งอาจติดตั้งโมเดลนี้กันทั่วไป ซึ่งจะช่วยเพิ่มโอกาสและคุณภาพชีวิตของพวกเขาอีกมาก
จริงอยู่หลายท่านอาจไม่สนใจนักเพราะนี่เป็นเทคโนโลยีช่วยเหลือคนตาบอดเป็นหลัก แต่หากการพัฒนาโมเดลนี้ประสบความสำเร็จก็สามารถนำไปต่อยอดด้านอื่น เช่น AI สำหรับการวิเคราะห์และค้นหาข้อมูลจากรายละเอียดในวีดีโอแบบ NotebookLM และอาจต่อยอดไปใช้ร่วมกับ Agentic AI ต่อไปในอนาคต
ที่มา
https://techxplore.com/news/2025-06-ai-vision-language-video-descriptions.html


