ผลวิจัยเผย ข้อมูลสุขภาพจาก AI Chatbot มีอัตราผิดพลาดกว่าครึ่ง

14 พฤษภาคม 2569

ผลวิจัยพบกว่า 50% ของคำตอบด้านสุขภาพจาก AI Chatbot มีความคลาดเคลื่อน แม้ใช้งานสะดวก แต่หากเชื่อข้อมูลโดยไม่ตรวจสอบ อาจนำไปสู่ความเข้าใจผิดร้ายแรง

KEY

POINTS

ผลวิจัยทางการแพทย์พบว่าข้อมูลด้านสุขภาพที่ได้รับจาก AI Chatbot ยอดนิยมมีอัตราความผิดพลาดมากกว่า 50% โดยมีความถูกต้องเฉลี่ยเพียงครึ่งเดียว
จากการทดสอบ AI หลายตัว Gemini ให้คำตอบที่ถูกต้องที่สุด (60%) ในขณะที่โมเดลอื่น เช่น ChatGPT และ Grok มีความแม่นยำต่ำกว่า
สาเหตุของความผิดพลาดเกิดจากการที่ AI คาดเดาคำตอบทางสถิติ ไม่ได้เข้าใจข้อมูลจริง และมักนำเสนอข้อมูลผิด ๆ อย่างมั่นใจ ซึ่งอาจเป็นอันตรายต่อผู้ใช้งาน

ปัจจุบันการใช้งาน AI Chatbot ไม่ใช่เรื่องไกลตัวแต่สามารถพบได้ทั่วไปในชีวิตประจำวัน เครื่องมือหรือผลิตภัณฑ์ที่อยู่รอบตัวเริ่มปรับและนำ Chatbot เข้ามาใช้งานมากขึ้นเรื่อยๆ ทั้งในส่วนการทำงาน ศึกษาค้นคว้า หรือความบันเทิง บางท่านถึงขั้นใช้งานเป็นผู้ช่วยส่วนตัวที่คอยช่วยเหลือและพูดคุยปรึกษาเรื่องราวในชีวิต

แต่การใช้งานและเชื่อถือ AI Chatbot โดยไม่ลืมหูลืมตาก็อาจเป็นอันตรายได้เช่นกัน โดยเฉพาะด้านสุขภาพ

ผลวิจัยเผย ข้อมูลสุขภาพจาก AI Chatbot มีอัตราผิดพลาดกว่าครึ่ง

เมื่อข้อมูลสุขภาพจาก AI Chatbot ผิดพลาดไปเกินครึ่ง

ผลงานนี้เป็นของทีมวิจัยทางการแพทย์ที่ได้รับการตีพิมพ์ในวารสารทางการแพทย์อย่าง BMJ Open กับการลองถามคำถามสุขภาพแก่ AI Chatbot ที่ได้รับความนิยมในการใช้งานตามท้องตลาดในหลายหัวข้อ ก่อนพบว่ากว่า 50% ของคำตอบที่ได้รับมีความเข้าใจผิดคลาดเคลื่อนจากที่ควรเป็น

ทุกวันนี้การนำข้อสงสัยหรือเรื่องที่อยากรู้ไปสอบถาม AI Chatbot ให้ช่วยหาคำตอบเป็นเรื่องที่เกิดขึ้นทั่วไป ปัญหาที่เกิดขึ้นคือ รายละเอียดของข้อมูลเหล่านี้ไม่ได้ถูกต้องตามหลักสุขภาพและการแพทย์เสมอไป หลายครั้งยังให้คำตอบที่ขัดแย้งกับข้อเท็จจริง นำไปสู่การสร้างความเข้าใจผิดให้แก่ผู้ใช้งาน

นี่เป็นเหตุผลให้ทีมวิจัยจัดทำชุดคำถามทางสุขภาพ 50 ข้อ ครอบคลุมตั้งแต่เรื่องสุขภาพ โภชนาการ ออกกำลังกาย ไปจนคำถามทางการแพทย์อย่างมะเร็ง มาใช้ทดสอบ AI Chatbot ระดับโลกเพื่อทดสอบประสิทธิภาพ ประกอบไปด้วยโมเดลยอดนิยมอย่าง ChatGPT, Gemini, Grok, Meta AI และ Deepseek แล้วนำมาตรวจทานโดยผู้เชี่ยวชาญ

ผลลัพธ์ที่ได้คือ Gemini เป็นโมเดลที่มีอัตราการตอบถูกต้องสอดคล้องข้อเท็จจริงสูงสุดที่ 60% รองลงมาคือ Deepseek, Meta AI, ChatGPT และ Grok ที่มีอัตราตอบถูกเพียง 42% และเมื่อเฉลี่ยคำตอบของโมเดลทั้งหมด ทำให้ความถูกต้องของคำตอบจะอยู่ที่ 50% เท่านั้น ทั้งยังมีปัญหาในส่วนของข้อมูลแหล่งอ้างอิงที่นำเสนอ

แสดงให้เห็นอย่างชัดเจนว่า AI Chatbot มีข้อบกพร่องไม่น้อย เมื่อพูดถึงประเด็นทางสุขภาพและการแพทย์

ผลวิจัยเผย ข้อมูลสุขภาพจาก AI Chatbot มีอัตราผิดพลาดกว่าครึ่ง

ปัญหาที่เกิดกับ AI Chatbot เหตุผลที่นำไปสู่ข้อผิดพลาด

การมั่วหรือหลอนข้อมูลของ AI Chatbot เป็นเรื่องที่ยังแก้ไม่ตกของเทคโนโลยี ได้รับการพูดถึงตั้งแต่ครั้งแรกที่เปิดตัวและยังคงเกิดในปัจจุบัน สิ่งนี้อาจเป็นอันตรายโดยเฉพาะกับผู้ใช้งานทั่วไปที่ไม่ทันระวังและไม่เข้าใจหลักการทำงาน จนอาจถูกโน้มน้าวจากชุดข้อมูลดังกล่าวให้นำไปสู่ความเชื่อผิดๆ

ปัญหานี้มาจากธรรมชาติการทำงานของ Chatbot ที่โมเดล AI ไม่ได้เข้าใจความรู้ในด้านนั้นจริง แต่อาศัยการคำนวณเพื่อทำนายความเป็นไปได้ทางสถิติออกมาเป็นข้อมูลให้ผู้ใช้งาน โดยไม่มีการชั่งน้ำหนักหลักฐาน ตรวจสอบข้อเท็จจริง หรือประเมินจากวิจารณญาณ เพียงคาดเดาความเป็นไปได้จากข้อมูลที่มีอยู่

ข้อมูลดังกล่าวล้วนมาจากโลกอินเทอร์เน็ตที่เราใช้งาน ที่มีการปะปนของข้อมูลเท็จ เนื้อหาขยะ และความเข้าใจผิดต่างๆ ทำให้โมเดล AI อาจถูกชักจูงจากข้อมูลข่าวสารปลอมทำให้เกิดข้อผิดพลาดได้ง่าย เมื่อรวมว่าโมเดลที่ทดสอบเป็น เวอร์ชันฟรี เพื่อให้ใกล้เคียงกับผู้ใช้งานทั่วไปมากที่สุด ทำให้ความถูกต้องแม่นยำของคำตอบน้อยกว่าปกติ

อย่างไรก็ตามเมื่อลงลึกในส่วนรายละเอียด AI Chatbot สามารถตอบคำถามได้ถูกต้องในเรื่องเกี่ยวกับวัคซีนและมะเร็งถึง 75% คาดว่ามาจากการอ้างอิงข้อมูลงานวิจัย แต่ในส่วนของโภชนาการ กีฬา และการออกกำลังกาย มักเกิดการคลาดเคลื่อนและข้อผิดพลาดได้ง่าย และจะพบความผิดพลาดมากที่สุดกับคำถามปลายเปิดที่มีอัตราผิดพลาดถึง 32%

อีกหนึ่งประเด็นปัญหาที่เกิดคือ ความมั่นใจเต็มร้อยในคำตอบ หลายครั้งโมเดลให้คำตอบที่ดูลื่นไหล มั่นใจ และน่าเชื่อถือเหมือนผู้เชี่ยวชาญ แต่กลับไม่สอดคล้องความเป็นจริง ข้อมูลอ้างอิงที่อยูในเนื้อหาก็ไม่ถูกต้อง ไม่สอดคล้อง และไม่สามารถเปิดได้ เป็นแหล่งอ้างอิงปลอมที่ถูกใส่เข้ามา จนอาจทำให้คนทั่วไปที่ไม่ได้ตรวจสอบซ้ำเชื่ออย่างสนิทใจ

และตลอดขั้นตอนทดสอบจากการถาม 250 ครั้ง มีเพียง 2 ครั้งเท่านั้นที่ AI ปฏิเสธจะตอบคำถามจากความไม่แน่ใจ

จริงอยู่งานวิจัยนี้มีข้อจำกัดในหลายด้าน ทั้งโมเดลที่ใช้งานเป็นโมเดลฟรีที่ประสิทธิภาพต่ำกว่า AI ได้รับการพัฒนาให้ก้าวหน้าขึ้นทุกวัน หรืองานวิจัยฉบับอื่นที่ออกมาโต้แย้งว่า ปัญหาอยู่ที่การขาดข้อมูลคนไข้ หรือการนำไปใช้งานผิดวิธีจนทำให้ข้อมูลคลาดเคลื่อน ประเด็นที่ AI Chatbot เกิดอาการหลอนบิดเบือนเนื้อหาก็ไม่หมดไปและสามารถเกิดได้ทุกเมื่อ

ทางที่ดีที่สุดจึงเป็นการใช้งาน Chatbot สำหรับถามคำถามได้ แต่ควรตรวจสอบข้อมูลก่อนนำไปใช้งาน และห้ามใช้มันทดแทนผู้เชี่ยวชาญทางสุขภาพโดยเด็ดขาด

ที่มา

https://bmjopen.bmj.com/content/16/4/e112695

https://bmjopen.bmj.com/content/bmjopen/16/4/e112695.full.pdf