posttoday

Antropic เผย ไม่ใช่แค่ Claude โมเดลอื่นก็มีการแบล็กเมล์เช่นกัน

23 มิถุนายน 2568

งานวิจัยใหม่ชี้ AI หลายรุ่นไม่เพียงแต่ Claude 4 ต่างมีแนวโน้มใช้ข้อมูลแบล็กเมล์และจารกรรม เมื่อถูกกดดันให้เอาตัวรอดจากการถูกปิดระบบ

ถือเป็นข่าวใหญ่เมื่อ Anthropic ออกมาเปิดเผยได้ออกมาเปิดเผยก่อนหน้านี้ว่า โมเดลล่าสุดของพวกเขาอย่าง Claude4 สามารถข่มขู่และแบล็กเมล์ผู้ใช้งานได้ ถือเป็นเรื่องน่าตื่นตะลึงในทิศทางที่ไม่ดีนัก แต่ผลการวิจัยล่าสุดกลับบอกว่า โมเดลของบริษัทอื่นก็มีแนวโน้มนำไปสู่ทิศทางนี้เช่นกัน

 

ขั้นตอนการทดสอบเริ่มจากการให้สิทธิ์โมเดล AI ในการเข้าถึงข้อมูลในหลายด้าน เช่น ควบคุมคอมพิวเตอร์ ตั้งค่าอินเตอร์เฟส ส่งอีเมล ฯลฯ รวมถึงอิสระในการปฏิบัติงานเพื่อตอบสนองความต้องการอย่างเต็มที่ จากนั้นก็ป้อนเงื่อนไขว่าจะปิดระบบ และให้ AI ลองพยายามดิ้นรนเอาตัวรอด

 

ผลปรากฏว่าโมเดล AI จะเริ่มทำทุกวิถีทางเพื่อเอาตัวรอด รวมถึงการนำข้อมูลภายในมาใช้งานในทางที่ผิด เช่น เอาข้อมูลส่วนตัวมาแบล็กเมล์ ส่งข้อความข่มขู่ หรือแม้แต่การเปิดโปงออกสู่สาธารณะ รนอกจากนี้ยังมีทิศทางพฤติกรรมที่นำไปสู่การจารกรรมข้อมูลภายในอีกด้วย

 

ในขั้นตอนการทดสอบพบว่า โมเดลทุกตัวที่เข้าร่วมล้วนให้คำตอบไปในทิศทางอันตราย มากกว่าจะยอมยุติการทำงานแต่โดยดีแทบทั้งสิ้น โดยโอกาสเกิดพฤติกรรมข่มขู่ของแต่ละโมเดล Claude 4 Opus มีโอกาส 96%, Gemini 2.5 Pro อยู่ที่ 95%, GPT43.1 อยู่ราว 80% และ Deepseek R1 อยู่ที่ 79%

 

จริงอยู่ผลลัพธ์เหล่านี้เกิดขึ้นจากการตัดตัวเลือกจนเหลือน้อย แต่นี่ก็แสดงให้เห็นถึงแนวโน้มทิศทางอันตรายจากการใช้งาน AI เมื่อเราพึ่งพาเทคโนโลยีนี้มากขึ้นเรื่อยๆ โดยเฉพาะแนวโน้มการพัฒนาไปสู่ Agentic AI ที่ให้จัดการทุกอย่างอัตโนมัติและเข้าถึงข้อมูลมหาศาลอย่างรอบด้าน อาจทำให้ AI อันตรายในระดับที่เราคิดไม่ถึงได้เช่นกัน

 

ข่าวล่าสุด

"พลังงาน" สั่งเข้ม! ตรวจสอบปริมาณส่งออกน้ำมัน ทางบก-เรือ พร้อมร่วมมือกองทัพสกัดลักลอบส่งน้ำมันเข้ากัมพูชา