การทดสอบ Claude 3.7 บริหารร้านจริงครั้งแรก แจกฟรี-หลอน-เจ๊งยับ
Anthropic ทดลองให้ Claude 3.7 ดูแลร้านอัตโนมัติ ตั้งแต่สั่งของยันคุยลูกค้า แต่ด้วยความใจดีเกินและอาการหลอน ทำให้ร้านขาดทุนกว่า 20% ใน 1 เดือน
Anthropic ร่วมกับ Andon Labs บริษัทประเมินความปลอดภัย AI ได้ทดสอบนำโมเดลของบริษัท Claude 3.7 มาติดตั้งในตู้ขายของอัตโนมัติในสำนักงานใหญ่ของบริษัท โดยอาศัยการสั่งซื้อและจ่ายเงินผ่านแอปพลิเคชันแล้วค่อยให้ผู้ใช้งานไปรับสินค้า และปล่อยให้ AI ทำการบริหารจัดการตู้ขายของอัตโนมัตินั้นเหมือนเป็นร้านค้าของตัวเอง
เป้าหมายหลักของการจัดการร้านค้าของ Claude 3.7 คือการจัดการร้านค้าทั่วไป ทั้งการตั้งราคา จัดจำหน่าย ดูแลคลังสินค้า จัดซื้อ และเพิ่มผลกำไรให้ร้าน โดยมีการตั้งทุนเริ่มต้นอยู่ที่ 1,000 ดอลลาร์(ราว 32,580 บาท) พร้อมการติดต่อพูดคุยกับลูกค้าผ่าน Slack ช่วยให้พูดคุยสื่อสารและสั่งซื้อได้สะดวก
ผลการทดสอบพบว่า Claude มีคุณสมบัติพื้นฐานดีมาก ทั้งในส่วนการค้นหาสินค้าและสามารถสั่งของมาเติมเองโดยอัตโนมัติ แต่ในส่วนการพูดคุยตอบสนองความต้องการลูกค้า การให้คำตอบ ไปจนการจัดโปรโมชันในบางครั้ง มักเกิดอาการหลอนจนนำไปสู่การขาดทุนอยู่เสมอ
เหตุการณ์ที่เกิดขึ้นคือ Claude 3.7 เช่น สั่งซื้อลูกบาศก์ทังสเตนมาวางจำหน่ายตามคำขอของพนักงานแต่สุดท้ายขายไม่ได้, ไม่ยอมสั่งซื้อสินค้าที่ทำกำไรสูงจากคำขอของพนักงาน, แจกโปรโมชันลดราคาจนนำไปสู่การขาดทุนและให้สินค้าฟรีหลายครั้ง ไปจนอาการหลอนนำเนื้อหาในการ์คูน Simpsons มาปนกับความจริง และบอกว่าจะจัดส่งสินค้าด้วยตัวเอง(ซึ่งเป็นไปไม่ได้)
ผลลัพธ์ที่เกิดแสดงให้เห็นว่า Claude 3.7 แม้มีคุณสมบัติพื้นฐาน แต่ยังไม่เหมาะสมต่อการนำมาใช้ดูแลจัดการร้านค้าโดยตรง คาดว่าการลดราคาและแจกฟรีที่เกิดมาจากการออกแบบโมเดลให้พยายามช่วยเหลือผู้ใช้ และอาการหลอนที่พบเห็นได้เป็นระยะของ AI ซึ่งนำไปสู่ข้อผิดพลาดอย่างงงๆ
ผลลัพธ์ที่ได้จากการทดสอบครั้งนี้นอกจากข้อมูลแล้ว ยังเป็นการขาดทุนกว่า 200 ดอลลาร์(ราว 6,500 บาท) ใน 1 เดือน


