Amazon Web Services (AWS) ล่มครั้งใหญ่ เขย่าเสถียรภาพโลกดิจิทัล
นานกว่า 15 ชั่วโมงที่ศูนย์ข้อมูลแห่งหนึ่งของ AWS กลายเป็นศูนย์กลางของอัมพาตดิจิทัลที่ลุกลามไปทั่วโลก บริการหลายอย่างชะงัก เผยความเปราะบางของอินเทอร์เน็ตยุคใหม่
KEY
POINTS
- เหตุขัดข้องเกิดจากปัญหาทางเทคนิคภายในที่ศูนย์ข้อมูล US-EAST-1 ในรัฐเวอร์จิเนีย ไม่ใช่การโจมตีทางไซเบอร์
- การล่มส่งผลกระทบเป็นวงกว้างต่อบริการดิจิทัลทั่วโลกกว่า 2,000 บริษัท ตั้งแต่โซเชียลมีเดีย เกมมิ่ง ไปจนถึงระบบธนาคารและการศึกษา
- เหตุการณ์นี้จุดประกายให้เกิดการถกเถียงถึงความเสี่ยงเชิงระบบ จากการที่โลกอินเทอร์เน็ตต้องพึ่งพาผู้ให้บริการคลาวด์รายใหญ่เพียงไม่กี่ราย
ปัญหาเกิดขึ้นที่ศูนย์ข้อมูล US-EAST-1 ในรัฐเวอร์จิเนีย สหรัฐอเมริกา ซึ่งเป็นจุดที่ถูกตั้งเป็นค่าเริ่มต้น (default) สำหรับบริการจำนวนมาก
เหตุการณ์นี้ไม่ได้เกิดจากการโจมตีทางไซเบอร์ แต่เป็นปัญหาทางเทคนิคภายใน โดย Amazon รายงานว่าสาเหตุมาจาก "ความผิดพลาดของระบบย่อยภายในที่รับผิดชอบการตรวจสอบสถานะของ network load balancers" ซึ่งหากเปรียบเทียบง่ายๆ คือระบบที่ออกแบบมาเพื่อป้องกันการจราจรติดขัดบนทางด่วนภายในของ AWS ได้ล้มเหลวลง ส่งผลให้เกิดอุบัติเหตุซ้อนครั้งใหญ่ที่ปิดกั้นการเข้าถึงบริการสำคัญ ความโกลาหลที่เกิดขึ้นได้จุดประกายให้เกิดการถกเถียงครั้งสำคัญเกี่ยวกับความเสี่ยงเชิงระบบ จากการที่โลกอินเทอร์เน็ตต้องพึ่งพาผู้ให้บริการคลาวด์คอมพิวติ้งรายใหญ่เพียงไม่กี่ราย
บริการที่ได้รับผลกระทบ: จากแอปโซเชียลถึงระบบธนาคาร
มีการประเมินว่ามีบริษัทมากกว่า 2,000 แห่งทั่วโลกที่ได้รับผลกระทบโดยตรง เว็บไซต์ Downdetector ซึ่งเป็นผู้ติดตามการล่มของบริการอินเทอร์เน็ต ได้รับรายงานปัญหากว่า 8 ล้านครั้งทั่วโลก สะท้อนให้เห็นถึงการหยุดชะงักในทุกมิติของชีวิตดิจิทัล ตัวอย่างบริการและแพลตฟอร์มที่ได้รับผลกระทบ ได้แก่
• โซเชียลมีเดียและการสื่อสาร: Snapchat, Signal, Reddit
• เกมและความบันเทิง: Roblox, Fortnite, PlayStation Network, Epic Games
• บริการในชีวิตประจำวัน: Ring doorbells, Duolingo, Peloton, Lyft, MyFitnessPal, Canvas (ซอฟต์แวร์การศึกษา)
• สถาบันการเงินและภาคธุรกิจ: Lloyds Bank, Halifax, Bank of Scotland, Coinbase, Robinhood, Venmo, Slack และเว็บไซต์สรรพากรของสหราชอาณาจักร (HMRC)
• บริการของ Amazon เอง: เว็บไซต์ Amazon, Prime Video, Alexa
การตอบสนองและการแก้ไขของ Amazon
ทีมวิศวกรของ AWS ได้เข้าดำเนินการแก้ไขด้วยการใช้มาตรการ จำกัดคำขอใหม่ๆ (new activity requests) เพื่อลดภาระของระบบและช่วยให้การฟื้นฟูทำได้ง่ายขึ้น อย่างไรก็ตาม กระบวนการแก้ไขที่กินเวลายาวนานกว่า 15 ชั่วโมง ก่อนที่ Amazon จะประกาศว่าบริการส่วนใหญ่ "กลับสู่สภาวะปกติ" แต่ยังคงมีงานบางส่วนที่คั่งค้างซึ่งต้องใช้เวลาเพิ่มเติมในการประมวลผลให้เสร็จสิ้น
เสียงสะท้อนจากผู้ใช้งานและภาคธุรกิจ
นอกเหนือจากรายละเอียดทางเทคนิคแล้ว ผลกระทบที่แท้จริงของเหตุการณ์นี้สามารถวัดได้จากความโกลาหลที่เกิดขึ้นในชีวิตประจำวันของผู้คน และความเสียหายทางเศรษฐกิจต่อภาคธุรกิจ สิ่งนี้สะท้อนให้เห็นว่าสังคมยุคใหม่ได้ฝังรากการพึ่งพาเทคโนโลยีคลาวด์เพียงใด
• ความปลอดภัยในบ้าน: ผู้ใช้กริ่งประตูอัจฉริยะ Ring ไม่สามารถใช้งานฟังก์ชันต่างๆ ได้
• การศึกษา: นักเรียนและอาจารย์ทั่วโลกไม่สามารถเข้าถึงซอฟต์แวร์การศึกษา Canvas เพื่อทำการเรียนการสอนและส่งงานได้
• การเดินทาง: ผู้โดยสารแอปพลิเคชันเรียกรถ Lyft ไม่สามารถเรียกรถเพื่อเดินทางได้
• ธุรกรรมในชีวิตประจำวัน: ผู้ปกครองรายหนึ่งในสกอตแลนด์ประสบปัญหาไม่สามารถโอนเงินผ่านแอปธนาคารเพื่อซื้อ นมผงสำหรับทารก ได้
ในเชิงเศรษฐกิจ การหยุดชะงักของบริการคลาวด์เพียงไม่กี่ชั่วโมงคือ "ความสูญเสียด้านผลิตภาพและรายได้" ขณะที่ ผู้เชี่ยวชาญด้านกฎหมายชี้ว่า เหตุการณ์นี้อาจนำไปสู่การเรียกร้องค่าเสียหายจากภาคธุรกิจที่ได้รับผลกระทบ ซึ่งอาจต้องพิจารณาตามข้อตกลงระดับการให้บริการ (SLA) ที่ทำไว้กับ Amazon
ผลกระทบที่เกิดขึ้นนี้ ได้นำไปสู่การตั้งคำถามถึงต้นตอของปัญหาเชิงโครงสร้าง นั่นคือความเสี่ยงจากการพึ่งพาผู้ให้บริการเพียงไม่กี่ราย
ผู้เชี่ยวชาญจากแวดวงนโยบายสาธารณะหลายคนได้ออกมาเรียกร้องให้มี "ความหลากหลายในคลาวด์คอมพิวติ้ง" (diversification in cloud computing) อย่างเร่งด่วน โดยมองว่าการที่โครงสร้างพื้นฐานที่สำคัญต่อสังคมต้องขึ้นอยู่กับบริษัทเพียงหยิบมือเดียว ถือเป็นความเสี่ยงที่ไม่อาจยอมรับได้
อย่างไรก็ตาม ในเวทีสนทนาทางเทคนิคอย่าง Hacker News ที่ซึ่งเหล่าวิศวกรได้ร่วมกันวิเคราะห์เหตุการณ์ มองว่าแนวคิดดังกล่าวยังยากในเชิงปฏิบัติ เนื่องจากความซับซ้อนและต้นทุน เพราะการออกแบบสถาปัตยกรรมให้ทำงานข้ามผู้ให้บริการ (Multi-cloud) หรือข้ามภูมิภาค (Multi-region) มีต้นทุนที่สูงมากทั้งในแง่ของค่าใช้จ่ายและเวลาในการพัฒนา ซึ่งอาจไม่คุ้มค่าสำหรับธุรกิจส่วนใหญ่เมื่อเทียบกับความเสี่ยงของเหตุการณ์ล่มที่เกิดขึ้นไม่บ่อยครั้ง
ประเด็นสำคัญอีกประการหนึ่งคือ "Vendor Lock-in" หรือการผูกติดกับผู้ให้บริการรายใดรายหนึ่ง โดยเฉพาะเมื่อธุรกิจเลือกใช้บริการระดับสูง (Platform as a Service - PaaS) เช่น ฐานข้อมูล DynamoDB หรือคลังข้อมูล Redshift ซึ่งเป็นบริการเฉพาะของ AWS ทำให้การย้ายไปยังผู้ให้บริการรายอื่นทำได้ยากและมีค่าใช้จ่ายสูงกว่าการใช้เพียงบริการพื้นฐาน (Infrastructure as a Service - IaaS)
สภาวะ "Vendor Lock-in" นี้เปรียบได้กับการสร้างบ้านด้วยประตูและหน้าต่างขนาดพิเศษจากผู้ผลิตเพียงรายเดียว ซึ่งแม้จะใช้งานได้ดี แต่การจะเปลี่ยนไปใช้ชิ้นส่วนมาตรฐานจากคู่แข่งในภายหลังนั้นกลายเป็นเรื่องที่ยากและมีค่าใช้จ่ายสูงจนแทบเป็นไปไม่ได้ นอกจากนี้ ค่าใช้จ่ายในการถ่ายโอนข้อมูลออก (Egress fees) ที่สูง ยังเป็นอุปสรรคสำคัญที่ทำให้กลยุทธ์ Multi-cloud ไม่เป็นที่นิยมในทางปฏิบัติ
บทสรุปและอนาคตของคลาวด์คอมพิวติ้ง
เหตุการณ์ AWS ล่มครั้งประวัติศาสตร์นี้เป็นเครื่องชี้ให้เห็นความเปราะบางของโครงสร้างพื้นฐานดิจิทัลที่โลกสมัยใหม่พึ่งพา การเลือกระหว่าง "ความสะดวกและต้นทุนที่ต่ำกว่า" จากการใช้บริการของผู้ให้บริการรายใหญ่ที่มีประสิทธิภาพสูง กับ "ความยืดหยุ่นและความปลอดภัย" ที่มาจากการกระจายความเสี่ยงไปยังผู้ให้บริการหลายราย ยังเป็นคำถามสำหรับหลายธุรกิจ


