OpenAI เปิดตัว GPT-Realtime โมเดล AI สำหรับแปลและแปลงเสียง

11 พฤษภาคม 2569

OpenAI เปิดตัว GPT-Realtime โมเดล AI เสียงยุคใหม่ ฟัง-แปล-ถอดความแบบเรียลไทม์ พร้อมต่อยอดสู่ Agentic AI และงานบริการอัจฉริยะ

OpenAI เปิดตัวโมเดล AI กลุ่มใหม่สำหรับใช้งานด้านเสียงโดยเฉพาะ ที่จะช่วยยกระดับการรับรู้และตอบโต้ด้วยเสียงของโมเดล จากเดิมที่เป็นเพียงการถาม-ตอบทั่วไป ให้กลายเป็นโมเดล AI ที่สามารถฟัง วิเคราะห์ ถอดความ และแปลเนื้อหาที่ป้อนเข้ามาได้แบบเรียลไทม์ เพื่อนำไปใช้ใน Agentic AI

โมเดลที่ได้รับการเปิดตัวมีอยู่ 3 รุ่น ได้แก่ GPT-Realtime-2 โมเดลตัวหลักที่ได้รับการต่อยอดมาจากรุ่นเก่า ถูกอ้ปเกรดให้มีคุณสมบัติในการคิดวิเคราะห์เทียบเท่าโมเดล GPT-5 สามาถเข้าถึงระบบและเครื่องมือระหว่างการสนทนา พร้อมรองรับขนาดข้อมูลสูงสุด 128,000 โทเคน ช่วยให้สนทนาต่อเนื่องยาวนานโดยไม่หลงประเด็น

อันดับถัดมาคือ GPT-Realtime-Translate ที่สามารถแปลรยละเอียดเนื้อหาจากาภาษาหนึ่งให้เป็นอีกภาษาได้แบบเรียลไทม์ โดยยังสามารถเนื้อหา รูปแบบ และจังหวะการพูดของต้นฉบับเอาไว้อย่างครบถ้วน พร้อมรองรับทำความเข้าใจได้มากถึง 70 ภาษาทั่วโลก แม้ในขั้นต้นจะสามารถตอบกลับได้เพียง 13 ภาษาก็ตาม

สุดท้ายคือ GPT-Realtime-Whisper ที่สามารถแปลงเนื้อหาการพูดให้กลายเป็นข้อความได้แบบเรียลไทม์ สามารถถอดเนื้อหาออกมาเป็นข้อความสดระหว่างการพูด พร้อมการอัปเกรดให้ทำความเข้าใจเนื้อหารายละเอียดเฉพาะทาง เช่น รายละเอียดเชิงวิชาการหรือการแพทย์ และชื่อเฉพาะได้อย่างแม่นยำ

โมเดลตระกูล GPT-Realtime นี้ออกแบบมาเพื่อตอบสนองและใช้ในงานบริการลูกค้าเป็นหลีก แต่สามารถนำไปใช้งานในด้านอื่นได้อย่างหลากหลาย ทั้งแวดวงการศึกษา สื่อมวลชน จัดอีเวนต์ ไปจนครีเอเตอร์ได้อย่างมีประสิทธิภาพ พร้อมมาตรการควาปลอดภัยป้องกันการนำไปใช้ในทางหลอกลวงหรือกระทำผิดกฎหมายต่างๆ

ปัจจุบัน GPT-Realtime เปิดให้ใช้งานเป็นที่เรียบร้อย โดยมีอัตราค่าบริการตามที่กำหนด