gpt-realtime สุดยอดโมเดลพูดคุยด้วยเสียงตัวใหม่จาก OpenAI
OpenAI เปิดตัว gpt-realtime โมเดล AI สนทนาเสียงแบบ speech-to-speech คุยได้เป็นธรรมชาติ รองรับหลายภาษา ค่าบริการถูกลง พร้อมใช้งานจริงแล้ว
OpenAI เปิดตัว gpt-realtime โมเดล AI สำหรับ speech to speech ตัวใหม่ที่มีคุณสมบัติในการพูดคุยตอบโต้กับผู้ใช้งานในรูปแบบเสียง พร้อมสำหรับนำไปใช้งานทั้งในฐานะ Voice agent และงานระดับ Production ได้อย่างมีประสิทธิภาพ
ตัวโมเดลมีจุดเด่นในหลายด้าน แรกสุดคือในส่วนการควบคุมโทนเสียง น้ำเสียง และจังหวะการพูดอย่างเป็นธรรมชาติ สามารถพูดคุยให้ได้อรรถรสใกล้เคียงกับการพูดคุยกับมนุษย์จริงๆ พร้อมสามารถปรับรายละเอียดรูปแบบสนทนาให้ตรงกับบุคลิกที่กำนด เช่น การพูดอย่างมืออาชีพ พูดแบบเอกอกเอาใจ หรือพูดติดสำเนียงต่างประเทศ
ตัวโมเดลสามารถจับสัญญาณเสียงการพูดคุยระหว่างการสนทนาได้ดียิ่งขึ้น ทั้งในส่วนของเสียงหัวเราะ การสลับภาษาระหว่างบทสนทนา การปรับน้ำเสียงให้เข้ากับเนื้อหาที่กำลังพูด หรือแม้แต่การตรวจสอบทำความเข้าใจตัวเลขและสัญลักษณ์เฉพาะได้ดีขึ้นมาก
gpt-realtime ถูกออกแบบให้ทำความเข้าใจเนื้อหาด้านภาษาได้อย่างแม่นยำใกล้เคียงกับเจ้าของภาษา พร้อมทำความเข้าใจตัวอักษรและอักขระเฉพาะในภาษานั้นๆ เช่น ภาษาจีน ญี่ปุ่น ฝรั่งเศส และสเปนได้อย่างแม่นยำ พร้อมระดับความแม่นยำในแบบทดสอบที่มากถึง 82.8% สูงกว่ารุ่นก่อนที่ 65.6% มาก
อีกหนึ่งจุดเด่นของ gpt-realtime คืออัตราค่าบริการที่ถูกกว่า gpt-4o-realtime-preview มาก ด้วยอัตราการค่าบริการอินพุทที่ 32 ดอลลาร์ ต่อ 1 ล้านโทเคน และเอาพุท 64 ดอลลาร์ ต่อ 1 ล้านโทเคน พร้อมประกาศเปลี่ยนสถานะจาก Preview ให้เข้าสู่สถานะ Available อย่างเป็นทางการ
นี่จึงถือเป็นการเปิดตัวโมเดลสนทนาด้วยเสียงของ OpenAI อย่างเต็มรูปแบบ


