Gemini 3.1 Flash TTS โมเดลสร้างเสียงล่าสุดจาก Google รองรับ 70 ภาษา
Google เปิดตัว Gemini 3.1 Flash TTS โมเดล AI แปลงข้อความเป็นเสียงพูด ควบคุมอารมณ์ น้ำเสียง และจังหวะได้ละเอียด รองรับมากกว่า 70 ภาษา
Google ประกาศเปิดตัว Gemini 3.1 Flash TTS โมเดล AI ตัวใหม่ที่สามารถแปลงข้อความเป็นเสียงพูด ที่ไม่ได้ทำเพียงการอ่านออกเสียงแต่ยังสามารถควบคุมน้ำเสียง อารมณ์ และจังหวะคำพูดอย่างละเอียด จนสามารถสร้างเสียงพูดที่มีคุณภาพและความสมจริงสูงจากเนื้อหาที่กำหนดได้อย่างแม่นยำ
จุดเด่นสำคัญของโมเดลคือ ขีดความสามารถทางงานเสียง ที่ทำได้ละเอียดและมีความสมจริงสูง ที่มีรายละเอียดของแท็กเสียงมากกว่า 200 รูปแบบ ที่สามารถนำไปปรับแต่งแก้ไขเพิ่มเติมได้ พร้อมรองรับภาษาการใช้งานมากกว่า 70 ภาษา รวมถึงภาษาถิ่น จึงสามารถกำหนดรูปแบบเสียงได้อย่างอิสระ
ขั้นตอนการใช้งานโมเดลเรียบง่าย เริ่มต้นจากเลือกรูปแบบเสียงตั้งต้นและภาษาที่ต้องการจะพูด จากนั้นพิมพ์อธิบายสไตล์หรือรูปแบบตามต้องการ เช่น ฟังง่าย เป็นทางการ หรือเป็นวัยรุ่น พร้อมสามารถกำกับการพูดของโมเดลได้ทั้งจังหวะ อารมณ์ น้ำเสียง และรูปแบบการพูดได้อย่างอิสระ โดยการแทรกรายละเอียดด้วย […] เข้าไปในเนื้อหาโดยตรง
จากขั้นตอนการใช้งานเห็นได้ชัดว่า โมเดลนี้ไม่ใช่เพียงการสร้างเสียงอ่านตามคำบอกอีกต่อไป แต่เปิดโอกาสในการสร้างเสียงคุณภาพสูง ที่ผู้ใช้งานสามารถลงมากำกับดูแลรายละเอียดเชิงลึกได้เอง เพื่อให้ได้เสียงที่มีลูกเล่นรายละเอียดซับซ้อน สามารถนำไปใช้งานในงานหลากหลายรูปแบบ โดยไม่ต้องมาตัดต่อเพิ่มเติมในภายหลังอีกต่อไป
ปัจจุบันโมเดลนี้เริ่มมีการนำไปใช้งานอย่างหลากหลาย ตั้งแต่การสร้างเสีนงบรรยายภายในเกม เสียงประกอบภายในภาพยนตร์โทรทัศน์ สร้างหนังสือเสียง ไปจนในภาคธุรกิจอย่างงานธนาคารและแจ้งเตือนฉุกเฉิน แต่เนื้อหาที่ถูกสร้างขึ้นทั้งหมดจะมีการกำกับด้วยลายน้ำของ SynthID เพื่อความโปร่งใสทุกครั้ง
สำหรับท่านที่สนใจ Gemini 3.1 Flash TTS เปิดให้ใช้งานแล้วบนช่องทาง Google AI Studio แบบจำนวนจำกัด


