AI สร้างเสียงจากข้อความ เนียนจนเหมือนคนพูดจริง! - สำนักคอมพิวเตอร์และเทคโนโลยีสารสนเทศ มจพ.

แพลตฟอร์มที่เปิดให้ทุกคนเข้าถึงความสามารถของ AI ล้ำๆ จาก Google เพื่อสร้างสรรค์ผลงานได้หลากหลายทั้งการสร้างภาพ สร้างเสียงดนตรี และหนึ่งความสามารถที่นำมาเสนอให้ทุกคนได้ลองใช้งานคือ “Gemini speech generation” เป็นเครื่องมือในการสร้างเสียงพูดคุณภาพสูงได้ง่ายๆ เพียงแค่พิมพ์ข้อความ

เลือกรูปแบบเสียง (Mode)

Single-specker audio การใช้เสียงผู้พูดเพียงคนเดียวตลอดทั้งข้อความที่เราสร้าง ไม่ว่าจะเป็นข้อความยาวหรือสั้น ระบบจะคงโทนเสียงเดิม ทำให้ฟังต่อเนื่องและเข้าใจง่าย เหมาะสำหรับ

คลิปบรรยาย
วิดีโอสอน
คอนเทนต์พากษ์เสียงที่ต้องการโทนเดียวต่อเนื่อง
การอ่านบทความ ข่าว หรือ Podcast สั้นๆ

Multi-specker audio การใช้เสียง 2 คน พูดสลับกัน ผู้ใช้สามารถเลือกเสียงผู้พูดที่แตกต่างกันได้ เพื่อให้งานมีความสมจริงและน่าสนใจมากขึ้น เหมือนกำลังฟังบทสนทนาจากคนจริงๆ

การจำลองบทสนทนา (เช่น สองคนคุยกัน)
สร้างคอนเทนต์แนว ละครเสียง, Podcast ที่มีแขกรับเชิญ
ใช้งานนำเสนอที่ต้องการความหลากหลายโทนเสียง เพื่อไม่ให้เสียงจำเจ

“Style instructions” (คำสั่งสไตล์เสียง)

คือช่องที่ให้ผู้ใช้ใส่คำอธิบายสั้น ๆ เพื่อบอก AI ว่าอยากให้เสียงที่สร้างออกมา พูดในโทนแบบไหน หรือมีสไตล์การอ่านอย่างไร เช่น

“Read aloud in a warm and friendly tone” (เสียงจะออกมาอบอุ่น เป็นมิตร เหมาะกับการเล่าเรื่อง)
“Speak in a professional and confident tone” (เหมาะกับงานพรีเซนต์หรือโฆษณาที่ต้องการความน่าเชื่อถือ)
“Narrate in an excited and energetic tone” (เหมาะกับงานโปรโมชันหรือโฆษณาที่ต้องการความเร้าใจ)

“Text” (ข้อความที่จะเปลี่ยนเป็นเสียง)

คือพื้นที่ให้ผู้ใช้พิมพ์หรือวางข้อความที่ต้องการให้ระบบเปลี่ยนเป็นเสียงพูด (Text-to-Speech: TTS) โดย AI จะอ่านตามข้อความที่ใส่เข้าไป แล้วสร้างไฟล์เสียงออกมาตาม Mode และ Style instructions ที่กำหนดไว้

Trick : ให้เว้นบรรทัดให้เหมาะสม และแบ่งวรรคตอนเพื่อเสียงพูดที่เป็นธรรมชาติ

รุ่นของ AI ที่จะใช้สร้างเสียง

Gemini 2.5 Pro Preview TTS จะมีจุดเด่นในคุณภาพเสียงและความเป็นธรรมชาติ แสดงอารมณ์ได้ซับซ้อนและละเอียดอ่อน เหมาะกับงานที่เน้นคุณภาพเสียงเป็นอันดับแรก เช่น Poccast หรือ วิดีโอคุณภาพสูง
Gemini 2.5 Flash Preview TTS จุดเด่นความเร็วในการสร้างเสียงที่เป็นธรรมชาติในระดับพื้นฐาน เหมาะสมกับงานเน้นความเร็วและการโต้ตอบแบบทันที เช่น ระบบนำทาง หรือระบบตอบรับอัตโนมัติ

Temperature (ปรับระดับความสร้างสรรค์ของเสียง)

ค่า Temperature ต่ำ (ใกล้ 0): เสียงที่ได้มีความสม่ำเสมอและคาดเดาได้มากขึ้น เหมาะสำหรับงานที่ต้องการความถูกต้องและเป็นทางการ เช่น การอ่านข่าว หรือการสร้างเสียงสำหรับเอกสารที่เป็นข้อเท็จจริง

ค่า Temperature สูง (ใกล้ 1 หรือสูงกว่า): เสียงที่ได้มีความหลากหลาย มีโทนเสียง จังหวะ และการเน้นคำที่แตกต่างกันออกไป เหมาะสำหรับงานที่ต้องการความสร้างสรรค์และความเป็นธรรมชาติ เช่น การเล่านิทาน การสร้างบทสนทนา หรือการสร้างเสียงที่มีอารมณ์

เลือกเสียงพูด (Voice)

คือส่วนที่ใช้สำหรับเลือกเสียงผู้พูด ในปัจจุบันมีเสียงให้เลือกมากถึง 30 เสียง มีทั้งเสียงผู้ชายและเสียงผู้หญิง มีโทนเสียงและสำเนียงหลากหลาย มีความสูงและความต่ำของเสียงที่แตกต่างกันไป โดยจะทำงานสอดคล้องกับ “Style Instructions” ที่ใช้สำหรับกำหนดอารมณ์และวิธีอ่านให้กับเสียงนั้นๆ

ปุ่ม “Run”

เมื่อพิมพ์หรือวางข้อความเสร็จสิ้นให้กดปุ่ม Run ระบบจะประมวลผลร่วมกับการตั้งค่าที่คุณเลือกไว้ในส่วนของ Mode, Temperature, Style Instructions และ Voice และหลังจากที่ประมวลผลเสร็จ ระบบจะสร้างไฟล์เสียงพูดขึ้นมา คุณสามารถที่จะฟังเสียงที่สร้างขึ้นได้ทันที ร่วมถึงมีตัวเลือกให้ดาวน์โหลดเสียงเพื่อเก็บไว้ใช้งานต่อไป