AI สร้างเสียงจากข้อความ เนียนจนเหมือนคนพูดจริง!

gemini speech generation

แพลตฟอร์มที่เปิดให้ทุกคนเข้าถึงความสามารถของ  AI ล้ำๆ จาก Google เพื่อสร้างสรรค์ผลงานได้หลากหลายทั้งการสร้างภาพ สร้างเสียงดนตรี และหนึ่งความสามารถที่นำมาเสนอให้ทุกคนได้ลองใช้งานคือ “Gemini speech generation” เป็นเครื่องมือในการสร้างเสียงพูดคุณภาพสูงได้ง่ายๆ เพียงแค่พิมพ์ข้อความ

gemini speech generation

เลือกรูปแบบเสียง (Mode)

Single-specker audio การใช้เสียงผู้พูดเพียงคนเดียวตลอดทั้งข้อความที่เราสร้าง ไม่ว่าจะเป็นข้อความยาวหรือสั้น ระบบจะคงโทนเสียงเดิม ทำให้ฟังต่อเนื่องและเข้าใจง่าย เหมาะสำหรับ

  • คลิปบรรยาย
  • วิดีโอสอน
  • คอนเทนต์พากษ์เสียงที่ต้องการโทนเดียวต่อเนื่อง
  • การอ่านบทความ ข่าว หรือ Podcast สั้นๆ

Multi-specker audio การใช้เสียง 2 คน พูดสลับกัน ผู้ใช้สามารถเลือกเสียงผู้พูดที่แตกต่างกันได้ เพื่อให้งานมีความสมจริงและน่าสนใจมากขึ้น เหมือนกำลังฟังบทสนทนาจากคนจริงๆ

  • การจำลองบทสนทนา (เช่น สองคนคุยกัน)
  • สร้างคอนเทนต์แนว ละครเสียง, Podcast ที่มีแขกรับเชิญ
  • ใช้งานนำเสนอที่ต้องการความหลากหลายโทนเสียง เพื่อไม่ให้เสียงจำเจ
gemini speech generation

“Style instructions” (คำสั่งสไตล์เสียง)

คือช่องที่ให้ผู้ใช้ใส่คำอธิบายสั้น ๆ เพื่อบอก AI ว่าอยากให้เสียงที่สร้างออกมา พูดในโทนแบบไหน หรือมีสไตล์การอ่านอย่างไร เช่น

  • “Read aloud in a warm and friendly tone” (เสียงจะออกมาอบอุ่น เป็นมิตร เหมาะกับการเล่าเรื่อง)
  • “Speak in a professional and confident tone” (เหมาะกับงานพรีเซนต์หรือโฆษณาที่ต้องการความน่าเชื่อถือ)
  • “Narrate in an excited and energetic tone” (เหมาะกับงานโปรโมชันหรือโฆษณาที่ต้องการความเร้าใจ)
gemini speech generation

“Text” (ข้อความที่จะเปลี่ยนเป็นเสียง)

คือพื้นที่ให้ผู้ใช้พิมพ์หรือวางข้อความที่ต้องการให้ระบบเปลี่ยนเป็นเสียงพูด (Text-to-Speech: TTS) โดย AI จะอ่านตามข้อความที่ใส่เข้าไป แล้วสร้างไฟล์เสียงออกมาตาม Mode และ Style instructions ที่กำหนดไว้

Trick : ให้เว้นบรรทัดให้เหมาะสม และแบ่งวรรคตอนเพื่อเสียงพูดที่เป็นธรรมชาติ

gemini speech generation

รุ่นของ AI ที่จะใช้สร้างเสียง

  • Gemini 2.5 Pro Preview TTS จะมีจุดเด่นในคุณภาพเสียงและความเป็นธรรมชาติ แสดงอารมณ์ได้ซับซ้อนและละเอียดอ่อน เหมาะกับงานที่เน้นคุณภาพเสียงเป็นอันดับแรก เช่น Poccast หรือ วิดีโอคุณภาพสูง
  • Gemini 2.5 Flash Preview TTS จุดเด่นความเร็วในการสร้างเสียงที่เป็นธรรมชาติในระดับพื้นฐาน เหมาะสมกับงานเน้นความเร็วและการโต้ตอบแบบทันที เช่น ระบบนำทาง หรือระบบตอบรับอัตโนมัติ
gemini speech generation

Temperature (ปรับระดับความสร้างสรรค์ของเสียง)

ค่า Temperature ต่ำ (ใกล้ 0): เสียงที่ได้มีความสม่ำเสมอและคาดเดาได้มากขึ้น เหมาะสำหรับงานที่ต้องการความถูกต้องและเป็นทางการ เช่น การอ่านข่าว หรือการสร้างเสียงสำหรับเอกสารที่เป็นข้อเท็จจริง

ค่า Temperature สูง (ใกล้ 1 หรือสูงกว่า): เสียงที่ได้มีความหลากหลาย มีโทนเสียง จังหวะ และการเน้นคำที่แตกต่างกันออกไป เหมาะสำหรับงานที่ต้องการความสร้างสรรค์และความเป็นธรรมชาติ เช่น การเล่านิทาน การสร้างบทสนทนา หรือการสร้างเสียงที่มีอารมณ์

gemini speech generation

เลือกเสียงพูด (Voice)

คือส่วนที่ใช้สำหรับเลือกเสียงผู้พูด ในปัจจุบันมีเสียงให้เลือกมากถึง 30 เสียง มีทั้งเสียงผู้ชายและเสียงผู้หญิง มีโทนเสียงและสำเนียงหลากหลาย มีความสูงและความต่ำของเสียงที่แตกต่างกันไป โดยจะทำงานสอดคล้องกับ “Style Instructions” ที่ใช้สำหรับกำหนดอารมณ์และวิธีอ่านให้กับเสียงนั้นๆ

gemini speech generation

ปุ่ม “Run”

เมื่อพิมพ์หรือวางข้อความเสร็จสิ้นให้กดปุ่ม  Run ระบบจะประมวลผลร่วมกับการตั้งค่าที่คุณเลือกไว้ในส่วนของ Mode, Temperature, Style Instructions  และ Voice และหลังจากที่ประมวลผลเสร็จ ระบบจะสร้างไฟล์เสียงพูดขึ้นมา คุณสามารถที่จะฟังเสียงที่สร้างขึ้นได้ทันที ร่วมถึงมีตัวเลือกให้ดาวน์โหลดเสียงเพื่อเก็บไว้ใช้งานต่อไป

Scroll to Top