Speech Config


Saya lanjutkan catatan dari training AI102. Masih tentang fitur untuk generate Suara dari teks. Ketika menggenerate suara, kita bisa mengubah konfigurasi  SpeechConfig untuk  menentukan format audio yang dihasilkan. Ada beberapa jenis output audio yang bisa dipilih, berdasarkan: 1) tipe file audio, 2) sampel rate, 3) bit depth

Format audio yang dipilih ditentukan pada format berikut SpeechSynthesisOutputFormatenumeration. Contohnya SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm.

Untuk menentukan format output digunakan  SetSpeechSynthesisOutputFormat pada obyek SpeechConfig :

speechConfig.SetSpeechSynthesisOutputFormat(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm);

Dokumentasi lengkapnya bisa dilihat disini:

Speech SDK documentation.

Layananan Speech service azure menyediakan juga berbagai tipe suara, diantaranya:

  • Standard voices – suara sinthetik yang dibuat dari sampel audio.
  • Neural voices – suara yang lebih netral dibuat menggunakan deep neural networks.

Suara yang tersedia mengandung kode bahasa-lokasi-nama orangnya. Contohnya  en-GB-George. Untuk mendefinisikan suara ini di SpeechConfig, ubah parameter  SpeechSythesisVoiceNameproperty . Contohnya

speechConfig.SpeechSynthesisVoiceName = “en-GB-George”;

Informasi lebih lanjut tentang suara bisa dilihat disini:  Speech SDK documentation.

Sampai disini dulu, semoga bermanfaat!


Silahkan tuliskan tanggapan, kritik maupun saran