Speech Config

Saya lanjutkan catatan dari training AI102. Masih tentang fitur untuk generate Suara dari teks. Ketika menggenerate suara, kita bisa mengubah konfigurasi SpeechConfig untuk menentukan format audio yang dihasilkan. Ada beberapa jenis output audio yang bisa dipilih, berdasarkan: 1) tipe file audio, 2) sampel rate, 3) bit depth

Format audio yang dipilih ditentukan pada format berikut SpeechSynthesisOutputFormatenumeration. Contohnya SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm.

Untuk menentukan format output digunakan SetSpeechSynthesisOutputFormat pada obyek SpeechConfig :

speechConfig.SetSpeechSynthesisOutputFormat(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm);

Dokumentasi lengkapnya bisa dilihat disini:

Speech SDK documentation.

Layananan Speech service azure menyediakan juga berbagai tipe suara, diantaranya:

Standard voices – suara sinthetik yang dibuat dari sampel audio.
Neural voices – suara yang lebih netral dibuat menggunakan deep neural networks.

Suara yang tersedia mengandung kode bahasa-lokasi-nama orangnya. Contohnya en-GB-George. Untuk mendefinisikan suara ini di SpeechConfig, ubah parameter SpeechSythesisVoiceNameproperty . Contohnya

speechConfig.SpeechSynthesisVoiceName = “en-GB-George”;

Informasi lebih lanjut tentang suara bisa dilihat disini: Speech SDK documentation.

Sampai disini dulu, semoga bermanfaat!

Jul Ismail

Speech Config

Menyukai ini:

Silahkan tuliskan tanggapan, kritik maupun saranBatalkan balasan

Speech Config

Bagikan ini:

Menyukai ini:

Silahkan tuliskan tanggapan, kritik maupun saranBatalkan balasan