Saya lanjutkan catatan dari training AI102. Masih tentang fitur untuk generate Suara dari teks. Ketika menggenerate suara, kita bisa mengubah konfigurasi SpeechConfig untuk menentukan format audio yang dihasilkan. Ada beberapa jenis output audio yang bisa dipilih, berdasarkan: 1) tipe file audio, 2) sampel rate, 3) bit depth
Format audio yang dipilih ditentukan pada format berikut SpeechSynthesisOutputFormatenumeration. Contohnya SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm.
Untuk menentukan format output digunakan SetSpeechSynthesisOutputFormat pada obyek SpeechConfig :
speechConfig.SetSpeechSynthesisOutputFormat(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm);
Dokumentasi lengkapnya bisa dilihat disini:
Layananan Speech service azure menyediakan juga berbagai tipe suara, diantaranya:
- Standard voices – suara sinthetik yang dibuat dari sampel audio.
- Neural voices – suara yang lebih netral dibuat menggunakan deep neural networks.
Suara yang tersedia mengandung kode bahasa-lokasi-nama orangnya. Contohnya en-GB-George. Untuk mendefinisikan suara ini di SpeechConfig, ubah parameter SpeechSythesisVoiceNameproperty . Contohnya
speechConfig.SpeechSynthesisVoiceName = “en-GB-George”;
Informasi lebih lanjut tentang suara bisa dilihat disini: Speech SDK documentation.
Sampai disini dulu, semoga bermanfaat!
Tinggalkan Balasan