La synthèse vocale
La fonction TTS (Text To Speech) intégrée aux solutions de relations client de SFR vous permet de créer des messages vocaux à partir d’un texte joué par une voix de synthèse féminine. Vous trouverez ci-dessous les règles d’utilisation du « Text To Speech ».
Il est possible de spécifier certains comportements au moteur de synthèse vocale en jouant avec la ponctuation, les sigles ou encore avec des balises html.
- La Ponctuation
La ponctuation joue un rôle capital dans la construction des messages générés. Chaque signe de ponctuation doit obligatoirement être suivi d’un espace.
Le tableau ci-dessous dresse la liste des signes de ponctuations interprétables par le système de TTS et précise leur influence au niveau de l’intonation.
- Les sigles
Il est possible de saisir les sigles ou les acronymes de deux façons :
Le mode abc ou ABC Exemple : cnil ou CNIL sera prononcé : [ cnil ]
Ecriture en mode A B C ou A.B.C. Exemple : C N I L ou C.N.I.L. sera prononcé :
[ c (pause) n (pause) i(pause) l (pause) ]
- Dates et heures
– 19/08/24 sera prononcé : [ dix neuf août deux mille vingt quatre ]
– 12:29 ou 12h29 sera prononcé [ douze heures vingt neuf ]
- L’écriture phonétique (\phone)
Afin d’obtenir le rendu souhaité, il est possible de forcer le moteur de synthèse vocale en lui fournissant le texte à synthétiser de manière phonétique. Ce résultat est possible de deux façons :
– Ecriture du texte tel qu’il se prononce (en ajoutant des accents ou en changeant l’orthographe du mot). Exemple : « Bienvenue au service clientèle. »
– En utilisant la balise « \phone ». Celle-ci permet de spécifier le rendu souhaité d’un mot en décrivant sa prononciation via un alphabet phonétique.
Exemple : « Bienvenue au service cli\phone{« an »t »ai »le »}. »
Le tableau suivant dresse la liste des 35 codes composant l’alphabet phonétique utilisable dans le système de TTS.
- L’insertion de pauses (\pause)
Il est possible de forcer l’insertion d’une pause dans un texte. La durée de cette pause peut être spécifiée en millisecondes, secondes ou en minutes.
Exemples :
« Bonjour \pause{1000ms} le service clientèle … »
« Bonjour \pause{2s} le service clientèle … »
- Modification du ton (\pitch)
Il est possible de modifier le ton de la voix, afin de l’augmenter ou de le baisser. Cela est possible grâce à la balise « \pitch ». La valeur du « pitch » peut être comprise entre -90% (bas) et +400% (haut).
L’utilisation de la valeur 0 permet de réinitialiser le pitch à sa valeur nominale.
Exemple :
« Bonjour\pause{1s} \pitch{+400} le service \pitch{0}clientèle. »
- Modification de la vitesse (\speed)
Il est possible de modifier la vitesse d’élocution de la voix, afin de l’augmenter ou d’abaisser le débit grâce à la balise « \absspeed ». La valeur du « Speed » peut être comprise entre 30 (lent) et 300 (très rapide).
L’utilisation de la valeur 0 permet de réinitialiser la vitesse à sa valeur nominale.
Exemple :
« Bonjour \absspeed{150} et bienvenue au service clientèle \absspeed{50} nous allons donner suite à votre appel. »
- Modification du volume (\absgain)
Il est possible d’augmenter ou d’abaisser le volume de la voix, avec la balise « \absgain ». La valeur du « absgain » peut être comprise entre 0 (silence) et 65535 (très fort).
La valeur par défaut est de 32767.
Exemple :
« Veuillez effectuer \absgain{65535} votre choix \pause{2s} \absgain{10000} maintenant. »
NB : Attention, un volume très élevé peut réduire sensiblement la qualité de la voix de synthèse.
- Epellation (balise \S++ et \S*)
La balise \S++ permet d’épeler un mot, lettre par lettre et la balise \S* met un terme à ce mode.
Exemple :
La phrase « Vous pouvez nous envoyer un mail à contacts@sfr.com en indiquant vos références. Contacts \S++ contacts\S* . Aurevoir.» va permettre d’épeler lettre par lettre le mot contacts pour une meilleure compréhension.