Si votre application a besoin d'un moyen de convertir du texte en parole par programmation pour interagir avec les utilisateurs, AWS dispose d'un service géré qui utilise l'apprentissage automatique pour créer des voix réalistes et crédibles qui améliorent considérablement votre expérience utilisateur.
La synthèse vocale neuronale est bien meilleure
Nous ne pouvons pas surestimer cela assez, la synthèse vocale neuronale (TTS) semble fluide et humaine, un peu comme Siri ou Alexa, et le TTS standard semble robotique en comparaison (bien que, certes, toujours tout à fait acceptable).
Vous devez vraiment l'entendre par vous-même. Ecouter cet exemple utilisant le TTS standard.
Maintenant écoute cet exemple utilisant le TTS neuronal. Entendez-vous la différence? Les transitions entre les mots sont beaucoup plus fluides que ce qui peut être réalisé par programme. Lequel souhaitez-vous présenter aux utilisateurs?
Avec Polly, le TTS robotique appartient au passé. Comme la plupart des services AWS, vous êtes facturé en fonction de votre utilisation. Le tarif courant pour le TTS neuronal est de 16 $ par million de caractères de texte. Si vous créez une application conversationnelle, les réponses seront généralement assez courtes, ce qui réduit les coûts.
AWS Polly prend également en charge le TTS standard, qui est quatre fois moins cher et est également utilisé comme solution de secours pour certains langages qui n'ont pas encore de support neuronal. C’est encore assez bon, mais pas tout à fait au niveau du moteur neuronal.
Vous pouvez également fournir à Polly lexiques personnalisés, qui vous permet de modifier la prononciation de certains mots pour personnaliser la réponse que vous obtenez, ou de corriger les erreurs avec le moteur de synthèse vocale. Vous pouvez aussi utiliser Langage de balisage de synthèse vocale (SSML) comme entrée, ce qui donne un contrôle précis sur la sortie.
Pour commencer, rendez-vous sur la console Polly. Ce service est extrêmement simple: donnez simplement à Polly le texte que vous souhaitez convertir, sélectionnez une langue et sélectionnez la voix que vous souhaitez utiliser. Vous pouvez appuyer sur le bouton «Écouter la parole» pour prévisualiser les résultats:
Vous pouvez télécharger le fichier au format MP3 à partir d'ici ou l'enregistrer sur S3. Si vous convertissez plus de 3 000 caractères, vous devrez enregistrer le fichier d'entrée dans S3.
Bien sûr, utiliser un service comme celui-ci à partir de la console n’est pas si utile. Vous êtes beaucoup plus susceptible de vouloir accéder par programmation à l'aide de l'API AWS ou de la CLI. Nous allons couvrir la CLI ici, mais vous pouvez lire le Documentation API pour Polly pour référence sur la façon de configurer cela.
le aws polly
commande contient tous les contrôles pour travailler avec Polly. Vous pouvez obtenir une liste de toutes les voix prises en charge avec décrire-voix
, auquel vous voudrez probablement passer jq
:
aws polly décrire-voix | jq '.Voices'
le synthétiser-discours
La commande convertira le texte, avec quelques options:
aws polly synthétiser-discours - format de sortie mp3 --voice-id Joanna --text 'Texte à lire' example.mp3
Cela télécharge le MP3 localement. Si vous souhaitez créer une tâche qui lit et écrit à partir de S3, utilisez démarrer la tâche de synthèse vocale
:
aws polly start-speech-synthesis-task - moteur neural --region us-west-1 --endpoint-url "https://polly.us-west-1.amazonaws.com/" - format de sortie mp3 --output-s3-bucket-name votre-bucket-name --output-s3-key-prefix facultatif / prefix / path / file --voice-id Joanna - fichier texte: //text_file.txt
Cela lit l'entrée à partir d'un fichier texte sur le disque et les sorties vers le compartiment que vous spécifiez éventuellement sous un dossier spécifique.
Si vous envisagez d'utiliser Polly pour créer un chatbot, vous voudrez peut-être vous pencher sur AWS Lex, un service de chatbot géré qui utilise Polly pour la synthèse vocale.