Voice TTS — démo française
Synthèse vocale streaming basée sur Kyutai Pocket TTS, avec voix clonées personnalisées.
Bonnes pratiques d'écriture pour la synthèse vocale
- Ponctuation = rythme. Virgule = pause courte. Point = pause moyenne. Points de suspension… = suspens. Point d'interrogation ? = montée d'intonation.
- Chiffres en chiffres. « 23 ans » fonctionne bien (le modèle développe en lettres tout seul).
- Acronymes courants en majuscules : « SNCF », « EDF » — le modèle les épelle correctement. Acronymes inhabituels (par ex. « 2RO », « BFC », « SEO ») : tester ; si la prononciation est fausse, transcrire phonétiquement (« Deux-Ro », « Bé-Eff-Cé », « Sé-O »).
- Évitez les majuscules pour crier. Le moteur ne change pas d'intonation ; les modes ci-dessus n'ajustent que le volume.
- Phrases courtes = énergie. Longues = calme.
- Pas d'onomatopées inventées (fiu, pu, bou). Si nécessaire, écrivez-les phonétiquement (fiou, bouh).
- Pas de phrases d'un seul mot (Hmm., Encore.) — risque d'artefacts en fin.
API en bref
Endpoints :
GET /v1/voices Liste des voix
POST /v1/tts/stream Streaming (latence ~200 ms premier chunk)
GET /v1/tts/stream Idem, query params (pour <audio src=…>)
POST /v1/tts Réponse complète (bloquant)
Body :
{ "text": "…", "voice": "jamy", "mode": "normal", "format": "opus" }
Format au choix :
opus ~4 KB/s recommandé (web/android)
mp3 ~8 KB/s universel
wav ~48 KB/s PCM brut
Doc OpenAPI complète : /docs