Voice TTS — démo française

Synthèse vocale streaming basée sur Kyutai Pocket TTS, avec voix clonées personnalisées.

Voix

Mode (volume)

Format

Token API (facultatif)

Texte à synthétiser

Bonnes pratiques d'écriture pour la synthèse vocale

Ponctuation = rythme. Virgule = pause courte. Point = pause moyenne. Points de suspension… = suspens. Point d'interrogation ? = montée d'intonation.
Chiffres en chiffres. « 23 ans » fonctionne bien (le modèle développe en lettres tout seul).
Acronymes courants en majuscules : « SNCF », « EDF » — le modèle les épelle correctement. Acronymes inhabituels (par ex. « 2RO », « BFC », « SEO ») : tester ; si la prononciation est fausse, transcrire phonétiquement (« Deux-Ro », « Bé-Eff-Cé », « Sé-O »).
Évitez les majuscules pour crier. Le moteur ne change pas d'intonation ; les modes ci-dessus n'ajustent que le volume.
Phrases courtes = énergie. Longues = calme.
Pas d'onomatopées inventées (fiu, pu, bou). Si nécessaire, écrivez-les phonétiquement (fiou, bouh).
Pas de phrases d'un seul mot (Hmm., Encore.) — risque d'artefacts en fin.

API en bref

Endpoints :
  GET  /v1/voices             Liste des voix
  POST /v1/tts/stream         Streaming (latence ~200 ms premier chunk)
  GET  /v1/tts/stream         Idem, query params (pour <audio src=…>)
  POST /v1/tts                Réponse complète (bloquant)

Body :
  { "text": "…", "voice": "jamy", "mode": "normal", "format": "opus" }

Format au choix :
  opus  ~4 KB/s   recommandé (web/android)
  mp3   ~8 KB/s   universel
  wav   ~48 KB/s  PCM brut

Doc OpenAPI complète : /docs