Voice TTS — démo française

Synthèse vocale streaming basée sur Kyutai Pocket TTS, avec voix clonées personnalisées.

Bonnes pratiques d'écriture pour la synthèse vocale
  1. Ponctuation = rythme. Virgule = pause courte. Point = pause moyenne. Points de suspension… = suspens. Point d'interrogation ? = montée d'intonation.
  2. Chiffres en chiffres. « 23 ans » fonctionne bien (le modèle développe en lettres tout seul).
  3. Acronymes courants en majuscules : « SNCF », « EDF » — le modèle les épelle correctement. Acronymes inhabituels (par ex. « 2RO », « BFC », « SEO ») : tester ; si la prononciation est fausse, transcrire phonétiquement (« Deux-Ro », « Bé-Eff-Cé », « Sé-O »).
  4. Évitez les majuscules pour crier. Le moteur ne change pas d'intonation ; les modes ci-dessus n'ajustent que le volume.
  5. Phrases courtes = énergie. Longues = calme.
  6. Pas d'onomatopées inventées (fiu, pu, bou). Si nécessaire, écrivez-les phonétiquement (fiou, bouh).
  7. Pas de phrases d'un seul mot (Hmm., Encore.) — risque d'artefacts en fin.
API en bref
Endpoints :
  GET  /v1/voices             Liste des voix
  POST /v1/tts/stream         Streaming (latence ~200 ms premier chunk)
  GET  /v1/tts/stream         Idem, query params (pour <audio src=…>)
  POST /v1/tts                Réponse complète (bloquant)

Body :
  { "text": "…", "voice": "jamy", "mode": "normal", "format": "opus" }

Format au choix :
  opus  ~4 KB/s   recommandé (web/android)
  mp3   ~8 KB/s   universel
  wav   ~48 KB/s  PCM brut

Doc OpenAPI complète : /docs