Voicebox est un studio de synthèse vocale open-source et local-first, offrant des fonctionnalités similaires à un DAW pour une synthèse vocale professionnelle. Il permet de cloner des voix, générer de la parole et construire des applications vocales, le tout en local sur votre machine. Contrairement aux services cloud, Voicebox garantit la confidentialité des données, propose des outils professionnels, une flexibilité des modèles (actuellement Qwen3-TTS, avec d'autres modèles en développement), une API pour intégration, et des performances natives grâce à Tauri (Rust). Disponible pour macOS et Windows, il offre des fonctionnalités comme le clonage vocal instantané, une haute fidélité, et une gestion des profils vocaux.
L'article explique comment utiliser l'API SpeechSynthesis pour permettre à un navigateur de lire du texte à voix haute. L'API est accessible via window.speechSynthesis et permet de créer des objets SpeechSynthesisUtterance pour spécifier le texte à lire. L'exemple de code montre comment faire parler le navigateur avec une simple ligne de code. Bien que cette API ne remplace pas les outils d'accessibilité natifs, elle peut les compléter pour améliorer l'expérience utilisateur, notamment pour les personnes malvoyantes.