Voice Chapitre 9 - La synthèse vocale au service de la voix

Cet article est une traduction de l'article du blog continuant l'épopée de l'implémentation de la voix dans Home Assistant, rédigé par Mike Hansen, publié sur le site Home-Assistant.

Cet article est la suite de Voice CHapitre 8, déjà traduit par HACF :

Place à l'article du blog Home Assistant :

Bienvenue dans le chapitre 9 de Voice 🎉, faisant partie de notre série de longue date suivant le développement de la voix ouverte.

Nous sommes toujours enthousiastes après le lancement de l'édition préliminaire de Home Assistant Voice à la fin décembre. Elle s'est vendue en 23 minutes après notre annonce - waouh ! Nous avons travaillé dur pour la maintenir en stock chez tous nos distributeurs.

Aujourd'hui, nous avons beaucoup de choses intéressantes pour améliorer votre expérience avec Voice PE ou tout autre satellite Assist que vous utilisez. Cela inclut un contrôle vocal entièrement local et hors ligne qui peut être alimenté par presque n'importe quel système Home Assistant.

Dragon NaturallySpeaking était un programme de reconnaissance vocale populaire introduit en 1997. Pour exécuter ce logiciel, vous aviez besoin d'au moins un processeur Pentium 133 MHz, 32 Mo de RAM, et Windows 95 ou ultérieur. Près de trente ans plus tard, la reconnaissance vocale est bien meilleure, mais nécessite des ressources bien plus importantes.

Des technologies incroyables sont développées dans le traitement de la parole, mais il est actuellement irréaliste pour un appareil coûtant moins de 100 $ d'en tirer pleinement parti. C'est possible, bien sûr, mais l'exécution de l'outil de reconnaissance vocale précédemment recommandé, Whisper, sur un Raspberry Pi 4 prend au moins 5 secondes pour transformer votre parole en texte, avec des niveaux de réussite variables. C'est pourquoi nous avons fini par recommander au moins un Intel N100 pour exécuter votre assistant vocal entièrement localement. Cela faisait mal. Nos analyses montrent que plus de 50 % des utilisateurs de Home Assistant OS gèrent leurs maisons sur des machines peu coûteuses et peu puissantes comme le Home Assistant Green ou un Raspberry Pi.

De plus, l'avancement du développement de Whisper est largement entre les mains d'OpenAI, car nous n'avons pas les ressources nécessaires pour ajouter des langues à cet outil. Nous pourrions ajouter toutes les langues possibles à Home Assistant, mais si une seule partie de notre pipeline vocal manque de support linguistique, cela rend la voix inutilisable pour cette langue. En conséquence, de nombreuses langues largement parlées n'étaient pas supportées pour le contrôle vocal local.

Cela laissait de nombreux utilisateurs incapables d'utiliser la voix pour contrôler leur maison intelligente sans acheter du matériel ou des services supplémentaires. Nous changeons cela aujourd'hui avec le lancement d'une nouvelle pièce clé de notre pipeline vocal.

La voix pour tous

Speech-to-Phrase est basé sur une ancienne technologie vocale, presque antique selon les standards actuels. Au lieu de pouvoir transcrire pratiquement n'importe quelle parole en texte, il est limité à un ensemble de phrases pré-entraînées. Speech-to-Phrase générera automatiquement les phrases et affinera un modèle basé sur les appareils, les zones et les déclencheurs de phrases de votre serveur Home Assistant - 100 % localement et hors ligne.

Le résultat : la parole transcrite en moins d'une seconde sur un Home Assistant Green ou Raspberry Pi 4. Le Raspberry Pi 5 traite les commandes sept fois plus vite, en 150 millisecondes par commande !

Avec une grande vitesse viennent certaines limitations. Speech-to-Phrase ne supporte qu'un sous-ensemble des commandes vocales d'Assist, et des choses plus ouvertes comme les listes de courses, la dénomination d'un minuteur et les diffusions ne sont pas utilisables dès la sortie de la boîte. En fait, toute commande pouvant accepter des mots aléatoires (jokers) ne fonctionnera pas. Pour les mêmes raisons, Speech-to-Phrase est destiné uniquement au contrôle domestique et non aux LLM.

Les commandes de contrôle domestique les plus importantes sont supportées, y compris l'allumage et l'extinction des lumières, le changement de luminosité et de couleur, la consultation de la météo, la définition de minuteurs et le contrôle des lecteurs multimédia. Des phrases personnalisées peuvent également être ajoutées pour déclencher des choses non couvertes par les commandes actuelles, et nous nous attendons à ce que la communauté trouve de nouvelles façons astucieuses d'utiliser cette technologie.

Tout ce dont vous avez besoin pour commencer avec la voix

Speech-to-Phrase est lancé avec la prise en charge de l'anglais, du français, de l'allemand, du néerlandais, de l'espagnol et de l'italien - couvrant près de 70 % des utilisateurs de Home Assistant. Sympa. Contrairement aux outils de reconnaissance vocale locaux actuellement disponibles, l'ajout de langues à Speech-to-Phrase est beaucoup plus facile. Cela signifie que de nombreuses autres langues seront disponibles dans les prochaines versions, et nous aimerions votre aide pour les ajouter !

Nous travaillons à la mise à jour de l'assistant vocal pour inclure Speech-to-Phrase. En attendant, vous devez installer l'add-on manuellement :

Construire un écosystème vocal ouvert

Lorsque nous avons lancé Home Assistant Voice Preview Edition, nous n'avons pas seulement lancé un produit ; nous avons lancé un écosystème. Nous avons fait cela en open-sourçant toutes les parties et en nous assurant que l'expérience vocale intégrée à Home Assistant n'est pas liée à un seul produit. Tout assistant vocal construit pour l'écosystème Open Home peut tirer parti de tout ce travail. Même vos assistants DIY !

Avec ESPHome 2025.2, que nous publierons la semaine prochaine, tout assistant vocal basé sur ESPHome prendra en charge la réalisation de diffusions (plus d'informations ci-dessous), et ils pourront également utiliser notre nouvel assistant vocal pour s'assurer que les nouveaux utilisateurs disposent de tout ce dont ils ont besoin pour commencer.

Cela inclura des mises à jour pour les appareils Atom Echo à 13 $ et ESP32-S3-Box-3 que nous avons utilisés pour le développement pendant l'année de la voix !

Nouvelle fonctionnalité de diffusion en action avec Atom et Box 3

Améliorations du modèle linguistique large

Nous visons à faire de Home Assistant le lieu d'expérimentation avec l'IA dans la maison intelligente. Nous supportons une large gamme de modèles, à la fois locaux et basés sur le cloud, et améliorons constamment les différentes façons dont les gens peuvent interagir avec eux. Nous exécutons toujours des benchmarks pour suivre les meilleurs modèles et nous assurer que nos changements conduisent à une expérience améliorée.

Si vous configurez Assist, l'assistant vocal intégré de Home Assistant, et que vous le configurez pour utiliser un LLM, vous avez peut-être remarqué certaines nouvelles fonctionnalités récemment arrivées. Un changement majeur a été le nouveau paramètre « préférer le traitement des commandes localement », qui tente toujours d'exécuter les commandes avec l'agent de conversation intégré avant de les envoyer à un LLM. Nous avons remarqué que de nombreuses commandes faciles à exécuter étaient envoyées à un LLM, ce qui pouvait ralentir les choses et gaspiller des jetons. Si Home Assistant comprend la commande (par exemple, allumer les lumières), il exécutera l'action nécessaire et ne la transmettra à votre LLM choisi que s'il ne comprend pas la commande (par exemple, quelle est la qualité de l'air maintenant).

L'ajout des fonctionnalités ci-dessus nous a fait réaliser que les LLM doivent comprendre les commandes traitées localement. Désormais, l'historique des conversations est partagé avec le LLM. Le contexte vous permet de poser au LLM des questions de suivi qui font référence à des commandes récentes, que le LLM ait aidé ou non à traiter la demande.

À gauche : sans conversations partagées. À droite : les conversations partagées permettent à GPT de comprendre le contexte.

Réduction du temps jusqu'au premier mot avec le streaming

Lors de l'expérimentation avec des modèles plus volumineux, ou sur du matériel plus lent, les LLM peuvent sembler lents. Ils ne répondent qu'une fois que toute la réponse est générée, ce qui peut prendre longtemps pour les réponses longues (vous attendrez un moment si vous lui demandez de vous raconter un conte de fées épique).

Dans Home Assistant 2025.3, nous introduisons la prise en charge du streaming des réponses des LLM vers le chat, permettant aux utilisateurs de commencer à lire pendant que la réponse est générée. Un effet secondaire bonus est que les commandes sont également plus rapides : elles seront exécutées dès qu'elles arriveront, sans attendre que le reste du message soit complet.

Le streaming arrive initialement pour Ollama et OpenAI.

Le protocole Model Context Protocol amène Home Assistant à chaque IA

En novembre 2024, Anthropic a annoncé le Model Context Protocol (MCP). Il s'agit d'un nouveau protocole permettant aux LLM de contrôler des services externes. Dans cette version, contribuée par Allen Porter, Home Assistant peut parler MCP.

En utilisant la nouvelle intégration Model Context Protocol, Home Assistant peut intégrer des serveurs MCP externes et rendre leurs outils disponibles pour les LLM avec lesquels Home Assistant communique (pour votre assistant vocal ou dans des automatisations). Il existe une belle collection de serveurs MCP, y compris des serveurs sauvages comme le scraping de sites web (tutoriel), l'accès aux serveurs de fichiers, ou même BlueSky.

Avec la nouvelle intégration de serveur Model Context Protocol, les outils LLM de Home Assistant peuvent être inclus dans d'autres applications d'IA, comme l'application de bureau Claude (tutoriel). Si les agents d'IA décollent, votre maison intelligente sera prête à être intégrée.

Merci Allen !

Étendre les capacités vocales

Nous continuons à améliorer les capacités de l'agent de conversation intégré de Home Assistant. Avec la dernière version, nous débloquons deux nouvelles fonctionnalités :

« Diffusez que c'est l'heure du dîner »

La nouvelle fonctionnalité de diffusion vous permet d'envoyer rapidement des messages aux autres satellites Assist de votre maison. Cela permet d'annoncer que c'est l'heure du dîner, ou d'annoncer des batailles entre vos enfants 😄.

« Réglez la température à 19 degrés »

Auparavant, Assist ne pouvait que vous indiquer la température, mais maintenant il peut vous aider à changer la température de votre système HVAC. Parfait pour changer la température tout en restant confortablement sous une couverture chaude.

Home Assistant appelle à la maison : les téléphones analogiques sont de retour !

Il y a deux ans, nous avons présenté l'assistant vocal le plus privé au monde : un téléphone analogique ! Les utilisateurs peuvent le décrocher pour parler à leur maison intelligente, et seul l'utilisateur peut entendre la réponse. Une fonctionnalité amusante que nous ajoutons aujourd'hui est que Home Assistant peut maintenant appeler votre téléphone analogique !

Les téléphones analogiques sont parfaits lorsque vous souhaitez notifier une pièce, plutôt qu'une maison entière. Par exemple, lorsque le linge est terminé, vous pouvez en informer quelqu'un dans le salon, mais pas dans le bureau. De plus, comme l'utilisateur doit décrocher le combiné pour recevoir l'appel, vous saurez si votre notification a été reçue.

Faites appel à Home Assistant

Si vous utilisez un LLM comme assistant vocal, vous pouvez également démarrer une conversation à partir d'un appel téléphonique. Vous pouvez fournir la phrase d'ouverture et, via une nouvelle option « invite système supplémentaire », fournir un contexte supplémentaire au LLM pour interpréter la réponse de l'utilisateur. Par exemple :

Contexte système supplémentaire : le capteur de porte de garage cover.garage_door a été laissé ouvert pendant 30 minutes. Nous avons demandé à l'utilisateur s'il devait être fermé
Assistant : la porte de garage doit-elle être fermée ?
Utilisateur : oui

Merci JaminH pour la contribution.

Améliorations Wyoming

Wyoming est notre standard pour relier toutes les différentes parties nécessaires à la construction d'un assistant vocal. Home Assistant 2025.3 ajoutera la prise en charge des annonces aux satellites Wyoming, les rendant éligibles pour la nouvelle fonctionnalité de diffusion également.

Nous ajoutons également un nouvel add-on microWakeWord (le même moteur de mot de réveil fonctionnant sur Voice PE !) qui peut être utilisé comme alternative à openWakeWord. À mesure que nous collectons plus d'échantillons du monde réel à partir de notre Wake Word Collective, les modèles inclus dans microWakeWord seront ré-entraînés et améliorés.

Aidez-nous à apporter le choix à la voix !

Nous l'avons dit avant, et nous le répéterons - l'ère de la voix ouverte a commencé, et plus il y a de personnes qui nous rejoignent, mieux c'est. Home Assistant offre de nombreuses façons de commencer avec le contrôle vocal, que ce soit en construisant votre propre matériel Assist ou en obtenant une Preview Edition de Home Assistant Voice. Avec chaque mise à jour, vous verrez de nouvelles fonctionnalités, et vous aurez un aperçu de l'avenir de la voix d'aujourd'hui.

Un immense merci à tous les leaders linguistiques et contributeurs qui aident à façonner la voix ouverte à la maison ! Il existe de nombreuses façons de s'impliquer, de la traduction ou du partage d'échantillons vocaux à la création de nouvelles fonctionnalités - en savoir plus sur la façon dont vous pouvez contribuer ici. Une autre excellente façon de soutenir le développement est de s'abonner à Home Assistant Cloud, qui aide à financer les projets Open Home qui alimentent la voix.

Voice Chapitre 9 - La synthèse vocale au service de la voix

Sommaire

La voix pour tous

Construire un écosystème vocal ouvert

Améliorations du modèle linguistique large

Réduction du temps jusqu'au premier mot avec le streaming

Le protocole Model Context Protocol amène Home Assistant à chaque IA

Étendre les capacités vocales

« Diffusez que c'est l'heure du dîner »

« Réglez la température à 19 degrés »

Home Assistant appelle à la maison : les téléphones analogiques sont de retour !

Améliorations Wyoming

Aidez-nous à apporter le choix à la voix !

Migrer vers la Home Assistant Green Box

Le Détecteur de Fumée AQARA SD-S01D

Voice Chapitre 9 - La synthèse vocale au service de la voix

Sommaire

La voix pour tous

Construire un écosystème vocal ouvert

Améliorations du modèle linguistique large

Réduction du temps jusqu'au premier mot avec le streaming

Le protocole Model Context Protocol amène Home Assistant à chaque IA

Étendre les capacités vocales

« Diffusez que c'est l'heure du dîner »

« Réglez la température à 19 degrés »

Home Assistant appelle à la maison : les téléphones analogiques sont de retour !

Améliorations Wyoming

Aidez-nous à apporter le choix à la voix !

Migrer vers la Home Assistant Green Box

Le Détecteur de Fumée AQARA SD-S01D

You might also like

2026.6 : Choisis une carte, n'importe laquelle

Résultats du concours le Printemps du dashboard 2026

2026.5 : On est sur la même longueur d'onde maintenant

2026.4 : l'infrarouge n'a jamais fini de parler