
Les progrès réalisés dans le domaine des ICO visent depuis longtemps à rétablir, entre autres, la communication chez les personnes atteintes de troubles de la parole. Une étape importante dans cette direction a été franchie en 2023 par des scientifiques de l'université Duke. Les chercheurs de Duke ont en effet mis au point un implant cérébral qui permettrait de communiquer à partir de la seule pensée. Ce système serait capable de décoder les signaux neuronaux pour prédire la parole. Publiée dans Nature Communications, leur recherche a démontré comment les signaux cérébraux du centre de la parole dans le cerveau pouvaient être traduits en mots, offrant ainsi une bouée de sauvetage potentielle aux personnes souffrant de troubles neurologiques.
Ces dernières années, la course aux implants cérébraux s'est intensifiée et de nombreuses entreprises se sont empressées d'implanter leurs dispositifs dans le cerveau de sujets humains. Autrefois dominé par Neuralink d'Elon Musk, le secteur des interfaces cerveau-ordinateur comprend aujourd'hui des entreprises comme Synchron et Forest Neurotec, qui travaillent toutes deux sur des puces implantables conçues pour faciliter la communication neuronale directe. Toutefois, malgré l'intérêt croissant des investisseurs, des problèmes d'éthique et de sécurité persistent. En effet, les entreprises doivent encore fournir des garanties définitives quant aux risques à long terme d'une technologie aussi invasive.
Ce 31 mars 2025, une équipe de chercheurs de l'université de Berkeley et de l'université de Californie à San Francisco a trouvé un nouveau moyen de restaurer la parole naturelle pour les personnes souffrant de paralysie grave, marquant une avancée dans le domaine des interfaces cerveau-ordinateur.
Leur travail résout le problème de longue date de la latence des neuroprothèses vocales, c'est-à-dire le décalage entre le moment où un sujet tente de parler et le moment où le son est produit. Grâce aux progrès récents de la modélisation basée sur l'intelligence artificielle (IA), les chercheurs ont mis au point une méthode de streaming (diffusion en continu) qui synthétise les signaux cérébraux en paroles audibles en temps quasi réel.
Comme indiquée dans la revue Nature Neuroscience, cette technologie représente une étape essentielle pour permettre la communication aux personnes qui ont perdu l'usage de la parole. L'étude est soutenue par le National Institute on Deafness and Other Communication Disorders (NIDCD) des National Institutes of Health.
« Notre approche du streaming apporte aux neuroprothèses la même capacité de décodage rapide de la parole que des appareils comme Alexa et Siri », a déclaré Gopala Anumanchipalli, Robert E. and Beverly A. Brooks assistant professor en génie électrique et sciences informatiques à l'UC Berkeley et co-chercheur principal de l'étude. « En utilisant un type d'algorithme similaire, nous avons découvert que nous pouvions décoder les données neuronales et, pour la première fois, permettre un streaming vocal quasi synchrone. Le résultat est une synthèse vocale plus naturaliste et plus fluide ».
Les chercheurs ont également montré que leur approche pouvait fonctionner avec une variété d'autres interfaces de détection cérébrale, y compris les réseaux de microélectrodes (MEA) dans lesquels les électrodes pénètrent la surface du cerveau, ou les enregistrements non invasifs (sEMG) qui utilisent des capteurs sur le visage pour mesurer l'activité musculaire.
« En démontrant la précision de la synthèse cerveau-voix sur d'autres ensembles de données de parole silencieuse, nous avons montré que cette technique n'est pas limitée à un type d'appareil spécifique », a déclaré Kaylo Littlejohn, doctorant au département de génie électrique et d'informatique de l'UC Berkeley et co-auteur principal de l'étude. « Le même algorithme peut être utilisé pour différentes modalités, à condition qu'il y ait un bon signal. »
Décodage des données neuronales en paroles
Selon le co-auteur principal de l'étude, Cheol Jun Cho, qui est également doctorant en génie électrique et sciences informatiques à l'UC Berkeley, la neuroprothèse fonctionne en échantillonnant les données neuronales du cortex moteur, la partie du cerveau qui contrôle la production de la parole, puis utilise l'IA pour décoder la fonction cérébrale en parole.
« Nous interceptons essentiellement les signaux à l'endroit où la pensée est traduite en articulation et au milieu de ce contrôle moteur », a-t-il déclaré. « Ce que nous décodons, c'est donc après qu'une pensée s'est produite, après que nous avons décidé ce qu'il fallait dire, après que nous avons décidé quels mots utiliser et comment bouger nos muscles de la corde vocale. »
Pour recueillir les données nécessaires à l'entraînement de leur algorithme, les chercheurs ont d'abord demandé à Ann, leur sujet, de regarder une invite à l'écran - telle que la phrase : « Hé, comment allez-vous ? » - puis à tenter silencieusement de prononcer cette phrase.
« Cela nous a permis d'établir une correspondance entre les fenêtres d'activité neuronale qu'elle génère et la phrase cible qu'elle essaie de prononcer, sans qu'elle ait besoin de vocaliser à aucun moment », a déclaré Kaylo Littlejohn.
Comme Ann n'a pas de vocalisation résiduelle, les chercheurs ne disposaient pas de données audio cibles, ou de sortie, auxquelles ils pouvaient associer les données neuronales, ou d'entrée. Ils ont résolu ce problème en faisant appel à l'IA pour combler les lacunes.
« Nous avons utilisé un modèle de synthèse vocale pré-entraîné pour générer du son et simuler une cible », explique Cheol Jun Cho. « Nous avons également utilisé la voix d'Ann avant sa blessure, de sorte que lorsque nous décodons la sortie, elle lui ressemble davantage. »
Diffusion en continu de la parole en temps quasi réel
Dans leur précédente étude sur l'ICO, les chercheurs ont constaté un long temps de latence pour le décodage, soit environ 8 secondes pour une seule phrase. Avec la nouvelle approche de diffusion en continu, la sortie audible peut être générée presque en temps réel, pendant que le sujet tente de parler.
Pour mesurer le temps de latence, les chercheurs ont utilisé des méthodes de détection de la parole qui leur ont permis d'identifier les signaux cérébraux indiquant le début d'une tentative de parole.
« Nous pouvons voir que par rapport à ce signal d'intention, nous obtenons le premier son en moins d'une seconde », a déclaré Gopala Anumanchipalli. « L'appareil peut décoder la parole en continu, de sorte qu'Ann peut continuer à parler sans interruption. »
Cette vitesse accrue ne s'est pas faite au détriment de la précision. L'interface plus rapide a permis d'obtenir le même niveau de précision de décodage que l'approche précédente, sans flux.
« C'est prometteur », a déclaré Kaylo Littlejohn. « Auparavant, on ne savait pas s'il était possible de transmettre en temps réel un discours intelligible à partir du cerveau. »
Gopala Anumanchipalli a ajouté que les chercheurs ne savent pas toujours si les systèmes d'IA à grande échelle apprennent et s'adaptent, ou s'ils se contentent de faire du pattern-matching et de répéter des parties des données d'entraînement. Les chercheurs ont donc également testé la capacité du modèle en temps réel à synthétiser des mots qui ne faisaient pas partie du vocabulaire de l'ensemble de données d'entraînement - en l'occurrence, 26 mots rares tirés de l'alphabet phonétique de l'OTAN, tels que « Alpha », « Bravo », « Charlie », etc.
« Nous voulions voir si nous pouvions généraliser aux mots non vus et vraiment décoder les patterns de parole d'Ann », a-t-il déclaré. « Nous avons constaté que notre modèle y parvenait, ce qui montre qu'il apprend effectivement les éléments constitutifs du son ou de la voix. »
Ann, qui a également participé à l'étude 2023, a expliqué aux chercheurs comment son expérience de la nouvelle approche de synthèse en continu se comparait à la méthode de décodage texte-parole de l'étude précédente.
« Elle a indiqué que la synthèse en continu était une modalité plus volontiers contrôlée », a déclaré Gopala Anumanchipalli. « Le fait d'entendre sa propre voix en temps quasi réel a renforcé son sentiment d'incarnation. »
Le résumé de l'étude est disponible ci-dessous :
La communication orale naturelle est instantanée. Les retards d'élocution
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.