Actu

Meta a développé une IA capable de décoder la parole à partir de l’activité cérébrale

05 septembre 2022
Par Kesso Diallo
Une IA qui pourrait aider les personnes victimes de lésion cérébrale traumatique.
Une IA qui pourrait aider les personnes victimes de lésion cérébrale traumatique. ©geralt / Pixabay

Ce modèle d’intelligence artificielle pourrait aider les millions de personnes victimes de lésion cérébrale traumatique chaque année.

Avec sa branche dédiée à l’intelligence artificielle (IA), Meta travaille sur des outils destinés à divers domaines tels que la médecine. Après avoir présenté une plateforme capable d’aider à développer des prothèses, elle a annoncé, le 31 août, avoir conçu un modèle d’IA parvenant à décoder la parole à partir d’enregistrements de l’activité cérébrale. Selon elle, cela pourrait améliorer la vie des millions de personnes souffrant de lésion cérébrale traumatique chaque année, qui les empêchent de communiquer par la parole ou les gestes.

Comme l’explique la division de Meta dans son communiqué, le décodage de l’activité cérébrale liée à la parole est un objectif de longue date des neuroscientifiques et des cliniciens. Le problème, c’est que la plupart des progrès dans ce domaine reposent sur des techniques invasives, nécessitant des interventions chirurgicales pour y implanter un dispositif comme le fait Neuralink, l’entreprise d’Elon Musk. Meta AI a choisi une approche non invasive afin de proposer une solution plus sûre, qui permettrait à un plus grand nombre de personnes d’en bénéficier.

Le problème des technologies non invasives

Elle s’est servie de l’électroencéphalographie (EEG) et de la magnétoencéphalographie (MEG), deux technologies mesurant respectivement les fluctuations des champs électriques et magnétiques provoquées par l’activité neuronale. Si elles sont moins envahissantes que les autres, elles sont aussi réputées pour être peu précises. « Les enregistrements EEG et MEG sont connus pour varier considérablement d’un individu à l’autre en raison de l’anatomie cérébrale individuelle, des différences de localisation et de synchronisation des fonctions neuronales dans les régions du cerveau et de la position des capteurs au cours d’une session d’enregistrement », explique Jean Remi King, chercheur scientifique chez Meta AI. Ces enregistrements peuvent aussi être extrêmement bruyants.

Pour résoudre ce problème, les chercheurs se sont tournés vers des algorithmes d’apprentissage automatique pour aider à « nettoyer » le bruit. Ils ont utilisé un modèle appelé wave2vec 2.0, développé par l’équipe FAIR de Meta en 2020, afin d’identifier « les représentations complexes de la parole dans le cerveau de volontaires écoutant des livres audio ». Il a en effet été entraîné avec quatre ensembles de données EEG et MEG open source, comprenant plus de 150 heures d’enregistrements de 169 volontaires en bonne santé écoutant des livres audio et des phrases isolées en anglais et en néerlandais.

Le système de Meta AI parvient ainsi à effectuer une classification « zero-shot ». Autrement dit, il est capable de déterminer le clip audio qu’une personne a entendu parmi plusieurs à partir d’un extrait d’activité cérébrale. Il déduit ensuite les mots que celle-ci a probablement entendu. « À partir de trois secondes d’activité cérébrale, nos résultats montrent que notre modèle peut décoder les segments vocaux avec une précision maximale de 73% à partir d’un vocabulaire de 793 mots, c’est-à-dire une grande partie des mots que nous utilisons habituellement au quotidien », affirme Jean Remi King. Pour les chercheurs, ces résultats sont prometteurs car ils montrent que l’IA peut être entraînée pour décoder la parole à partir d’enregistrements non invasifs de l’activité cérébrale. Ils espèrent désormais pouvoir étendre cette capacité au décodage direct de la parole, sans faire appel à des clips audio.

À lire aussi

Article rédigé par
Kesso Diallo
Kesso Diallo
Journaliste