Les GAFAM collaborent avec l’Université de l’Illinois à Urbana-Champaign dans le cadre d’un projet visant notamment à aider les personnes souffrant de handicaps qui affectent la parole.
Avec les assistants vocaux ou les outils de traduction, la reconnaissance vocale est une technologie utile dans la vie quotidienne, mais elle n’est pas accessible pour de nombreuses personnes. Souhaitant remédier à ce problème, l’Université de l’Illinois à Urbana-Champaign (UIUC) vient de lancer le Speech Accessibility Project, une initiative de recherche pluriannuelle, avec le soutien des GAFAM. Ce projet, qui rassemble aussi des technologues, des chercheurs et des organisations à but non lucratif, a pour objectif de rendre la reconnaissance vocale plus inclusive pour les personnes présentant diverses formes de parole et de handicaps. Cela inclut notamment les handicaps affectant la parole, comme la sclérose latérale amyotrophique, la maladie de Parkinson, la paralysie cérébrale et le syndrome de Down (trisomie 21).
« Les interfaces vocales devraient être disponibles pour tout le monde, y compris les personnes handicapées », a déclaré Mark Hasegawa-Johnson, professeur de génie électrique et informatique à l’UIUC, ajoutant que « cette tâche a été difficile car elle nécessite beaucoup d’infrastructures, idéalement du type qui peuvent être soutenues par les principales entreprises technologiques ».
Améliorer la reconnaissance vocale à l’aide de données
Pour ce projet qui se concentrera sur l’anglais américain pour commencer, les groupes vont collaborer afin de collecter un ensemble d’échantillons vocaux d’individus représentant une diversité de modèles de parole. Des volontaires rémunérés seront recrutés par les chercheurs de l’UIUC pour fournir ces échantillons. Ils enregistreront ces derniers en lisant des textes ou en répondant à des questions comme « Quels sont vos passe-temps ? ». Ces textes et ces questions seront élaborés en collaboration avec des groupes de discussion et des organisations communautaires de personnes handicapées pour s’assurer que les échantillons collectés aideront les chercheurs à obtenir un ensemble de données permettant d’entraîner plus efficacement les technologies de reconnaissance vocale.
Les échantillons enregistrés seront en effet utilisés pour créer un ensemble de données privé et anonymisé, qui servira à former des modèles d’apprentissage automatique à mieux comprendre diverses formes de parole. Étant une forme d’intelligence artificielle, l’apprentissage automatique alimente la reconnaissance vocale, mais pour l’Université, il est nécessaire d’avoir des données diverses et représentatives afin d’entraîner ces modèles et ainsi rendre cette technologie plus accessible.