Actu

Ce que l’intelligence artificielle peut apprendre des bébés

05 février 2024

・ Par Kesso Diallo

Ils ont formé un système d’IA multimodal à travers les yeux et les oreilles d’un enfant qui a porté une caméra légère sur sa tête de ses six mois à ses deux ans. ©NYU's Center for Data Science

Des chercheurs de l’Université de New York ont découvert qu’un modèle d’IA peut apprendre des mots après avoir été entraîné sur des données issues de l’expérience d’apprentissage d’un bébé.

Malgré ses progrès, l’intelligence artificielle (IA) est loin d’égaler l’intelligence humaine. Capables de générer du texte, des images et d’autres types de contenus, les systèmes comme ChatGPT sont entraînés sur des quantités astronomiques de données provenant d’Internet pour y parvenir. Ils pourraient aussi apprendre des bébés, comme l’ont montré des chercheurs de l’Université de New York.

Ils ont formé un système d’IA multimodal à travers les yeux et les oreilles d’un enfant qui a porté une caméra légère sur sa tête de ses six mois à ses deux ans pour savoir si le système peut apprendre des mots et les concepts présents dans l’expérience quotidienne de celui-ci.

Plus de 60 heures d’images analysées

Dans le détail, les chercheurs ont analysé le processus d’apprentissage du bébé capturé sur vidéo en utilisant plus de 60 heures d’images. Celles-ci comprenaient environ un quart de million d’instances de mots liées à des images vidéo de ce que l’enfant a vu lorsqu’il les a prononcés ainsi qu’un large éventail d’activités différentes (repas, lecture de livres…). Ils ont ensuite entraîné un réseau neuronal multimodal avec un encodeur de vision (prend en compte des images vidéo uniques) et un encodeur de langage (prend en compte le discours transcrit de l’enfant).

Combinés, ces derniers ont été entraînés à l’aide d’un algorithme d’apprentissage contrastif, soit visant à apprendre les fonctionnalités d’entrée utiles et leurs associations intermodales. « La combinaison de ces indices permet à l’apprentissage contrastif de déterminer progressivement quels mots appartiennent à quels visuels et de capturer l’apprentissage des premiers mots d’un enfant », a expliqué Wai Keen Vong, chercheur scientifique au Center for Data Science de l’université et premier auteur de l’étude publiée dans la revue Science, dans un communiqué.

Concrètement, lorsqu’un parent dit quelque chose devant son enfant, il est probable que certains des mots qu’il utilise fassent référence à quelque chose que le bébé peut voir. Autrement dit, la compréhension est inculquée en reliant des indices visuels et linguistiques.

Association de mots et d’images

Après avoir entraîné le modèle d’IA avec ces données, les chercheurs l’ont testé en lui présentant un mot cible et quatre images différentes pour lui demander de sélectionner celle qui lui correspond. Un type d’évaluation utilisée pour mesurer l’apprentissage des mots chez les nourrissons. Alors qu’il peut être difficile de savoir ce que les bébés veulent dire, ils ont découvert que le modèle pouvait apprendre un nombre important de mots et de concepts présents dans l’expérience quotidienne de l’enfant. « Nos résultats démontrent comment les avancées algorithmiques récentes, associées à l’expérience naturaliste d’un enfant, ont le potentiel de remodeler notre compréhension de l’acquisition précoce du langage et des concepts », a déclaré Kai Ween Vong.

« En utilisant des modèles d’IA pour étudier le véritable problème d’apprentissage des langues auquel sont confrontés les enfants, nous pouvons aborder les débats classiques sur les ingrédients dont les enfants ont besoin pour apprendre les mots : s’ils ont besoin de biais spécifiques à la langue, de connaissances innées ou simplement d’un apprentissage associatif pour commencer », a ajouté Brendan Lake, également chercheur au Center for Data Science de l’université et auteur principal de l’étude.

100 cartes pour apprendre à signer avec bébé

À partir de

12,10€

En stock vendeur partenaire

Acheter sur Fnac.com

Les chercheurs souhaitent désormais que l’apprentissage du modèle reproduise plus fidèlement l’apprentissage précoce des langues chez les enfants, donc ils pourraient lui fournir davantage de données. « Il y a encore du travail à faire pour essayer d’obtenir un modèle doté de capacités comparables à celles d’un enfant de deux ans », a expliqué Brandan Lake au MIT Technology Review. Sa fille de 18 mois fera partie de la prochaine cohorte d’enfants qui fourniront ces données.

Plus de 60 heures d’images analysées

Association de mots et d’images

À lire aussi