ImageBind peut lier des informations à partir de six modalités, dont le texte, la vision, l’audio et la température. Encore au stade de recherche, ce projet montre comment les futurs modèles d’IA pourraient générer du contenu multisensoriel.
Meta continue de partager ses recherches sur l’intelligence artificielle (IA). Un mois après avoir présenté un modèle capable de détecter des objets dans des images, la branche dédiée à l’IA du groupe californien vient d’en dévoiler un autre. Baptisé ImageBind, il vise à imiter la perception humaine. « Nous introduisons une approche qui rapproche les machines de la capacité des humains à apprendre simultanément, de manière holistique et directement à partir de nombreuses formes d’informations différentes – sans avoir besoin d’une supervision explicite (le processus d’organisation et d’étiquetage des données brutes) », a expliqué Meta AI dans un article de blog.
Pour cela, ImageBind combine des données textuelles, visuelles, audio, thermiques, de mouvement et de profondeur. La branche affirme qu’il s’agit du « premier modèle d’IA capable de lier des informations à partir de six modalités ». « ImageBind équipe les machines d’une compréhension holistique qui relie les objets d’une photo à leur son, à leur forme 3D, à leur chaleur ou à leur froid et à leur mouvement », a-t-elle indiqué.
De nouvelles possibilités pour les chercheurs
À ce stade, le modèle n’est qu’un projet de recherche, sans applications consommateurs ou pratiques. Il montre cependant comment de futurs systèmes d’IA génératifs pourraient créer des expériences immersives et multisensorielles. Le concept de base de la recherche consiste en effet à relier plusieurs types de données dans un seul espace d’intégration alors que jusqu’ici, des IA comme Dall-E reposent sur des modèles liant du texte et des images lors de la phase d’entraînement, leur permettant ainsi de générer des images à partir de prompts textuels.
« ImageBind fait partie des efforts de Meta pour créer des systèmes d’IA multimodaux qui apprennent de tous les types de données possibles autour d’eux », fait savoir Meta AI. Elle affirme que son modèle « ouvre la voie aux chercheurs pour essayer de développer de nouveaux systèmes holistiques ». Ils seraient par exemple capables de concevoir ou expérimenter des mondes virtuels immersifs en combinant des capteurs 3D et IMU (qui calculent le mouvement et la position). « ImageBind pourrait également fournir un moyen riche d’explorer les souvenirs – en recherchant des images, des vidéos, des fichiers audio ou des SMS à l’aide d’une combinaison de texte, audio et image », a en outre assuré la branche.
De futurs modèles d’IA sensoriellement plus riches
Meta AI estime surtout que son modèle contribue à faire progresser l’IA en permettant aux machines de mieux analyser ensemble plusieurs formes d’informations différentes. Avec ImageBind, Make-A-Scene – son IA génératrice d’images – pourrait par exemple créer des images à partir d’un fichier audio, comme les sons d’une forêt tropicale. Le modèle serait également utile aux créateurs, avec la possibilité, par exemple, d’enregistrer une vidéo d’un coucher de soleil sur l’océan et d’y ajouter instantanément un clip audio pour l’améliorer.
Enfin, Meta AI indique qu’outre ces six modalités dans son projet de recherche, d’autres pourraient être ajoutées aux futurs modèles d’IA, tels que « le toucher, la parole, l’odorat et les signaux IRMf cérébraux ».