Encore au stade de recherche, il permettrait aux utilisateurs de simplement faire glisser les éléments d’une image pour modifier leur apparence.
Alors que des intelligences artificielles (IA) comme Dall-E ou Midjourney permettent de générer des images de plus en plus réalistes, un nouvel outil pourrait rendre la manipulation d’images encore plus facile. Dévoilé par un groupe de chercheurs de Google, du Massachussetts Institute of Technology (MIT) et d’autres institutions, il permettrait aux utilisateurs de modifier rapidement des images. Avec cet outil, baptisé DragGAN, il serait possible de « faire glisser n’importe quel point de l’image pour atteindre précisément les points cible de manière interactive », expliquent les chercheurs sur la page dédié à ce projet.
« Grâce à DragGAN, n’importe qui peut déformer une image avec un contrôle précis sur l’emplacement des pixels, manipulant ainsi la pose, la forme, l’expression et la disposition de diverses catégories telles que les animaux, les voitures, les humains, les paysages, etc. », affirment-ils.
Un outil puissant pour manipuler les images
Concrètement, avec cet outil, les utilisateurs seraient à même de modifier les dimensions d’une voiture, la hauteur d’une chaîne de montagnes ou encore de faire sourire une personne en quelques clics. Des vidéos publiées sur la page du projet montrent les capacités de DragGAN, mais à l’heure où nous écrivons ces lignes, il n’est pas possible de les visionner. La page était d’ailleurs inaccessible vendredi, alors que les internautes étaient nombreux à affluer vers le site, comme l’a rapporté The Verge. Les vidéos peuvent néanmoins être consultées sur le site du média américain.
Comme le note les chercheurs, ce n’est pas la manipulation d’images en soi qui est intéressante dans ce projet, mais plutôt l’interface utilisateur. Des outils d’IA, tels que les réseaux antagonistes génératifs (GAN), sont en effet déjà utilisés pour générer des images réalistes, mais ils manquent souvent de flexibilité et de précision.
Avec leur méthode consistant à faire glisser les points d’une image, les chercheurs souhaitent ainsi obtenir « un moyen plus puissant mais beaucoup moins exploré de contrôler les GAN », ce modèle d’IA composé de deux réseaux de neurones (un générateur et un discriminateur). Tandis que le premier cherche à tromper le second en créant des images aussi réalistes que possible, le second essaie, lui, de détecter si une image est réelle ou si elle a été générée par le premier. Le générateur améliore ainsi progressivement la qualité des visualisations jusqu’à ce qu’il ne soit plus possible de distinguer les « vraies » des « fausses ».
Pour le moment, DragGAN n’est pas disponible pour le public. Encore au stade de la recherche, l’équipe prévoit d’étendre la modification basée sur des points aux modèles génératifs 3D dans ses futurs travaux.