Actu

Apple a créé un outil d’IA pour modifier des images en les décrivant

08 février 2024
Par Kesso Diallo
Apple a créé un outil d’IA pour modifier des images en les décrivant
©Tada Images/Shutterstock

Appelé MGIE, cet outil est capable de recadrer, redimensionner ou encore retourner une image à la demande des utilisateurs.

Contrairement à Meta ou Google, Apple est loin d’être un acteur majeur dans le domaine de l’intelligence artificielle (IA) générative. Si l’entreprise, qui investirait des millions de dollars dans cette technologie chaque jour, reste discrète sur ses projets, elle devrait dévoiler des fonctionnalités basées sur celle-ci plus tard cette année. En attendant, elle vient de présenter un outil d’IA permettant de modifier des images simplement en les décrivant.

Un simple prompt pour modifier une image

Baptisé MLLM-Guided Image Editing (MGIE), il « dérive une intention visuelle explicite et conduit à une retouche d’image raisonnable », ont indiqué les chercheurs d’Apple dans un article publié sur arXiv. Créé en collaboration avec l’Université de Californie, cet outil est capable de recadrer, redimensionner, retourner et ajouter des filtres aux images à l’aide de prompts textuels. 

Pour cela, MGIE commence par interpréter les prompts des utilisateurs pour ensuite « imaginer » à quoi ressemblerait la modification. Si un utilisateur demande un ciel plus bleu sur une photo, par exemple, l’outil va augmenter la luminosité de la partie ciel de l’image. Autre exemple : en tapant « la rendre plus saine » à propos d’une pizza au pepperoni sur une image, MGIE va y ajouter des légumes en garnitures, comme des tomates. 

À partir de
24,95€
En stock
Acheter sur Fnac.com

« Nous menons des études approfondies sur divers aspects de l’édition et démontrons que notre MGIE améliore efficacement les performances tout en maintenant une efficacité compétitive, ont déclaré les chercheurs. Nous pensons également que le cadre guidé par MLLM [grand modèle multimodal de langage, ndlr] peut contribuer aux futures recherches sur la vision et le langage. »

Leur outil est disponible en tant que projet open source sur GitHub, mais aussi dans une démo web sur Hugging Face Spaces, une plateforme de partage et de collaboration sur des projets d’apprentissage automatique. À noter qu’à l’heure actuelle, Apple n’a pas précisé ses projets pour MGIE au-delà de la recherche.

À lire aussi

Article rédigé par
Kesso Diallo
Kesso Diallo
Journaliste