Testé par un petit groupe de personnes, cette version avancée peut aider les aveugles. La société s’inquiète cependant de sa capacité à reconnaître les visages de personnes spécifiques.
ChatGPT peut faire plus que répondre par des mots. Une version avancée du célèbre robot conversationnel est en effet capable d’analyser les images, parvenant à décrire ce qu’elles contiennent, de répondre à des questions à leur sujet et même de reconnaître les visages de personnes spécifiques. Pour rappel, OpenAI a dévoilé GPT-4 en mars dernier, annonçant que ce modèle de langage était multimodal. Autrement dit, il est capable de traiter du texte et des images.
Alors que la plupart des utilisateurs n’y ont pas accès, certains ont bénéficié d’un accès anticipé à cette version avancée grâce à la startup Be My Eyes, qui aide les personnes aveugles et malvoyantes en les mettant en relation avec des bénévoles voyants. Elle s’est associée à OpenAI cette année pour tester la « vue » du chatbot avant le lancement officiel de cette fonctionnalité, rapporte le New York Times.
Une technologie capable d’aider les aveugles
Directeur général d’une agence de placement, Jonathan Mosen, qui est aveugle, fait partie du groupe restreint de personnes testant la version avancée de ChatGPT depuis quelques mois, grâce au partenariat entre Be My Eyes et OpenAI. Il a utilisé la capacité d’analyse visuelle du robot conversationnel lors d’un récent voyage, afin de déterminer quelles bouteilles dans la salle de bain d’une chambre d’hôtel étaient du shampoing, de l’après-shampooing et du gel douche.
Le résultat obtenu était bien au-delà des performances des logiciels d’analyse d’images utilisées précédemment par Jonathan Mosen. « Il m’a indiqué la contenance en millilitres de chaque bouteille. Il m’a parlé des carreaux de la douche », a-t-il déclaré. « Il décrivait tout cela d’une manière telle qu’une personne aveugle a besoin de l’entendre. Et avec une seule photo, j’avais exactement les réponses dont j’avais besoin », a ajouté le directeur général.
Une technologie problématique
Avec cette version avancée de ChatGPT, Jonathan Mosen peut « interroger des images ». Concrètement, alors qu’une image sur les réseaux sociaux était décrite comme montrant une « femme aux cheveux blonds qui a l’air heureuse », le chatbot est allé plus loin en l’analysant, indiquant qu’il s’agissait d’une femme vêtue d’une chemise bleu foncé et prenant un selfie devant un miroir mural. Jonathan Mosen a aussi pu lui poser des questions de suivi, concernant le type de chaussures que la femme portait par exemple.
Le robot conversationnel a pourtant récemment cessé de lui donner des informations sur les visages des personnes, affirmant qu’elles avaient été masquées pour des raisons de confidentialité. Ce changement est lié aux préoccupations d’OpenAI, qui ne veut pas que ChatGPT devienne un engin de reconnaissance faciale. Selon Sandhini Agarwal, chercheuse en politiques au sein de la startup, sa technologie est capable d’identifier les personnalités publiques, à l’instar des individus ayant une page Wikipédia. Il ne fonctionne cependant pas de manière aussi complète que d’autres outils conçus pour trouver des visages sur Internet, comme Clearview AI et PimEyes.
La technologie parvient par exemple à reconnaître le PDG d’OpenAI, Sam Altman, sur des photos, mais pas les autres personnes travaillant dans la société. Rendre cette fonctionnalité accessible au public serait susceptible de causer des problèmes juridiques pour OpenAI dans plusieurs pays, dont l’Europe, qui obligent les entreprises à obtenir le consentement des citoyens pour utiliser leurs informations biométriques, y compris une empreinte faciale.
La startup craint en outre que son outil ne dise des choses qu’il ne devrait pas dire concernant le visage des individus, en analysant leur état émotionnel ou encore leur sexe. Autre problème : la fonctionnalité pourrait produire des hallucinations, soit inventer des informations, ce que ChatGPT a déjà fait avec des prompts textuels. L’outil a par exemple décrit de manière inexacte une télécommande à Jonathan Mosen, affirmant qu’elle disposait de certains boutons alors que ce n’était pas le cas. Il pourrait aussi se tromper dans l’identification d’une personne. OpenAI cherche ainsi à résoudre ces problèmes de sécurité, entre autres, avant de rendre cette fonctionnalité accessible au public.