Actu

Google a trafiqué la vidéo de présentation de son modèle d’IA Gemini

11 décembre 2023
Par Kesso Diallo
La vidéo a été réalisée avec des images fixes.
La vidéo a été réalisée avec des images fixes. ©Tada Images / Shutterstock

La vidéo montrant les capacités impressionnantes du modèle d’intelligence artificielle a été accélérée. Elle n’a également pas été réalisée en temps réel.

La semaine dernière, Google a dévoilé Gemini, son modèle d’intelligence artificielle (IA) conçu pour concurrencer GPT-4 d’OpenAI. Une vidéo publiée par la firme de Mountain View montre les capacités impressionnantes de ce dernier, laissant croire qu’il est possible d’avoir une conversation fluide avec lui et qu’il peut répondre en temps réel sur le monde qui l’entoure. La réalité est pourtant toute autre.

Dans la description de la vidéo, Google reconnaît que « pour les besoins de cette démo, la latence a été réduite et les réponses de Gemini ont été raccourcies par souci de concision ». Autrement dit, le temps nécessaire pour chaque réponse du modèle était plus long que dans la démo. La société ne s’est pas limitée à ces modifications pour la mise en scène de sa vidéo de présentation car l’interaction vocale entre un humain et le modèle d’IA n’a jamais existé. Celle-ci n’a en effet pas été produite en temps réel. 

Une réalité beaucoup moins impressionnante

Interrogé par Bloomberg Opinion au sujet de cette vidéo, un porte-parole de Google a révélé qu’elle avait été réalisée avec des images fixes et des prompts textuels. Il a également renvoyé vers un site montrant comment il est possible d’interagir avec Gemini à l’aide de photos de leurs mains, de dessins et d’autres objets. Pour le jeu des gobelets par exemple, alors que le modèle ne pouvait pas voir les déplacements, il lui a expliqué que le 3ème gobelet (sous lequel la balle était cachée) a pris la place du second. 

Ainsi, la voix dans la démo se contentait de lire des prompts adressés à Gemini et de lui montrer des images fixes. Une réalité beaucoup moins impressionnante contrairement à ce que Google essaie de nous faire croire. La société n’estime pourtant pas avoir induit le public en erreur. Interrogée par The Verge, elle a renvoyé vers un message publié par Oriol Vinyals, co-responsable de Gemini, sur X (ex-Twitter). « Tous les prompts et réponses de l’utilisateur dans la vidéo sont réels », a-t-il écrit, ajoutant que « la vidéo montre à quoi pourraient ressembler les expériences utilisateur multimodales créées avec Gemini » et qu’elle a été réalisée pour « inspirer les développeurs ».

À lire aussi

Article rédigé par
Kesso Diallo
Kesso Diallo
Journaliste