Actu

Il est désormais possible de parler avec ChatGPT et de lui montrer des images

26 septembre 2023

・ Par Kesso Diallo

Ces nouvelles fonctionnalités seront d'abord disponibles pour les abonnés à ChatGPT Plus et les utilisateurs de ChatGPT Enterprise. ©Diego Thomazini / Shutterstock

Le robot conversationnel d’OpenAI peut aussi désormais répondre avec différentes voix grâce à un modèle de synthèse vocale.

ChatGPT n’est plus limité au texte. Lundi, OpenAI a annoncé le déploiement de nouvelles fonctionnalités vocales et visuelles pour son chatbot. Concrètement, il est désormais possible d’utiliser sa voix et des images pour converser avec l’intelligence artificielle. « La voix et l’image vous offrent davantage de façons d’utiliser ChatGPT dans votre vie », a déclaré la startup dans un article de blog, indiquant que ces fonctionnalités « offrent un nouveau type d’interface plus intuitif ».

ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb
— OpenAI (@OpenAI) September 25, 2023

Dialoguer avec ChatGPT

Non seulement, il est possible de parler avec ChatGPT en utilisant sa voix, mais le chatbot peut aussi lui-même répondre avec différentes voix. Cela, grâce à un nouveau modèle de synthèse vocale « capable de générer un son de type humain, seulement à partir du texte et de quelques secondes d’échantillons vocaux », affirme OpenAI. Pour créer ces voix, l’entreprise a également travaillé avec des comédiens professionnels. La transcription des mots prononcés par les utilisateurs en texte est, elle, réalisée à l’aide du système de reconnaissance vocale open source de la société, Whisper.

Avec ces technologies, il est ainsi désormais possible de demander au robot conversationnel de lire une histoire aux enfants pour qu’ils s’endorment, de faire appel à lui pour régler un débat à table ou encore de parler avec lui lors de ses déplacements.

Un chatbot capable de comprendre les images

ChatGPT peut comprendre les images grâce à GPT-3.5 et GPT-4. « Ces modèles multimodaux appliquent leurs capacités de raisonnement linguistique à un large éventail d’images, telles que des photographies, des captures d’écran et des documents contenant à la fois du texte et des images », a expliqué OpenAI. Avec cette fonctionnalité, les internautes peuvent désormais demander de l’aide à ChatGPT afin de savoir pourquoi leur grill ne démarre pas ou planifier un repas en lui montrant une image de leur frigo.

Ils ont aussi la possibilité d’utiliser l’outil de dessin de l’application mobile pour que le robot conversationnel se concentre sur une partie spécifique de l’image. Il pourra ainsi, par exemple, permettre à un parent d’aider son enfant à résoudre un problème de mathématiques en leur fournissant des indices à partir d’une photo sur laquelle le problème est encerclé.

Un déploiement progressif justifié

Ces nouvelles fonctionnalités ne seront pas immédiatement accessibles à tous. Dans un premier temps, OpenAI va les déployer auprès des abonnés à ChatGPT Plus et aux utilisateurs de la version professionnelle de ChatGPT. Elles seront disponibles pour eux au cours des deux prochaines semaines et « peu de temps après » pour les autres utilisateurs, a précisé la startup.

Dans son article de blog, elle a justifié ce déploiement progressif : « L’objectif d’OpenAI est de créer une AGI (intelligence artificielle générale, ndlr) sûre et bénéfique. Nous croyons qu’il est important de rendre nos outils disponibles progressivement, ce qui nous permet d’apporter des améliorations et d’affiner l’atténuation des risques au fil du temps tout en préparant chacun à des systèmes plus puissants à l’avenir. Cette stratégie devient encore plus importante avec des modèles avancés impliquant la voix et la vision », a-t-elle expliqué.

Si la technologie vocale est utile, notamment en termes d’accessibilité, elle peut en effet aussi être utilisée par des acteurs malveillants pour usurper l’identité de personnalités publiques ou pour commettre des fraudes. Raison pour laquelle le modèle n’est pas disponible pour une utilisation généralisée, étant limité à des cas d’utilisation (le chat vocal) et à des partenariats spécifiques, dont Spotify. La plateforme de streaming musical utilise cette technologie pour permettre aux podcasteurs de traduire leurs podcasts dans d’autres langues avec leur propre voix.

La recherche d’images présente également des problèmes potentiels, notamment les hallucinations (inventer des informations) sur des personnes. Face à ce risque, OpenAI assure avoir « limité considérablement la capacité de ChatGPT à analyser et à faire des déclarations directes sur les personnes, car ChatGPT n’est pas toujours précis et ces systèmes doivent respecter la vie privée des individus ». Après plusieurs tests pour évaluer les risques de cette fonctionnalité, la société compte sur son utilisation dans le monde réel et les commentaires pour améliorer les protections mises en place.

Dialoguer avec ChatGPT

Un chatbot capable de comprendre les images

Un déploiement progressif justifié

À lire aussi