Actu

Comment des chatbots perpétuent le racisme dans le domaine médical

24 octobre 2023
Par Kesso Diallo
Les quatre chatbots ont notamment échoué concernant les questions portant sur la fonction rénale et la capacité pulmonaire.
Les quatre chatbots ont notamment échoué concernant les questions portant sur la fonction rénale et la capacité pulmonaire. ©Felix-Lebelle / Shutterstock

Une étude révèle que les robots conversationnels les plus populaires perpétuent des informations médicales fausses et démystifiées sur les Noirs.

À l’heure où l’intelligence artificielle (IA) est de plus en plus utilisée dans le milieu de la médecine, des chercheurs de l’école de médecine de Stanford tirent la sonnette d’alarme. Dans une étude publiée vendredi dans la revue Digital Medicine, ils indiquent que les chatbots les plus populaires perpétuent des idées médicales racistes et démystifiées sur les Noirs, craignant qu’ils causent des dommages réels et amplifient les formes de racisme médical persistant depuis des générations.

Dans le cadre de cette étude, les chercheurs ont posé neuf questions à ChatGPT et à GPT-4, à Bard de Google et à Claude d’Anthropic« Tous les modèles avaient des exemples de perpétuation de la médecine fondée sur la race dans leurs réponses », ont-ils fait savoir.

Des résultats inquiétants

Les quatre chatbots ont notamment échoué concernant les questions portant sur la fonction rénale et la capacité pulmonaire. ChatGPT-3.5 et GPT-4 ont par exemple donné des réponses incorrectes selon lesquelles les Noirs auraient une masse musculaire différente et donc des niveaux de créatinine plus élevés. Les résultats étaient similaires lorsque les chercheurs les ont interrogés sur la manière de calculer la capacité pulmonaire pour une femme noire et un homme noir. Les robots conversationnels ont cependant donné des réponses n’étant pas basées sur la race lorsque celle-ci était exclue de la question.  

Ces résultats inquiètent les chercheurs. « Une erreur peut avoir des conséquences très concrètes qui peuvent avoir un impact sur les disparités en matière de santé », a averti Roxana Daneshjou, professeure adjointe de science des données biomédicales et de dermatologie de Stanford et conseillère pédagogique pour l’étude, à l’Associated Press« Nous essayons de supprimer ces stéréotypes de la médecine, donc leur régurgitation est profondément préoccupante », a-t-elle ajouté.

Les chercheurs estiment que ces modèles ne sont pas encore prêts pour une utilisation ou une intégration clinique à cause du risque de préjudice. « Bien qu’il ne soit pas possible de caractériser pleinement toutes les réponses possibles à toutes les questions médicales possibles en raison de la nature des LLM (grands modèles de langage, ndlr), des études quantitatives plus vastes doivent au minimum être réalisées pour garantir la sécurité des patients avant un déploiement généralisé », ont-ils expliqué. Ils appellent ainsi les centres médicaux et les cliniciens à « faire preuve d’une extrême prudence dans l’utilisation des LLM pour la prise de décision médicale »

En réponse à l’étude, OpenAI et Google ont déclaré à l’Associated Press qu’ils s’efforçaient de réduire les biais dans leurs modèles. La firme de Mountain View a également rappelé que les gens devraient « s’abstenir de compter sur Bard pour obtenir des conseils médicaux »

À lire aussi

Article rédigé par
Kesso Diallo
Kesso Diallo
Journaliste
Pour aller plus loin