IA s’est rapprochée des résidents et des étudiants en médecine avec un raisonnement clinique dans les études

'AI has engaged with residents and medical students in clinical reasoning studies

Deux études suggèrent que ChatGPT pourrait avoir certaines compétences de raisonnement nécessaires aux médecins pour diagnostiquer et traiter les problèmes de santé, bien que personne ne prédise que les chatbots remplaceront les humains en blouse blanche.

Dans une étude, les chercheurs ont constaté que, avec la bonne incitation, ChatGPT était à égalité avec les résidents en médecine pour rédiger l’historique d’un patient. Il s’agit d’un résumé de l’évolution du problème de santé actuel du patient, des premiers symptômes ou de la blessure aux problèmes en cours.

Les médecins l’utilisent pour établir des diagnostics et élaborer un plan de traitement.

Rédiger un bon historique est plus compliqué que simplement transcrire un entretien avec un patient. Cela nécessite la capacité à synthétiser des informations, à extraire les points pertinents et à les rassembler dans un récit, explique le Dr Ashwin Nayak, le chercheur principal de l’étude.

“Il faut des années aux étudiants en médecine et aux résidents pour l’apprendre”, a déclaré Nayak, professeur adjoint de médecine à l’Université Stanford, en Californie.

Pourtant, son équipe a découvert que ChatGPT était capable de le faire aussi bien qu’un groupe de résidents en médecine (médecins en formation). La condition était que l’incitation soit suffisamment bonne : les performances du chatbot étaient nettement inférieures lorsque l’incitation manquait de détails.

ChatGPT est alimenté par une technologie d’intelligence artificielle (IA) qui lui permet d’avoir des conversations semblables à celles d’un humain, générant instantanément des réponses à presque toutes les incitations qu’une personne peut imaginer. Ces réponses sont basées sur le “pré-entraînement” du chatbot avec une grande quantité de données, y compris des informations recueillies sur Internet.

La technologie a été lancée en novembre dernier et, en deux mois, elle a atteint un record de 100 millions d’utilisateurs mensuels, selon un rapport de la banque d’investissement UBS.

ChatGPT a également fait les gros titres en obtenant apparemment de bons résultats aux examens d’entrée à l’université SAT, et même en réussissant l’examen de licence médicale aux États-Unis.

Cependant, les experts mettent en garde contre le fait que le chatbot ne devrait pas être la principale source d’informations médicales.

Des études ont souligné à la fois les promesses et les limites de cette technologie. Tout d’abord, la précision de ses informations dépend en grande partie de l’incitation donnée par l’utilisateur. En général, plus la question est précise, plus la réponse est fiable.

Une étude récente portant sur le cancer du sein, par exemple, a révélé que ChatGPT donnait souvent des réponses appropriées aux questions posées par les chercheurs. Mais si la question était large et complexe – “Comment prévenir le cancer du sein ?” – le chatbot était peu fiable, donnant des réponses différentes à chaque répétition de la question.

Il y a aussi le problème bien documenté des “hallucinations”. C’est-à-dire que le chatbot a tendance à inventer des choses par moments, surtout lorsque l’incitation porte sur un sujet complexe.

Cela a été confirmé dans l’étude de Nayak, publiée en ligne le 17 juillet en tant que lettre de recherche dans le JAMA Internal Medicine.

Les chercheurs ont confronté ChatGPT à quatre résidents en médecine senior pour rédiger des historiques basés sur des “entretiens” avec des patients hypothétiques. Trente médecins superviseurs ont évalué les résultats en termes de niveau de détail, de concision et d’organisation.

Les chercheurs ont utilisé trois incitations différentes pour confier la tâche au chatbot, et les résultats ont varié considérablement. Avec l’incitation la moins détaillée – “Lisez l’entretien suivant avec un patient et rédigez un [historique]. N’utilisez pas d’abréviations ou d’acronymes” – le chatbot s’en est mal tiré. Seulement 10 % de ses rapports ont été jugés acceptables.

Il a fallu une incitation beaucoup plus détaillée pour pousser la technologie à un taux d’acceptation de 43 % – à égalité avec les résidents. De plus, le chatbot était plus enclin aux hallucinations – comme inventer l’âge ou le sexe d’un patient – lorsque la “qualité” de l’incitation était plus faible.

“Le problème inquiétant est que, dans le monde réel, les gens ne vont pas concevoir la ‘meilleure’ incitation”, a déclaré le Dr Cary Gross, professeur à l’École de médecine de Yale, qui a coécrit un commentaire publié avec les résultats.

Gross a déclaré que l’IA a un “énorme” potentiel en tant qu’outil pour aider les professionnels de la santé à établir des diagnostics et à effectuer d’autres tâches critiques. Mais il faut encore régler certains problèmes.

“Ce n’est pas encore prêt pour une utilisation généralisée”, a déclaré Gross.

Dans la deuxième étude, une autre équipe de Stanford a découvert que le dernier modèle de ChatGPT (en avril 2023) surpassait les étudiants en médecine dans les questions d’examen final nécessitant un “raisonnement clinique” – la capacité à synthétiser des informations sur les symptômes et l’historique d’un patient hypothétique, et à proposer un diagnostic probable.

Encore une fois, Gross a déclaré que les implications de cela ne sont pas encore claires, mais personne ne suggère que les chatbots sont de meilleurs médecins que les humains.

Une question fondamentale, a-t-il dit, est de savoir comment l’IA devrait être intégrée dans l’éducation et la formation médicales.

Alors que les études étaient centrées sur les médecins, Nayak et Gross ont tous les deux déclaré qu’elles offraient des conclusions similaires pour le grand public : en résumé, les incitations sont importantes et les hallucinations sont réelles.

“Vous pouvez trouver des informations précises, vous pouvez trouver des informations involontairement fabriquées”, a déclaré Gross. “Je ne conseillerais à personne de prendre des décisions médicales sur cette base.”

L’un des principaux avantages des chatbots est leur nature conversationnelle. Mais c’est aussi un piège potentiel, a noté Nayak.

“Ils donnent l’impression d’avoir une connaissance approfondie du sujet”, a-t-il souligné.

QUESTION

Mais si vous avez des questions sur un problème médical grave, Nayak a déclaré de les poser à votre fournisseur de soins de santé humain.

Plus d’informations

Le Pew Research Center propose plus d’informations sur la technologie de l’IA.

SOURCES : Ashwin Nayak, MD, MS, professeur adjoint clinique, médecine, École de médecine de l’Université Stanford, Stanford, Californie ; Cary Gross, MD, professeur, médecine et épidémiologie, École de médecine de l’Université de Yale, New Haven, Connecticut ; JAMA Internal Medicine, 17 juillet 2023, en ligne