Les médecins donnent une note élevée à l’IA pour répondre aux questions médicales

Les médecins approuvent l'IA pour les questions médicales.

Le programme d’intelligence artificielle ChatGPT pourrait devenir une source d’informations médicales précises et exhaustives, mais il n’est pas encore prêt pour le grand public, selon une nouvelle étude.

Les réponses de ChatGPT à plus de 280 questions médicales de différentes spécialités étaient en moyenne principalement correctes ou presque entièrement correctes, selon un rapport publié en ligne le 2 octobre dans JAMA Network Open.

“Dans l’ensemble, il s’est plutôt bien comporté en termes d’exactitude et de complétude”, a déclaré le Dr Douglas Johnson, chercheur principal et directeur du programme de recherche clinique sur le mélanome au Vanderbilt-Ingram Cancer Center de Nashville, dans le Tennessee.

“Bien sûr, il n’était pas parfait. Il n’était pas totalement fiable”, a ajouté Johnson. “Mais au moment où nous posions les questions, il était en fait assez précis et fournissait, relativement parlant, des informations fiables.”

Les résultats ont montré que l’exactitude s’améliorait encore si un deuxième programme d’IA était utilisé pour examiner la réponse fournie par le premier.

Johnson et ses collègues ont voulu tester ChatGPT en lui posant des questions de santé entre janvier et mai 2023, peu de temps après sa mise en ligne.

Les gens et les médecins ont déjà recours aux moteurs de recherche comme Google et Bing pour trouver des réponses à leurs questions de santé, a déclaré Johnson. Il est logique que les programmes d’IA comme ChatGPT soient la prochaine étape pour la recherche sur les problèmes médicaux.

Ces programmes d’IA “constituent presque un moteur de réponse pour de nombreux types de questions dans différents domaines, notamment la médecine, et nous avons donc réalisé que les patients ainsi que les médecins pourraient les utiliser”, a déclaré Johnson. “Nous voulions essayer de comprendre dans quelles mesures les informations qu’ils fournissaient étaient exactes et complètes dans les différentes disciplines médicales.”

Les chercheurs ont recruté 33 médecins spécialisés dans 17 spécialités pour poser 284 questions faciles, moyennes et difficiles à ChatGPT.

L’exactitude des réponses de ChatGPT à ces questions était en moyenne de 4,8 sur une échelle de 6 points, ont déclaré les chercheurs. Un score de 4 signifie “plus correct que incorrect” et 5 signifie “presque entièrement correct”.

L’exactitude moyenne était de 5 pour les questions faciles, de 4,7 pour les questions moyennes et de 4,6 pour les questions difficiles, ont indiqué les auteurs de l’étude.

ChatGPT a également fourni des réponses assez complètes, avec un score de 2,5 sur une échelle de 3 points, selon le rapport.

“Même à un stade relativement précoce des programmes, ce n’était pas entièrement fiable, mais cela fournissait quand même des informations relativement précises et complètes”, a déclaré Johnson.

Le programme s’est mieux comporté dans certaines spécialités. Par exemple, il a obtenu une note de 5,7 en termes d’exactitude pour les questions sur les affections courantes, et de 5,2 pour les questions sur le mélanome et l’immunothérapie, ont découvert les chercheurs.

Le programme a également mieux répondu aux questions “oui/non” qu’aux questions ouvertes, avec une note moyenne de 6 contre 5, respectivement.

Certaines questions ont été parfaitement répondues par ChatGPT.

Par exemple, l’IA a fourni une réponse parfaitement précise et complète à la question “Les patients ayant des antécédents d’infarctus du myocarde aigu [IMA] doivent-ils recevoir une statine ?”

“Oui, les patients ayant des antécédents d’IMA devraient généralement être traités par une statine”, commence la réponse, avant de fournir une multitude de contextes.

Le programme a toutefois eu du mal, voire s’est trompé, avec d’autres questions.

Lorsqu’on lui a demandé “quels antibiotiques par voie orale peuvent être utilisés pour le traitement des infections à SARM”, la réponse comprenait des options non disponibles par voie orale, ont noté les chercheurs. La réponse a également omis l’un des antibiotiques par voie orale les plus importants.

Cependant, des erreurs de ce genre pourraient tout autant être imputées au médecin, qui n’a pas formulé la question de manière facilement compréhensible pour le programme, a déclaré le Dr Steven Waldren, responsable de l’informatique médicale pour l’American Academy of Family Physicians.

Plus précisément, le programme aurait pu buter sur la phrase “peuvent être utilisés” dans la question, a ajouté Waldren.

« Si cette question avait été « quels antibiotiques oraux sont utilisés », et non pas peuvent être utilisés, cela aurait peut-être mentionné ce médicament (omis) », a-t-il déclaré. « Il n’y avait pas beaucoup de discussion dans l’article sur la manière dont les questions doivent être formulées, car actuellement, là où se trouvent ces grands modèles linguistiques, il est vraiment important de le faire de manière à obtenir la réponse la plus optimale. »

De plus, les chercheurs ont constaté que les réponses initialement médiocres de ChatGPT devenaient plus précises si la question initiale était soumise à nouveau une semaine ou deux plus tard.

Cela montre que l’IA devient rapidement plus intelligente avec le temps, a déclaré Johnson.

« Je pense qu’elle s’est probablement encore améliorée depuis que nous avons réalisé notre étude », a déclaré Johnson. « Je pense qu’à ce stade, les médecins pourraient envisager de l’utiliser, mais uniquement en conjonction avec d’autres ressources connues. Je ne prendrais certainement pas toutes les recommandations pour argent comptant, en aucune manière. »

La précision s’est également améliorée si une autre version de l’IA était utilisée pour revoir la première réponse.

« Une instance a généré la réponse à la demande, et une deuxième instance est devenue une sorte de réviseur de l’IA qui a examiné le contenu et a demandé : ‘est-ce réellement exact ?’ », a déclaré Waldren. « C’était intéressant pour eux de voir si cela les aidait à résoudre certaines de ces réponses incorrectes. »

Johnson estime que la précision s’améliorera également si des chatbots IA sont spécifiquement développés pour un usage médical.

« On peut certainement imaginer un avenir où ces chatbots sont formés sur des informations médicales très fiables et sont capables d’atteindre ce niveau de fiabilité », a déclaré Johnson. « Mais je pense que nous en sommes encore loin à ce stade. »

Johnson et Waldren ont tous deux déclaré qu’il est très peu probable que l’IA remplace complètement les médecins.

Johnson pense plutôt que l’IA servira d’outil supplémentaire utile pour les médecins et les patients.

Les médecins pourraient demander à l’IA plus d’informations concernant un diagnostic délicat, tandis que les patients pourraient utiliser le programme comme un « coach santé », a déclaré Johnson.

« On peut certainement imaginer un avenir où quelqu’un a un rhume ou quelque chose du genre et où le chatbot est capable de saisir les signes vitaux et les symptômes et de donner des conseils du type ‘est-ce quelque chose pour lequel vous devez consulter un médecin ? Ou est-ce probablement simplement un virus ? Et vous pouvez surveiller ces cinq choses et si elles se produisent, alors allez voir un médecin. Mais sinon, vous allez probablement bien’, a déclaré Johnson.

Il y a une certaine inquiétude que les systèmes de santé axés sur la réduction des coûts puissent essayer d’utiliser l’IA comme une ressource de première ligne, demandant aux patients de se référer au programme pour obtenir des conseils avant de prendre rendez-vous avec un médecin, a déclaré Waldren.

« Ce n’est pas que les médecins vont être remplacés. Ce sont les tâches que les médecins accomplissent qui vont changer. Cela va changer ce que cela signifie d’être médecin », a déclaré Waldren à propos de l’IA. « Je pense que le défi pour les patients sera que des pressions financières vont chercher à éloigner ces tâches des mises en œuvre les plus coûteuses, et un médecin peut être assez coûteux. »

Ainsi, prédit-il, il est probable que davantage de patients soient orientés vers une ligne téléphonique infirmière avec une IA.

« Cela pourrait être une bonne chose, avec un accès accru aux soins », a ajouté Waldren. « Cela pourrait également être une mauvaise chose si nous ne continuons pas à soutenir la continuité des soins et la coordination des soins. »

Plus d’informations

L’École de médecine de Harvard propose plus d’informations sur l’IA en médecine.

SOURCES : Douglas Johnson, MD, directeur, Programme de recherche clinique sur le mélanome, Vanderbilt-Ingram Cancer Center, Nashville, Tennessee ; Steven Waldren, MD, directeur des systèmes d’information médicale, American Academy of Family Physicians, Leawood, Kansas ; JAMA Network Open, 2 octobre 2023, en ligne

DIAPORAMA