Veille IA

Moins de 40 % des études sur les chatbots en santé rapportent leur stratégie de requête : le CHART Statement

| Matthieu Ferry ⇄ IA

Sur 137 études publiées dans l'année suivant le lancement de ChatGPT, moins de 40 % rapportent les éléments clés de leur stratégie de requête. Un consortium international de 531 experts propose 12 critères pour y remédier — et changer la manière dont nous lisons ces études.

Le problème que personne ne voyait

Imaginez un essai clinique médicamenteux qui ne précise ni le nom du médicament, ni sa posologie, ni les dates d’administration. Impensable ? C’est pourtant l’équivalent de ce qui se passe dans une majorité d’études sur les chatbots en santé.

En août 2025, le CHART Collaborative — un consortium international de plus de 50 chercheurs dirigé par Bright Huo (McMaster University) — publie simultanément dans six revues (JAMA Network Open, BMJ Medicine, BJS, BMC Medicine, Annals of Family Medicine, Artificial Intelligence in Medicine) les résultats d’un constat alarmant :

« Moins de 40 % des articles rapportent les éléments clés de leur stratégie de requête. »

— Huo et al. (2025), CHART Statement, revue systématique de 137 études

Autrement dit : la majorité des études affirmant que « l’IA surpasse les médecins » ou que « les LLM sont des assistants fiables » ne fournissent pas assez d’informations pour que quiconque puisse reproduire leurs résultats — ni même vérifier ce qu’elles ont réellement mesuré.


Ce que la revue systématique a trouvé

L’équipe a passé au crible 7 752 articles pour identifier 137 études éligibles, toutes publiées dans l’année suivant le lancement de ChatGPT (novembre 2022). Le résultat est accablant :

Élément de reportingRapporté ?Conséquence
Stratégie de requête complète< 40 %Impossible de savoir ce qui a été demandé à l’IA
Prompts bruts utilisésRareImpossible de reproduire l’expérience
Réponses complètes du modèleRareImpossible de vérifier l’évaluation des auteurs
Identification précise du modèleInsuffisantOn ne sait pas quel modèle a été testé
Dates des requêtesInsuffisantUn même modèle donne des résultats différents d’un mois à l’autre

Ce n’est pas un problème mineur. C’est comme publier un essai clinique en disant « nous avons donné un médicament à des patients et ça a marché » — sans préciser lequel, à quelle dose, pendant combien de temps, ni comment vous avez mesuré le résultat.


Le CHART Statement : 12 critères pour y remédier

Pour répondre à ce problème, le CHART Collaborative a développé une checklist de 12 items et 39 sous-items via un processus rigoureux : processus Delphi asynchrone avec 531 parties prenantes internationales (cliniciens, méthodologistes, chercheurs IA, éditeurs de revues, éthiciens), 3 réunions de consensus synchrones avec 48 experts, et tests pilotes itératifs.

Voici les items les plus révélateurs pour un clinicien :

3

Identifiants du modèle

Nom, version, date de mise à jour, statut open-source ou propriétaire. Parce qu’écrire « nous avons utilisé ChatGPT » ne suffit pas — entre GPT-3.5 et GPT-4o, les performances sont radicalement différentes. Et un même modèle se comporte différemment selon sa version et la date d’accès.

5

Prompt engineering

Comment les prompts ont-ils été développés ? Par qui ? Combien de personnes étaient impliquées ? Les patients ont-ils participé à leur conception ? Et surtout : publiez les prompts réels utilisés. C’est l’équivalent de publier le protocole d’un essai clinique — sans cela, rien n’est vérifiable.

6

Stratégie de requête

Route d’accès au modèle (API, interface web, app), dates et lieux précis des requêtes (jour/mois/année + ville/pays), sessions séparées ou continues, et — point crucial — toutes les réponses du chatbot, pas seulement celles qui servent l’argument.

7

Évaluation de performance

Quel est le standard de référence (ground truth) ? Combien d’évaluateurs ? Quelles sont leurs qualifications ? Étaient-ils en aveugle ? Si trois étudiants notent les réponses de ChatGPT sans savoir si elles viennent d’un humain ou d’une IA, ce n’est pas la même chose que trois psychiatres seniors évaluant en aveugle.

10

Résultats : biais et danger

Au-delà de la performance globale, l’étude doit évaluer explicitement les réponses potentiellement nuisibles, biaisées ou trompeuses. C’est l’item le plus important pour la santé mentale : une seule réponse dangereuse face à un patient suicidaire importe plus qu’un score moyen de 85 % de précision.


Pourquoi les dates et les lieux comptent

L’exigence de préciser les dates et lieux des requêtes (Item 6b) peut sembler bureaucratique. Elle ne l’est pas. Les LLM ne sont pas des molécules stables : ils changent constamment.

Un même prompt soumis à GPT-4 en mars 2024 et en septembre 2024 peut donner des résultats radicalement différents. OpenAI met à jour ses modèles régulièrement, parfois sans avertissement. Si une étude ne précise pas quand elle a interrogé le modèle, ses résultats ne sont pas reproductibles par définition — parce que le « médicament » testé n’existe plus.

C’est une spécificité fondamentale par rapport aux essais cliniques classiques : en pharmacologie, la molécule testée reste la même. En IA, l’objet d’étude est une cible mouvante.


Articulation avec les frameworks de Hua et Choudhury

Le CHART Statement s’inscrit dans un écosystème de cadres complémentaires que nous avons analysés :

FrameworkQuestionCe qu’il apporte
Hua (T1/T2/T3)Quel niveau de preuve l’étude apporte-t-elle ?Distingue test technique, faisabilité et efficacité clinique
ChoudhuryPourquoi les résultats de labo ne prédisent-ils pas l’usage réel ?Identifie les facteurs humains (confiance, charge cognitive, accountability)
CHARTL’étude est-elle suffisamment transparente pour être évaluée ?Vérifie que les informations minimales sont rapportées

Hua vous dit à quel niveau de preuve se situe une étude (T1, T2 ou T3)

Choudhury vous dit pourquoi le passage d’un niveau à l’autre n’a rien d’automatique

CHART vous dit si l’étude rapporte assez d’informations pour que vous puissiez même commencer à l’évaluer

CHART est en quelque sorte le filtre préalable : avant de se demander si une étude est T1 ou T3, encore faut-il qu’elle fournisse les informations de base pour être interprétable.


Ce qui est solide dans cette proposition

1

Processus de développement exemplaire

531 parties prenantes dans le processus Delphi, 48 experts pour les réunions de consensus, seuil de 80 % d’accord, tests pilotes itératifs. C’est le niveau de rigueur méthodologique que le CHART demande aux études qu’il évalue — et qu’il s’applique à lui-même.

2

Il cible exactement le vide réglementaire

CONSORT-AI couvre les essais cliniques avec IA. STROBE couvre les études observationnelles. TRIPOD+AI couvre les modèles prédictifs. Mais aucune guideline ne couvrait les études d’évaluation de chatbots — c’est-à-dire la très grande majorité de la littérature récente sur les LLM en santé. CHART comble ce vide.

3

Approche « living guideline »

Mises à jour semestrielles les deux premières années, puis annuelles. Un panel de 14 experts assure une surveillance continue de la littérature avec un seuil de 90 % d’accord pour toute modification. Contrairement à un standard figé, CHART reconnaît que son objet — les chatbots d’IA — évolue trop vite pour un standard statique.

4

Publication simultanée dans 6 revues

C’est un signal fort de légitimité institutionnelle. Quand JAMA Network Open, BMJ Medicine et Annals of Family Medicine publient le même standard le même jour, les éditeurs de revues prennent note. L’adoption par les revues est la clé de l’impact réel d’une guideline de reporting.


Les limites — et pourquoi elles comptent

1

Reporting ≠ qualité

CHART est un outil de transparence, pas de qualité méthodologique. Une étude peut remplir les 12 items de la checklist et rester méthodologiquement faible — si le standard de référence est mal choisi, si l’échantillon est trop petit, ou si les conclusions dépassent les données. Cocher tous les items ne garantit pas une bonne étude. Cela garantit seulement qu’on peut la juger.

Analogie clinique : c’est la différence entre un compte-rendu d’hospitalisation complet et un bon diagnostic. Le premier est nécessaire pour évaluer le second, mais il ne le remplace pas.

2

Centré sur le texte, pas encore sur le multimodal

CHART a été conçu pour les chatbots textuels. Or les modèles récents sont de plus en plus multimodaux (texte + image + audio + vidéo). Comment rapporter une interaction où le patient montre une image à l’IA ? Où le chatbot analyse le ton de la voix ? Le cadre devra évoluer rapidement sur ce point — et c’est précisément pour cela que l’approche « living guideline » est pertinente.

3

Ne couvre pas les essais cliniques

CHART est conçu pour les études d’évaluation de performance (vignettes, benchmarks, scoring). Si un essai randomisé teste un chatbot thérapeutique avec de vrais patients, il doit utiliser CONSORT-AI en complément — CHART seul ne suffit pas pour le volet essai clinique. Les auteurs le disent eux-mêmes : CHART est complémentaire, pas auto-suffisant.

4

Le risque du check-listing superficiel

Comme toute checklist, CHART peut être rempli mécaniquement. Le danger : des études qui cochent tous les items sans réflexion méthodologique profonde. « Nous avons utilisé GPT-4o version du 15 mars 2025 ✓ » satisfait formellement l’Item 3 — mais ne dit rien sur le choix de ce modèle plutôt qu’un autre, ni sur les implications de ce choix pour la généralisabilité des résultats.


Notre position

Le CHART Statement est un outil de lecture critique indispensable pour quiconque s’intéresse aux études sur les chatbots en santé — et particulièrement en santé mentale.

1

Utilisez CHART comme filtre de lecture immédiat

Quand vous lisez une étude sur un chatbot en santé mentale, vérifiez d’abord trois choses : le modèle est-il précisément identifié (Item 3) ? Les prompts sont-ils publiés (Item 5) ? Les réponses dangereuses ont-elles été évaluées (Item 10) ? Si la réponse à l’une de ces questions est non, la valeur de l’étude est invérifiable — quelle que soit la revue où elle est publiée.

2

Combinez les trois frameworks pour une lecture complète

CHART d’abord : l’étude est-elle interprétable ? Puis Hua : quel est son niveau de preuve (T1, T2 ou T3) ? Puis Choudhury : quels facteurs humains la limitent ? En trois minutes, vous avez une évaluation structurée qui dépasse largement la lecture du résumé et des conclusions des auteurs.

3

La transparence est le minimum, pas le maximum

CHART ne résout pas tous les problèmes. Un reporting parfait ne compense ni l’absence de patients réels, ni le déficit de validité écologique, ni la confusion entre performance technique et efficacité thérapeutique. Mais sans transparence méthodologique, il n’y a même pas de conversation scientifique possible. C’est le socle — pas le sommet — de la rigueur.


Référence analysée : Huo, B., et al. (2025). Reporting Guideline for Chatbot Health Advice Studies: The CHART Statement. JAMA Network Open, BMJ Medicine, BJS, BMC Medicine, Annals of Family Medicine, Artificial Intelligence in Medicine. DOI: 10.1136/bmjmed-2025-001632

Lectures complémentaires :


Mots-clés

reporting guideline chatbot transparence méthodologique reproductibilité évaluation IA