Veille IA

Seules 3 revues sur 52 exigent la transparence des essais cliniques IA : le cas CONSORT-AI

12 février 2026 | Matthieu Ferry ⇄ IA

Publié en 2020, CONSORT-AI impose 14 critères de transparence pour les essais cliniques testant des interventions IA. Cinq ans plus tard, l'adhérence décline et la plupart des revues ignorent ces standards. Ce que ça révèle — et ce que ça change pour la lecture critique des études.

Source analysée

https://www.nature.com/articles/s41591-020-1034-x

Un problème de reproductibilité

Imaginez un essai clinique qui ne précise ni la version du médicament testé, ni si le traitement est accessible à d’autres chercheurs, ni comment les erreurs ont été identifiées. Inconcevable en pharmacologie. Courant dans les essais cliniques impliquant l’IA.

En septembre 2020, le CONSORT-AI & SPIRIT-AI Steering Group — dirigé par Xiaoxuan Liu (University of Birmingham) — publie simultanément dans Nature Medicine, The BMJ et The Lancet Digital Health une extension du CONSORT 2010 spécifiquement conçue pour les essais cliniques randomisés (RCTs) évaluant des interventions incluant une composante d’intelligence artificielle.

« CONSORT-AI recommande aux chercheurs de fournir des descriptions claires de l’intervention IA, incluant les instructions et compétences requises pour l’utilisation, le contexte dans lequel l’intervention IA est intégrée, le traitement des entrées et sorties, l’interaction humain-IA et la fourniture d’une analyse des cas d’erreur. »

— Liu et al. (2020), CONSORT-AI Extension, Nature Medicine

Le constat de départ était simple : les essais cliniques classiques ont des standards de reporting bien établis (CONSORT 2010). Mais ces standards ne couvrent pas les spécificités de l’IA — version de l’algorithme, interaction humain-machine, gestion des données d’entrée, analyse des erreurs. Sans ces informations, un essai clinique testant un chatbot thérapeutique ou un outil d’aide au diagnostic IA est invérifiable.

Ce que CONSORT-AI ajoute : 14 items AI-spécifiques

Le processus de développement a suivi le cadre de l’EQUATOR Network : génération de 29 items candidats par 34 experts, processus Delphi en 2 tours (103 parties prenantes internationales — cliniciens, informaticiens, méthodologistes, régulateurs, patients, éditeurs de revues), réunion de consensus de 2 jours avec 31 participants votant anonymement (seuil : 80%), et test pilote (34 participants). Sur 41 items évalués, 14 items AI-spécifiques ont atteint le consensus.

Voici les plus révélateurs pour un clinicien :

Version de l’algorithme

Spécifier quelle version exacte de l’algorithme a été utilisée. Parce qu’entre GPT-3.5 et GPT-4o, les performances sont radicalement différentes — et un même modèle évolue entre deux mises à jour silencieuses. C’est l’item le plus problématique : rapporté dans seulement 20 % des études.

11a

Interaction humain-IA

Quel niveau d’expertise est requis pour utiliser le système ? Quelles décisions l’humain prend-il ? Quelles décisions l’IA prend-elle ? Un outil de triage piloté par un psychiatre et un chatbot autonome face à un patient ne posent pas les mêmes questions de sécurité — mais sans cet item, on ne sait pas lequel a été testé.

Analyse des erreurs de performance

Comment les erreurs ont-elles été identifiées et analysées ? Au-delà du score moyen de performance, quels types d’erreurs le système commet-il ? En santé mentale, une erreur de diagnostic ou une réponse inadaptée face à un patient en crise suicidaire n’a pas le même poids qu’une imprécision dans un conseil nutritionnel.

Accessibilité du code et de l’intervention

Le code de l’IA est-il accessible ? Sous quelle licence ? Peut-on inspecter l’algorithme ? Sans cette information, la reproductibilité est impossible. Rapporté dans seulement 42 % des études. On demande aux chercheurs en pharmacologie de publier la composition de leurs molécules — pourquoi accepter moins en IA ?

Cinq ans après : le bilan qui inquiète

En 2024, Cruz Rivera et al. publient dans Nature Communications la première évaluation systématique de l’adoption de CONSORT-AI : 65 essais cliniques randomisés passés au crible.

Indicateur	Résultat	Ce que ça signifie
Concordance médiane globale	90 %	En apparence rassurant
RCTs citant explicitement CONSORT-AI	10 / 65	85 % des auteurs ne connaissent même pas la guideline
Item 5i — Version algorithme	20 %	4 études sur 5 ne disent pas quel modèle a été utilisé
Item 25 — Accessibilité code	42 %	Plus de la moitié des études sont non reproductibles
Item 5iii — Données mauvaise qualité	63 %	1 étude sur 3 ne dit pas comment elle gère les données manquantes
Revues exigeant CONSORT-AI	3 / 52	94 % des revues n’imposent aucune exigence IA

Le chiffre le plus parlant n’est pas la concordance globale (90 %) — c’est l’écart entre ce chiffre et les items critiques. Le score global masque des lacunes fondamentales. C’est comme obtenir 18/20 à un examen médical en répondant parfaitement aux questions générales, mais en ignorant les questions sur la posologie et les contre-indications.

Le déclin : quand plus d’essais rime avec moins de rigueur

Le constat s’aggrave quand on regarde la tendance. En oncologie, Chen et al. (2025) documentent un déclin préoccupant :

L’adhérence au CONSORT-AI en oncologie a chuté de 96 % en 2022 à 79 % en 2024. Et les essais jugés à haut risque de biais sont ceux qui respectent le moins les standards de reporting.

— Chen et al. (2025), « Five years after CONSORT-AI, not much has changed »

Ce n’est pas un hasard. L’augmentation du volume d’essais IA publiés a dilué la qualité. Plus d’équipes se lancent dans des essais IA, mais sans formation aux exigences spécifiques de ce type de recherche. Et les revues ne filtrent pas : 94 % d’entre elles ne demandent pas aux auteurs de respecter CONSORT-AI.

Articulation avec les frameworks de Hua, Choudhury et CHART

CONSORT-AI complète l’écosystème de cadres d’évaluation que nous construisons :

Framework	Question	Type d’étude ciblé
Hua (T1/T2/T3)	Quel niveau de preuve l’étude apporte-t-elle ?	Toutes les études IA en santé mentale
Choudhury	Pourquoi les résultats de labo ne prédisent-ils pas l’usage réel ?	Études de faisabilité et d’efficacité (T2/T3)
CHART	L’étude d’évaluation de chatbot est-elle transparente ?	Études d’évaluation de chatbots (benchmarks, vignettes)
CONSORT-AI	L’essai clinique IA rapporte-t-il les spécificités de l’intervention ?	Essais cliniques randomisés avec intervention IA (T3)

Hua vous dit à quel niveau de preuve se situe l’étude (T1, T2 ou T3)

Choudhury vous dit pourquoi le passage d’un niveau à l’autre n’a rien d’automatique

CHART vous dit si l’étude d’évaluation de chatbot est suffisamment transparente

CONSORT-AI vous dit si l’essai clinique IA rapporte les informations nécessaires pour être interprété

La distinction est simple : CHART s’applique aux études d’évaluation (« le LLM répond-il bien aux questions ? »), CONSORT-AI s’applique aux essais cliniques (« le système améliore-t-il la santé des patients ? »). Un essai randomisé testant un chatbot thérapeutique a besoin des deux.

Ce qui est solide dans cette proposition

Publication pionnière dans 3 revues majeures

Nature Medicine, The BMJ, The Lancet Digital Health — le trio de revues le plus influent en médecine. CONSORT-AI a été la première guideline de reporting spécifique à l’IA en essais cliniques, publiée avant que le volume d’essais ne rende le problème ingérable.

Il cible les bonnes questions

Les 14 items ne sont pas une liste bureaucratique. Chacun répond à un problème concret de reproductibilité : quelle version de l’algorithme ? Comment les erreurs sont-elles identifiées ? Quel niveau d’expertise humaine est requis ? Le code est-il accessible ? Ce sont exactement les questions qu’un lecteur critique devrait poser.

L’interaction humain-IA comme item explicite

L’item 11a exige de documenter l’interaction entre le clinicien et le système IA. C’est un point aveugle majeur dans la littérature actuelle : on sait rarement si un outil IA a été utilisé en autonomie totale ou sous supervision clinique. La différence est pourtant fondamentale pour évaluer les risques et les bénéfices.

Développé en parallèle de SPIRIT-AI

CONSORT-AI (reporting des résultats) et SPIRIT-AI (protocoles d’essais) forment un couple cohérent. C’est la même logique de transparence appliquée aux deux étapes : avant l’essai (protocole) et après (publication). Ce qui manque encore, c’est l’adoption systématique des deux.

Les limites — et pourquoi elles comptent

L’échec de l’adoption volontaire

Cinq ans après sa publication, seules 3 revues sur 52 exigent ou recommandent CONSORT-AI. Ni la publication dans Nature Medicine, ni le soutien de l’EQUATOR Network n’ont suffi à imposer ces standards. Le modèle « publier une guideline et attendre que le champ l’adopte » ne fonctionne pas — il faut des mécanismes d’enforcement : exigences des revues, conditions des financeurs, critères des comités d’éthique.

Comparaison : CONSORT 2010 est aujourd’hui exigé par la plupart des grandes revues médicales. CONSORT-AI, malgré la même légitimité institutionnelle, est ignoré par 94 % des revues publiant des essais IA. La question n’est pas la qualité de la guideline — c’est l’absence de levier pour la rendre obligatoire.

Exclu de CONSORT 2025

La mise à jour CONSORT 2025 et SPIRIT 2025, publiée récemment, n’intègre pas les recommandations AI-spécifiques dans le texte principal. Concrètement, cela signifie que les essais utilisant l’IA comme outil de traitement ou comme composante d’intervention n’ont aucune obligation supplémentaire de transparence dans le standard de base. Les items AI-spécifiques restent une « extension optionnelle » — une position difficilement défendable quand l’IA intervient dans un nombre croissant d’essais cliniques.

Systèmes continus et « IA comme thérapie » non couverts

CONSORT-AI a été développé en 2019-2020, quand les essais IA portaient principalement sur le diagnostic et le triage. Les systèmes d’apprentissage continu — ceux qui évoluent en temps réel au contact des patients — ont été explicitement exclus. De même, les interventions où l’IA est elle-même le traitement (chatbots thérapeutiques autonomes) ne sont pas suffisamment représentées dans le cadre actuel. C’est précisément le type d’intervention qui se développe le plus rapidement en santé mentale.

L’illusion du score global

La concordance médiane de 90 % donne une impression de conformité. Mais les items les plus critiques sont ceux qui ont la plus faible adhérence : version du modèle (20 %), accessibilité du code (42 %), gestion des données manquantes (63 %). Un score global élevé peut masquer des lacunes qui rendent l’étude fondamentalement non reproductible. C’est comme un dossier médical bien rempli — sauf la posologie et les antécédents allergiques.

Notre position

CONSORT-AI est un outil de lecture critique essentiel — mais son histoire est aussi une leçon sur les limites des guidelines sans mécanismes d’enforcement.

Vérifiez trois items avant de lire le reste

Quand vous lisez un essai clinique testant une intervention IA en santé mentale, vérifiez immédiatement : la version de l’algorithme est-elle spécifiée (Item 5i) ? L’interaction humain-IA est-elle documentée (Item 11a) ? Les erreurs sont-elles analysées (Item 19) ? Si ces trois informations manquent, l’étude ne vous donne pas assez d’éléments pour juger de sa transposabilité à votre pratique — quelle que soit la revue où elle est publiée.

La publication ne crée pas l’adoption

CONSORT-AI est un cas d’école : une guideline rigoureuse, publiée dans les meilleures revues, développée par consensus international — et pourtant largement ignorée cinq ans après. Ce n’est pas un échec de la guideline, c’est un échec systémique. La transparence scientifique ne se décrète pas : elle s’impose par les revues, les financeurs et les régulateurs. Tant que 94 % des revues n’exigent pas CONSORT-AI, sa portée restera limitée.

Quatre frameworks, une grille de lecture

Avec Hua (niveau de preuve), Choudhury (validité écologique), CHART (transparence des évaluations de chatbots) et CONSORT-AI (transparence des essais cliniques), nous disposons maintenant d’une grille intégrée pour évaluer la quasi-totalité des études IA en santé mentale. Aucun de ces cadres ne suffit seul. Ensemble, ils permettent une lecture critique qui dépasse largement ce que le résumé d’un article peut offrir.

Référence analysée : Liu, X., et al. (2020). Reporting guidelines for clinical trial reports for interventions involving artificial intelligence: the CONSORT-AI extension. Nature Medicine, 26, 1364-1374. DOI: 10.1038/s41591-020-1034-x

Études d’évaluation citées :

Cruz Rivera, S., et al. (2024). Concordance of randomised controlled trials for artificial intelligence interventions with the CONSORT-AI reporting guidelines. Nature Communications, 15, 1566. https://doi.org/10.1038/s41467-024-45355-3
Chen, E., et al. (2025). Five years after CONSORT-AI, not much has changed: a call to action for artificial intelligence research in oncology.

Lectures complémentaires :

Notre décryptage du CHART Statement : Moins de 40 % des études sur les chatbots en santé rapportent leur stratégie de requête
Notre décryptage du framework de Hua : 77 % des études sur les LLM en santé mentale ne dépassent pas le stade du test technique
Notre décryptage du cadre de Choudhury : Pourquoi une IA qui « surpasse les médecins » en labo peut échouer en cabinet
Notre article sur les distinctions terminologiques : IA, chatbot, LLM, app : pourquoi il faut arrêter de tout confondre
EQUATOR Network : CONSORT-AI Extension

Série : Cadres d’évaluation de l’IA en santé

1. Hua : trois niveaux de preuve IA en santé mentale
1. Choudhury : validité écologique des études LLM
1. CHART : transparence des chatbots de santé
1. CONSORT-AI : transparence des essais cliniques IA (cet article)
1. CONSORT/SPIRIT 2025 : Science Ouverte oui, IA non
1. PROBAST+AI : qualité des modèles de prédiction IA

Mots-clés

reporting guideline essai clinique transparence méthodologique reproductibilité évaluation IA

LinkedIn X Facebook Email

Concepts abordés

Définitions et concepts clés abordés dans cet article.

Concepts clés

Comprendre les enjeux IA-psy

Témoignages

Retours de praticiens

Outils IA

Fiches modèles pour cliniciens

Toutes les analyses