Veille IA

PROBAST+AI : 34 questions que la majorité des modèles de prédiction IA en santé ne survivent pas

| Matthieu Ferry ⇄ IA

Publié dans le BMJ en mars 2025, PROBAST+AI est le premier outil d'évaluation de la qualité des modèles de prédiction clinique qui soumet les approches statistiques classiques et celles issues de l'intelligence artificielle aux mêmes exigences de rigueur. Son constat de départ est accablant : la majorité des modèles publiés sont de mauvaise qualité, leurs performances sont surestimées et leurs biais passent inaperçus. Sixième volet de notre série sur les cadres d'évaluation de l'IA en santé.

On ne prescrit pas un médicament sans l’évaluer — pourquoi le ferait-on avec un algorithme de prédiction ?

Avant de mettre un médicament sur le marché, on exige des essais cliniques rigoureux, une évaluation des effets secondaires, une validation sur des populations diversifiées. Quand un algorithme promet de prédire le risque de suicide, de dépister une dépression ou de guider une décision thérapeutique, que lui demande-t-on ? Dans la plupart des cas : un score de précision impressionnant calculé sur un jeu de données interne, et une publication dans une revue à comité de lecture.

Précision importante : dans cet article, il n’est pas question de ChatGPT ni des agents conversationnels. Un modèle de prédiction clinique est un outil très différent : c’est un algorithme qui, à partir de données d’un patient (âge, antécédents, résultats d’examens, scores à des échelles…), calcule la probabilité d’un événement de santé — par exemple le risque de récidive dépressive à six mois, ou la probabilité qu’une tentative de suicide survienne dans l’année. Ce sont les « scores de risque » que vous utilisez peut-être déjà en clinique, sous forme de formules ou de calculateurs en ligne.

C’est le constat que dressent Karel G. M. Moons et 23 co-auteurs dans le BMJ en mars 2025, en publiant PROBAST+AI — une mise à jour de PROBAST (2019) qui évalue la qualité, le risque de biais et l’applicabilité de ces modèles de prédiction.

« De nombreuses revues systématiques menées au cours des vingt dernières années ont montré que la majorité des modèles publiés, y compris ceux fondés sur l’apprentissage automatique, sont de mauvaise qualité, que leurs performances prédictives annoncées présentent un risque élevé de biais, et que des problèmes d’équité affectent les prédictions pour certains groupes de patients. »

— Moons et al. (2025), PROBAST+AI, BMJ

Ce constat ne vient pas d’un militant technophobe. Il émane du créateur de l’outil de référence mondiale pour les revues systématiques de modèles de prédiction, publié dans l’une des cinq revues médicales les plus influentes au monde. Autrement dit : l’expert qui a passé vingt ans à examiner ces modèles nous dit que la majorité d’entre eux ne tiennent pas la route — qu’ils reposent sur des formules statistiques traditionnelles ou sur les techniques les plus récentes d’intelligence artificielle.


Modèle prédictif basé sur des formules statistiques classiques ou à base d’IA : un faux dilemme

Pour comprendre l’enjeu de PROBAST+AI, il faut d’abord saisir une distinction que l’article refuse de maintenir — et c’est là sa première contribution majeure.

Historiquement, les modèles de prédiction clinique reposaient sur des méthodes statistiques classiques : la régression logistique, par exemple, qui combine quelques variables (âge, sexe, score à une échelle, antécédents) dans une formule transparente pour estimer un risque. C’est le principe des calculateurs de risque cardiovasculaire que certains médecins utilisent en consultation.

Depuis une quinzaine d’années, des techniques issues de l’intelligence artificielle — qu’on appelle aussi « apprentissage automatique » — proposent une approche différente : au lieu d’une formule prédéfinie, on laisse un algorithme « apprendre » les régularités dans de grandes quantités de données. Réseaux de neurones, forêts aléatoires, algorithmes de gradient boosting : ces techniques peuvent intégrer des centaines de variables et détecter des relations que l’œil humain ne repère pas.

« Toute distinction stricte entre méthodes statistiques et méthodes d’apprentissage automatique devient rapidement une fausse opposition. »

— Moons et al. (2025)

Car malgré leurs différences techniques, ces deux familles de modèles cherchent à faire exactement la même chose : prédire un résultat clinique à partir de données patient. Et surtout, elles sont sujettes aux mêmes problèmes fondamentaux : le modèle a-t-il été testé sur des patients différents de ceux qui ont servi à le construire ? Les données utilisées représentent-elles la diversité des patients réels ? Le modèle ne s’est-il pas simplement « adapté » aux particularités de son jeu de données d’entraînement au point de ne plus fonctionner ailleurs ?

La différence essentielle n’est pas dans la nature des problèmes, mais dans leur visibilité. Une formule à cinq variables, on peut la lire, la comprendre, la critiquer. Un réseau de neurones à cinquante millions de paramètres, on ne peut qu’observer ce qu’il produit. Les biais ne sont pas différents — ils sont simplement plus difficiles à détecter.

L’ironie : les auteurs reconnaissent ce faux dilemme tout en nommant leur outil « PROBAST+AI ». Le suffixe attire l’attention dans un champ saturé de publications sur l’IA — mais il renforce la catégorisation binaire que l’article prétend dépasser. Tension non résolue, mais pragmatiquement efficace.


Quatre domaines, 34 questions d’évaluation

PROBAST+AI examine les modèles de prédiction selon quatre domaines, chacun subdivisé en questions précises qui guident l’évaluation :

D1

Participants

Les personnes incluses dans l’étude sont-elles représentatives des patients sur lesquels le modèle sera utilisé ? Les critères d’inclusion sont-ils appropriés ? L’échantillon est-il suffisamment diversifié ? C’est ici que se joue la question de l’applicabilité : un modèle développé sur une cohorte hospitalière universitaire nord-américaine ne prédit pas forcément le même risque chez un patient suivi en CMP en France, avec un parcours de soins et un contexte socio-culturel différents.

D2

Variables d’entrée (prédicteurs)

Les informations utilisées par le modèle sont-elles disponibles au moment où l’on a besoin de la prédiction ? Sont-elles mesurées de manière fiable ? Un modèle qui utilise le diagnostic final comme donnée d’entrée pour estimer un pronostic a un problème logique fondamental — mais c’est plus courant qu’on ne le croit. Pour les modèles fondés sur l’IA, PROBAST+AI ajoute des questions spécifiques : les données d’entraînement sont-elles documentées ? Les biais de représentation ont-ils été identifiés ?

D3

Résultat prédit

Le résultat que le modèle cherche à prédire est-il clairement défini ? Mesuré de manière standardisée ? Indépendant des données d’entrée ? En santé mentale, cet enjeu est critique : comment définit-on une « amélioration » ? Par un score au PHQ-9 (questionnaire de dépression), par le jugement clinique, par le ressenti du patient ? Un modèle qui prédit le PHQ-9 à partir du PHQ-9 ne prédit rien — il mesure la stabilité d’un questionnaire.

D4

Analyse

C’est le domaine le plus technique — et celui où les modèles échouent le plus souvent. La taille de l’échantillon est-elle suffisante pour le nombre de variables utilisées ? Le modèle a-t-il été testé sur des données qu’il n’a jamais vues (validation externe) ? Et surtout : sa calibration a-t-elle été vérifiée ? La calibration, c’est l’accord entre le risque annoncé par le modèle et le risque réellement observé. Un modèle peut très bien distinguer les patients à haut risque de ceux à faible risque (on parle de discrimination) tout en se trompant systématiquement sur les chiffres : annoncer 60 % de risque quand le risque réel est de 20 %. En clinique, cette distinction est cruciale.


L’innovation : évaluer la fabrication, pas seulement le produit fini

La contribution conceptuelle la plus importante de PROBAST+AI est une distinction que les cliniciens comprendront immédiatement : la différence entre évaluer la qualité de fabrication d’un modèle et évaluer le risque de biais dans ses résultats.

« Le développement d’un modèle est le processus concret de construction, de production ou de fabrication d’un modèle de prédiction […] Chaque modèle n’est développé qu’une seule fois ; cela peut être comparé à la fabrication d’un test médical, d’un dispositif ou d’un médicament. »

— Moons et al. (2025)

L’analogie est parlante. Un médicament est fabriqué une fois, puis testé à plusieurs reprises dans des conditions différentes : populations variées, hôpitaux différents, pays différents. De même, un modèle de prédiction est développé une fois — on choisit les variables, on définit l’architecture de l’algorithme, on l’entraîne sur un jeu de données — puis on évalue ses performances dans des contextes nouveaux. PROBAST+AI distingue clairement ces deux étapes :

  • Qualité du développement : Le processus de fabrication était-il rigoureux ? L’échantillon était-il assez grand ? Le risque de surapprentissage a-t-il été maîtrisé ? (Le surapprentissage, c’est quand un modèle s’adapte tellement bien aux données qui ont servi à le construire qu’il perd sa capacité à fonctionner sur de nouvelles données — un peu comme un étudiant qui apprendrait par cœur les réponses d’un examen sans comprendre la matière.)
  • Risque de biais dans l’évaluation : Les tests de performance sont-ils fiables ? Le modèle a-t-il été mis à l’épreuve sur des données qu’il n’a jamais vues ? Sa calibration a-t-elle été vérifiée ? Les résultats ont-ils été analysés par sous-groupes de patients ?

Un modèle bien fabriqué peut être mal évalué si on ne le teste que sur les données qui ont servi à le construire. Inversement, un modèle mal fabriqué peut sembler performant grâce au surapprentissage. PROBAST+AI exige de vérifier les deux.


L’équité algorithmique : intégrée, mais réductrice

PROBAST+AI est le premier outil d’évaluation méthodologique à intégrer la dimension de l’équité algorithmique — c’est-à-dire la question de savoir si un modèle produit des résultats justes pour tous les groupes de patients, indépendamment de leur origine, de leur genre ou de leur statut socio-économique. Les questions sur les biais de représentation et l’impact différentiel sur les sous-groupes sont distribuées à travers les quatre domaines de l’outil.

C’est une avancée. Mais c’est aussi une simplification.

!

Ce que PROBAST+AI fait bien

Poser systématiquement la question : « Les prédictions de l’algorithme bénéficient-elles ou désavantagent-elles certains groupes de patients sans raison justifiée ? » Le simple fait d’exiger cette interrogation dans chaque revue systématique est un progrès considérable par rapport à la situation actuelle, où la plupart des études ne mentionnent même pas cette dimension.

!

Ce que PROBAST+AI ne peut pas faire

Résoudre un dilemme que les mathématiques ont démontré insoluble. Des travaux fondamentaux (Chouldechova 2017, Kleinberg et al. 2016) ont montré que les différentes façons de définir l’équité d’un algorithme — traiter tous les groupes de manière proportionnelle, offrir les mêmes chances à chacun, produire des prédictions de même fiabilité pour tous — ne peuvent pas être satisfaites en même temps. Un modèle considéré comme juste selon un critère sera nécessairement injuste selon un autre. PROBAST+AI réduit cette question, qui est autant philosophique et politique que technique, à un critère évaluable par liste de vérification. C’est commode, mais intellectuellement incomplet.

Les auteurs eux-mêmes le reconnaissent : l’évaluation définitive de l’équité d’un algorithme ne peut se faire qu’au moment de son déploiement dans la pratique quotidienne, pas au stade de la publication scientifique. Ce qui relativise considérablement la portée de leur propre outil sur cette dimension.


Articulation avec la série : six cadres, une grille intégrée

PROBAST+AI complète l’écosystème de cadres d’évaluation que nous construisons dans cette série. Voici où il se situe :

CadreQuestionType d’étude cibléFocus
Hua (2022)Quel niveau de preuve l’étude apporte-t-elle ?Toutes les études IA en santé mentaleClassification
Choudhury (2024)Pourquoi les résultats de laboratoire ne prédisent-ils pas l’usage réel ?Études de faisabilité et d’efficacitéValidité
CHART (2024)L’étude d’évaluation de chatbot est-elle transparente ?Évaluations de chatbots santéReporting
CONSORT-AI (2020)L’essai clinique IA rapporte-t-il les spécificités de l’intervention ?Essais cliniques randomisés avec IAReporting
CONSORT/SPIRIT 2025L’essai clinique respecte-t-il les standards de base (Science Ouverte) ?Tous les essais cliniques randomisésReporting
PROBAST+AI (2025)Le modèle de prédiction a-t-il été développé et évalué correctement ?Études de modèles prédictifs (diagnostic, pronostic)Qualité

La distinction est essentielle : les cinq premiers cadres évaluent la transparence du compte-rendu (ce que l’article rapporte) ou la validité des conclusions (ce que l’étude démontre). PROBAST+AI évalue la qualité de ce qui a été réellement fait — la rigueur du processus de construction et de test du modèle. Un article peut être parfaitement rédigé selon les standards CONSORT-AI tout en décrivant un modèle de mauvaise qualité selon les critères PROBAST+AI.

Hua vous dit à quel niveau de preuve se situe l’étude

Choudhury vous dit pourquoi le passage d’un niveau à l’autre n’a rien d’automatique

CHART et CONSORT-AI vous disent si l’étude rapporte les informations nécessaires pour la juger

PROBAST+AI vous dit si le modèle lui-même a été bien construit et rigoureusement évalué


Ce qui est solide dans cette proposition

1

Un processus de développement exemplaire

L’outil a été construit selon la méthode Delphi en trois tours (95 à 144 participants issus de six continents), suivi d’une réunion de consensus réunissant 26 experts, avec un seuil d’accord fixé à 80 %. Le protocole avait été pré-publié. C’est un modèle de rigueur méthodologique — qui illustre l’écart entre ce que la communauté scientifique sait faire quand elle s’en donne les moyens, et la qualité moyenne de ce qu’elle produit au quotidien.

2

L’analogie avec le médicament normalise l’exigence envers l’IA

En comparant un modèle de prédiction à un dispositif médical, PROBAST+AI ouvre la voie à un traitement réglementaire comparable. On ne met pas un dispositif médical sur le marché sans validation indépendante — pourquoi accepterait-on qu’un algorithme de prédiction du risque suicidaire soit déployé sur la seule base de ses performances internes ?

3

Un outil directement utilisable pour la lecture critique

Les 34 questions d’évaluation sont concrètes et applicables. Un clinicien qui lit une étude affirmant qu’un algorithme « prédit la dépression avec 92 % de précision » peut immédiatement vérifier : a-t-il été testé sur des patients qu’il n’avait jamais vus ? Sa calibration a-t-elle été évaluée ? Les données reflètent-elles la diversité de ma patientèle ? Les variables utilisées sont-elles disponibles dans mon contexte de soin ? Ce dernier point rejoint la question de la validité écologique : un modèle performant en laboratoire ne l’est pas nécessairement dans la réalité du cabinet. Quatre questions qui transforment un score impressionnant en objet d’interrogation légitime.

4

Refuser l’exceptionnalisme IA

En soumettant l’IA et les méthodes statistiques traditionnelles aux mêmes critères d’évaluation, PROBAST+AI évite un double piège : l’enthousiasme aveugle (« c’est de l’IA, donc c’est forcément mieux ») et la méfiance irrationnelle (« c’est de l’IA, donc c’est forcément suspect »). Les mêmes exigences de qualité s’appliquent, quels que soient les moyens techniques employés. C’est exactement la posture que nous défendons dans cette série.


Les limites — et pourquoi elles comptent

1

Aucune validation empirique de l’outil lui-même

PROBAST+AI n’a pas été testé empiriquement : on ne sait pas si les modèles qu’il juge favorablement fonctionnent effectivement mieux en pratique clinique que ceux qu’il juge mal. La fiabilité entre évaluateurs — c’est-à-dire la capacité de deux personnes différentes à arriver aux mêmes conclusions en utilisant l’outil — avait été mesurée pour la version précédente PROBAST (2019) mais pas pour PROBAST+AI, qui contient 34 questions (contre 20 auparavant) et des critères substantiellement modifiés.

Le double standard : l’outil exige des études de prédiction une validation externe rigoureuse — mais ne s’applique pas cette même exigence à lui-même. C’est la contradiction la plus significative identifiée dans l’article.

2

Une liste de vérification ne change pas les incitations

Les auteurs documentent un problème systémique : la mauvaise qualité généralisée des études de prédiction. Mais ils proposent une réponse individuelle — une grille que chaque évaluateur applique article par article. Les racines structurelles du problème (pression à publier, absence de partage des données, manque de régulation) ne sont pas adressées. Pire : une liste de vérification crée un risque de conformité de façade — les chercheurs optimisant la rédaction de leurs articles pour cocher les cases sans améliorer la qualité réelle de leur travail. C’est l’équivalent, en recherche médicale, du « bachotage » avant un examen : on apprend à satisfaire les critères sans nécessairement maîtriser le fond.

3

Le modèle évalué hors de son contexte d’usage

PROBAST+AI évalue le modèle comme un objet technique isolé. Mais en pratique clinique, un modèle de prédiction n’existe jamais seul : il est intégré dans un parcours de soin, utilisé par un professionnel dont le niveau d’expertise et de confiance envers l’outil varie, face à un patient dans un contexte singulier. L’interaction clinicien-modèle-patient — ce que Choudhury appelle le « contexte écologique » — est absente de l’évaluation. Un modèle parfaitement construit peut échouer dans un contexte clinique inadapté, et un modèle imparfait peut s’avérer utile entre les mains d’un praticien qui en connaît les limites.


Notre position

PROBAST+AI est le sixième cadre d’évaluation analysé dans cette série — et c’est celui qui pousse le plus loin l’exigence de rigueur méthodologique. Mais il partage les limites structurelles de tous les outils fondés sur des listes de vérification.

1

Quatre questions à poser face à un modèle de prédiction

Quand une étude annonce qu’un algorithme « prédit » un résultat clinique, posez immédiatement : (1) sur quelle population a-t-il été développé, et ressemble-t-elle à mes patients ? (2) a-t-il été mis à l’épreuve sur des données qu’il n’a jamais vues ? (3) sa calibration a-t-elle été vérifiée — c’est-à-dire les probabilités qu’il annonce correspondent-elles à la réalité ? (4) les informations qu’il utilise sont-elles disponibles dans mon contexte de soin ? Si une seule de ces réponses est « non » ou « non précisé », le modèle n’offre pas assez de garanties pour guider votre pratique.

2

Ne confondez pas précision et fiabilité

Un modèle peut afficher une « précision de 95 % » tout en étant mal calibré — c’est-à-dire en attribuant systématiquement des probabilités de risque trop élevées ou trop basses. En pratique clinique, cette calibration compte davantage que la simple capacité à classer les patients : ce qui importe pour une décision de soin, ce n’est pas seulement de savoir qu’un patient est « à risque », mais de savoir si ce risque est de 5 %, 30 % ou 80 %. PROBAST+AI est le premier outil à intégrer cette exigence de manière systématique.

3

Six cadres, une grille de lecture complète

Avec Hua (niveau de preuve), Choudhury (validité écologique), CHART (transparence des évaluations de chatbots), CONSORT-AI (transparence des essais cliniques IA), CONSORT/SPIRIT 2025 (standards de base) et PROBAST+AI (qualité méthodologique des modèles), nous disposons désormais d’une grille intégrée pour évaluer la quasi-totalité des études sur l’IA en santé. Aucun de ces cadres ne suffit isolément. PROBAST+AI ajoute la pièce qui manquait : l’évaluation de la qualité de ce que les chercheurs ont réellement fait, pas seulement de ce qu’ils rapportent.


Référence analysée : Moons, K. G. M., Damen, J. A. A., Kaul, T. et al. (2025). PROBAST+AI: an updated quality, risk of bias, and applicability assessment tool for prediction models using regression or artificial intelligence methods. BMJ, 388, e082505. DOI: 10.1136/bmj-2024-082505

Références complémentaires :

  • Wolff, R. F. et al. (2019). PROBAST: A Tool to Assess Risk of Bias and Applicability of Prediction Model Studies. Annals of Internal Medicine, 170(1), 51-58.
  • Collins, G. S. et al. (2024). TRIPOD+AI Statement: Updated Reporting Guideline for Clinical Prediction Models. BMJ.
  • Van Calster, B. et al. (2019). Calibration: the Achilles heel of predictive analytics. BMC Medicine, 17, 230.
  • Obermeyer, Z. et al. (2019). Dissecting racial bias in an algorithm used to manage the health of populations. Science, 366, 447-453.

Mots-clés

reporting guideline modèle prédictif risque de biais évaluation IA evidence-based medicine PROBAST équité algorithmique