77 % des études sur les LLM en santé mentale ne dépassent pas le stade du test technique : le framework de Hua
Sur 160 études analysées, les LLM représentent 77 % des tests techniques mais seulement 16 % des essais cliniques. Une équipe de Harvard propose un cadre à trois niveaux pour situer ce que les études prouvent réellement — et ce qu'elles ne prouvent pas.
Source analysée
https://onlinelibrary.wiley.com/doi/10.1002/wps.21352Le chiffre qui devrait inquiéter
En janvier 2025, une équipe de Harvard menée par Yining Hua et John Torous publie dans World Psychiatry — la revue de psychiatrie la plus citée au monde — une revue systématique de 160 études sur les chatbots d’IA en santé mentale (2020-2024).
Leur constat principal tient en un tableau :
| Type d’étude | Systèmes à règles | ML classique | LLM |
|---|---|---|---|
| T1 — Test technique | 8 % | 15 % | 77 % |
| T2 — Faisabilité | 58 % | 18 % | 24 % |
| T3 — Efficacité clinique | 65 % | 19 % | 16 % |
Autrement dit : les technologies les plus récentes et les plus médiatisées sont paradoxalement les moins testées en conditions cliniques réelles. Les systèmes à règles, plus anciens et moins spectaculaires, sont ceux qui disposent du plus haut niveau de preuve.
« De bonnes performances en T1 ou des retours positifs en T2 ne se traduisent pas nécessairement en efficacité clinique T3. »
— Hua et al. (2025), World Psychiatry
C’est ce paradoxe que le framework de Hua permet de rendre visible — et d’expliquer.
Le framework en 5 minutes
L’idée centrale
Toutes les études sur l’IA en santé mentale ne répondent pas à la même question. Mais le débat public les traite comme si c’était le cas. Un benchmark sur des vignettes standardisées et un essai clinique randomisé avec de vrais patients sont cités avec la même autorité — alors qu’ils ne prouvent pas du tout la même chose.
Le framework de Hua propose une grille de classification en trois niveaux progressifs (tiers), chacun répondant à une question différente :
Les trois niveaux
Bench Testing — « L’IA fonctionne-t-elle techniquement ? »
Évaluation en conditions contrôlées : scénarios scriptés, vignettes standardisées, évaluations par des experts. Pas d’interaction avec de vrais patients. Le système est testé sur des cas idéaux, dans un environnement idéal.
Exemples : benchmarks médicaux (MedQA, USMLE), évaluation de la qualité des réponses par des cliniciens, tests de sécurité sur des cas scriptés.
Faisabilité — « Les utilisateurs acceptent-ils d’interagir avec le système ? »
Évaluation avec des participants humains sur des interactions à court terme. On mesure l’engagement, la satisfaction, la qualité perçue — mais pas les résultats cliniques. Un utilisateur peut être satisfait d’un chatbot sans que sa santé s’améliore — un point que souligne aussi le Modèle APA d’évaluation des apps, qui distingue explicitement satisfaction utilisateur et efficacité clinique.
Exemples : études de satisfaction, mesures d’engagement (durée d’utilisation, taux de complétion), évaluations qualitatives.
Efficacité clinique — « Le système améliore-t-il la santé des patients ? »
Mesure de résultats cliniquement significatifs : réduction de symptômes sur des échelles validées (PHQ-9, GAD-7, BDI-II), sur des périodes étendues, avec de vrais patients. C’est le seul niveau qui démontre un bénéfice thérapeutique réel.
Exemples : essais contrôlés randomisés avec suivi longitudinal, études comparatives avec traitement actif.
Le paradoxe LLM
C’est le croisement de cette classification avec les architectures techniques qui révèle le paradoxe. Les trois grandes familles de chatbots — systèmes à règles (scripts, arbres de décision), ML classique (réseaux de neurones type SVM, BERT), et LLM (GPT-4, Claude, Gemini) — ne se répartissent pas de la même façon dans les trois niveaux.
Le paradoxe en une phrase : plus une technologie est récente et médiatisée, moins elle est testée en conditions cliniques réelles. Les LLM dominent les tests techniques (77 % en T1) mais sont quasi absents des essais cliniques (16 % en T3). Les systèmes à règles, eux, font exactement l’inverse.
Ce n’est pas un hasard. Les benchmarks (T1) sont rapides, peu coûteux et produisent des résultats spectaculaires publiables dans des revues prestigieuses. Les essais cliniques (T3) prennent des mois, coûtent cher, nécessitent des comités d’éthique, et produisent souvent des résultats plus nuancés. La structure des incitations académiques favorise T1 au détriment de T3.
Passer le filtre : trois études à la loupe
Appliquons le framework à trois études fréquemment citées pour illustrer ce que chaque niveau de preuve signifie concrètement :
| Étude | Tier | Pourquoi |
|---|---|---|
Ayers et al. (JAMA, 2023) « ChatGPT surpasse les médecins en empathie » | T1 | Des évaluateurs tiers notent des réponses textuelles. Pas d’interaction réelle, pas de patients, pas de suivi. |
Bean et al. (Nature Medicine, 2025) « Les LLM sont des assistants médicaux fiables » | T1/T2 | Participants Prolific (pas de vrais patients), vignettes standardisées, scoring binaire. Pas de résultats cliniques. |
Heinz/Therabot (NEJM AI, 2025) Chatbot thérapeutique CBT | T3* | Vrais patients, résultats cliniques mesurés. Mais comparateur liste d’attente (pas de traitement actif), ce qui gonfle l’effet. |
L’exercice est révélateur. Les deux premières études — les plus citées dans la presse — sont au niveau le plus bas de la hiérarchie de preuve. Elles démontrent que les LLM fonctionnent techniquement, pas qu’ils améliorent la santé des patients.
Ce que ça change pour votre pratique
La question à poser systématiquement
Quand vous lisez une étude affirmant que « l’IA est efficace en santé mentale », une seule question permet de situer immédiatement son niveau de preuve :
« Cette étude mesure-t-elle des résultats cliniques (PHQ-9, GAD-7, BDI-II…) chez de vrais patients, sur une durée significative ? »
Si oui → T3 (mais vérifiez le comparateur et la durée).
Si non → T1 ou T2 — la preuve d’efficacité clinique n’est pas établie, quels que soient les résultats affichés.
Articulation avec le cadre de Choudhury
Ce framework se combine puissamment avec le cadre de Choudhury sur la validité écologique de l’IA en clinique :
Hua vous dit où se situe une étude dans le parcours de validation (T1, T2 ou T3)
Choudhury vous dit pourquoi le passage d’un niveau à l’autre n’a rien d’automatique — et quels facteurs humains (confiance, charge cognitive, accountability) l’empêchent
Ensemble, ces deux cadres transforment une intuition vague (« ces études ne reflètent pas la réalité ») en une grille de lecture structurée et actionnable.
Ce qui est solide dans cette proposition
Base empirique massive
160 études analysées sur la période 2020-2024. Ce n’est pas un cadre théorique déconnecté — c’est une classification émergente de la littérature réelle, publiée dans la revue de psychiatrie la plus influente.
Simplicité opérationnelle
Trois niveaux, une question par niveau. Un praticien peut appliquer cette grille en 30 secondes à n’importe quelle étude. C’est un filtre cognitif immédiat, pas un outil d’analyse complexe.
Il quantifie un soupçon
Beaucoup de cliniciens soupçonnaient que les études sur les LLM étaient « moins solides ». Le framework de Hua transforme ce soupçon en donnée chiffrée : 77 % en T1, 16 % en T3. Le déséquilibre n’est pas une impression — c’est un fait documenté.
Il croise architecture et validation
En distinguant systèmes à règles, ML classique et LLM, le framework évite le piège de traiter « l’IA » comme un bloc homogène — un point que nous soulignions dans notre article sur les distinctions entre IA, chatbot, LLM et application.
Les limites — et pourquoi elles comptent
Pas de qualité au sein d’un tier
Le framework classe les études par niveau de preuve, mais ne distingue pas la qualité méthodologique à l’intérieur d’un même niveau. Une étude T3 avec un comparateur actif (un vrai traitement alternatif) et une étude T3 avec un comparateur liste d’attente sont classées au même niveau — alors que leur valeur probante est très différente.
Cas concret : l’étude Therabot (NEJM AI, 2025) est T3 — mais son comparateur est la liste d’attente. Comparer un chatbot à « ne rien faire » produit mécaniquement un effet positif. Ce n’est pas la même chose que démontrer une efficacité comparable à la thérapie humaine.
Pas de critères de transition
Le framework dit que T1, T2 et T3 sont progressifs, mais ne détaille pas quand un système est « prêt » à passer au niveau suivant. Quels critères en T1 doivent être satisfaits avant de lancer une étude T2 ? Le framework ne le dit pas — c’est une feuille de route sans jalons.
Centré sur les chatbots de santé mentale
Le framework a été développé spécifiquement pour les chatbots d’IA en santé mentale. Son applicabilité à d’autres formes d’IA clinique — aide au diagnostic radiologique, triage médical, transcription de séances — reste à démontrer. Les défis de validation ne sont pas les mêmes selon le type d’outil et le type de décision clinique impliqué.
Classification architecturale simplifiée
La distinction rule-based / ML / LLM ne capture pas les systèmes hybrides qui combinent plusieurs approches — par exemple un LLM contrôlé par des arbres de décision (comme Therabot ou Woebot dans sa dernière version). Ces hybrides brouillent les frontières entre catégories.
Notre position
Le framework de Hua est un outil de tri indispensable dans un paysage de recherche saturé d’annonces spectaculaires. Son apport principal : donner à chaque clinicien un filtre simple pour distinguer ce qui est prouvé de ce qui est prometteur.
Arrêtons de confondre performance technique et efficacité thérapeutique
Qu’un LLM réussisse un examen médical (T1) ou qu’un utilisateur se dise satisfait d’une conversation (T2) ne signifie pas que le système améliore la santé des patients (T3). Ces trois affirmations correspondent à trois niveaux de preuve radicalement différents. Les confondre, c’est confondre un test de conduite sur circuit avec la capacité à conduire en ville.
Le déficit de preuve n’est pas un défaut de la technologie — c’est un défaut de la recherche
Les LLM ne sont pas incapables d’aider les patients. Ils sont insuffisamment testés dans les conditions qui permettraient de le démontrer. La structure des incitations académiques — publier vite, dans des revues à impact élevé — favorise les études T1 rapides au détriment des essais T3 coûteux mais nécessaires.
Utilisez ce framework comme grille de lecture quotidienne
La prochaine fois qu’un collègue, un administrateur ou un journaliste vous dit que « l’IA est efficace en santé mentale », posez la question T1/T2/T3. Si la réponse est T1 — ce qui sera le cas la plupart du temps pour les LLM —, vous saurez exactement ce que cette étude prouve et ce qu’elle ne prouve pas.
Référence analysée : Hua, Y., Siddals, S., Torous, J. et al. (2025). Charting the evolution of artificial intelligence mental health chatbots from rule-based systems to large language models: a systematic review. World Psychiatry, 24(2). https://doi.org/10.1002/wps.21352
Lectures complémentaires :
- Choudhury, A. (2022). Toward an Ecologically Valid Conceptual Framework for the Use of Artificial Intelligence in Clinical Settings. JMIR Human Factors, 9(2), e35421. https://doi.org/10.2196/35421
- Notre décryptage du cadre de Choudhury : Pourquoi une IA qui « surpasse les médecins » en labo peut échouer en cabinet
- Notre article sur les distinctions terminologiques : IA, chatbot, LLM, app : pourquoi il faut arrêter de tout confondre
- Notre décryptage du Modèle APA d’évaluation des apps : Un filtre en 3 niveaux pour évaluer les apps de santé mentale
Série : Cadres d’évaluation de l’IA en santé
- Hua : trois niveaux de preuve IA en santé mentale (cet article)
- Choudhury : validité écologique des études LLM
- CHART : transparence des chatbots de santé
- CONSORT-AI : transparence des essais cliniques IA
- CONSORT/SPIRIT 2025 : Science Ouverte oui, IA non
- PROBAST+AI : qualité des modèles de prédiction IA
Mots-clés