IA, chatbot, LLM, app : pourquoi il faut arrêter de tout confondre
Quand une étude parle de 'chatbot thérapeutique', parle-t-on d'un arbre de décision scripté ou d'un GPT-4 fine-tuné ? Ce flou terminologique n'est pas anodin : il rend les études incomparables et le débat public inintelligible.
Le problème en une phrase
Quand un article de presse annonce qu’un “chatbot IA a montré des résultats comparables à un thérapeute humain”, de quoi parle-t-on exactement ? D’un système comme ELIZA (1966), qui reformulait mécaniquement les phrases du patient ? D’un arbre de décision TCC guidé par des scripts prédéfinis ? Ou d’un modèle de langage comme GPT-4, capable de générer des réponses contextuelles inédites ?
Dans la littérature scientifique comme dans les médias, ces trois réalités sont régulièrement désignées par le même terme : “chatbot thérapeutique”. C’est comme si la médecine ne faisait pas la différence entre aspirine, chimiothérapie et chirurgie sous prétexte que les trois “soignent”.
Ce flou terminologique n’est pas un détail de linguiste. Il a des conséquences directes sur notre capacité à évaluer les outils, comparer les études, et avoir un débat éclairé.
Quatre niveaux qu’il faut distinguer
Niveau 1 · Intelligence Artificielle (IA), le concept parapluie
L’IA est un terme générique désignant un ensemble de techniques computationnelles qui automatisent des tâches requérant traditionnellement l’intelligence humaine. C’est un concept parapluie, pas une technologie spécifique.
Sous ce parapluie coexistent des approches radicalement différentes :
- IA symbolique : règles explicites, systèmes experts (c’est ce que faisait ELIZA)
- Apprentissage automatique (ML, Machine Learning) : le système apprend à partir de données d’entraînement (détection de dépression via analyse vocale, prédiction de risque suicidaire)
- Deep Learning : réseaux de neurones multicouches (dont les LLM)
Retenir : Dire qu’une app “utilise l’IA” est aussi informatif que dire qu’un médicament “utilise la chimie”. C’est techniquement vrai et pratiquement inutile.
Niveau 2 · LLM, une architecture technique précise
Les LLM (GPT-4, Claude, Llama, Gemini) sont un sous-type spécifique d’IA. Ils reposent sur l’architecture Transformer (Vaswani et al., 2017), sont entraînés sur des corpus textuels massifs, et génèrent du texte en prédisant le prochain token d’une séquence.
Ce qui les distingue des approches précédentes :
- Pas de scripts prédéfinis : chaque réponse est générée au vol
- Capacités émergentes : raisonnement analogique, adaptation au contexte, reformulation
- Probabiliste : la même question peut produire des réponses différentes selon la température
C’est ce changement d’architecture qui fait que converser avec ChatGPT en 2026 est une expérience qualitativement différente d’interagir avec Woebot en 2017.
Le piège du versioning
Derrière un même nom commercial, le modèle réel change constamment. “GPT-4” désigne en 2026 un modèle très différent du GPT-4 de mars 2023. Ces mises à jour sont parfois discrètes : la date ou la sous-version du modèle (GPT-4-0613, GPT-4-turbo-2024-04-09) n’est pas toujours visible dans l’interface grand public. Un utilisateur — ou un chercheur — peut croire utiliser “le même modèle” d’un mois à l’autre alors que les performances ont significativement changé.
Plus subtil encore : la tendance actuelle aux architectures Mixture of Experts (MoE) fait qu’un seul nom de modèle — par exemple “GPT-5” — peut en réalité recouvrir un routage dynamique vers des sous-modèles différents selon la complexité estimée du prompt. Votre question simple et votre question complexe ne sont pas nécessairement traitées par le même modèle, même si l’interface n’affiche qu’un seul nom.
Conséquence pour la recherche : les performances des LLM augmentent si rapidement qu’une étude menée sur une version n peut être rendue quasiment obsolète par la version n+1, sortie quelques mois plus tard. Combiné au versioning opaque et au routage MoE, cela pose un problème majeur de traçabilité et de reproductibilité des résultats.
Niveau 3 · Chatbot, une interface, pas une intelligence
Le chatbot est une interface conversationnelle — le frontend, pas le backend. Un chatbot peut être alimenté par des technologies très différentes :
| Période | Technologie backend | Exemple |
|---|---|---|
| 1966 | Pattern-matching scripté | ELIZA |
| 2000–2015 | Arbres de décision + NLU | Premiers Woebot, Talkspace bot |
| 2020+ | LLM (GPT, Claude) | Woebot 2024, Wysa 2023 |
Même terme, technologies radicalement différentes.
Quand une méta-analyse regroupe des études sur “les chatbots thérapeutiques” sans distinguer l’architecture backend, elle agrège des interventions aussi différentes qu’une conversation téléphonique et une lettre manuscrite — sous prétexte que les deux “utilisent des mots”.
Niveau 4 · App de santé mentale, un écosystème, pas un chatbot
Une application de santé mentale peut intégrer un chatbot, un LLM, les deux, ou aucun des deux :
| Type | Exemple | IA ? |
|---|---|---|
| Méditation guidée, séquences fixes | Headspace | Non |
| Recommandations ML sur historique d’humeur | Daylio | ML classique |
| Exercices TCC guidés par arbre de décision | Woebot 2017 | Chatbot scripté |
| Conversation libre avec modèle génératif | Wysa 2024 | Chatbot LLM |
| Chatbot + phénotypage + EMA + supervision humaine | mindLAMP | Hybride |
Attention : se présenter comme “app IA de santé mentale” est devenu un argument marketing. Un formulaire adaptatif simple se qualifie désormais de “chatbot thérapeutique IA” pour bénéficier du capital symbolique du terme.
Pourquoi ça change tout pour le clinicien
Même moteur, expériences différentes
Plusieurs apps utilisent GPT-4 mais produisent des résultats très différents, selon :
- Le prompt système : instructions cachées qui cadrent les réponses (ex : “Tu es un coach TCC bienveillant” vs “Tu es un assistant conversationnel généraliste”)
- Le fine-tuning : le modèle a-t-il été réentraîné sur des données cliniques ?
- Les guardrails : filtres de sécurité, détection de risque suicidaire, protocole d’escalade vers un humain
- L’architecture hybride : le LLM est-il seul ou complété par des règles, des bases de connaissances (RAG), du phénotypage ?
Dire “cette app utilise GPT-4” ne suffit pas à caractériser son fonctionnement clinique. C’est comme dire “ce médicament contient du paracétamol” sans préciser le dosage, la formulation et les interactions.
Le problème de la recherche : sous-reporting technologique
La plupart des essais cliniques (RCT) sur les chatbots thérapeutiques ne spécifient pas :
- L’architecture backend (scripté ? ML ? LLM ?)
- Le modèle exact si LLM (GPT-3.5 vs GPT-4 = différences majeures)
- La version précise et la date du modèle utilisé
- Les guardrails et systèmes de sécurité
- Le fine-tuning appliqué
Conséquence : impossible de comparer les résultats entre études, impossible de répliquer. Une revue systématique qui agrège indistinctement des études sur chatbots scripturaux et chatbots LLM produit des conclusions aussi fiables qu’un essai clinique qui mélangerait homéopathie et antibiotiques sous le label “médicaments”.
Le modèle APA d’évaluation des apps de santé mentale constitue un premier cadre utile, mais il gagnerait à intégrer une section technique obligatoire spécifiant l’architecture de l’IA utilisée.
ELIZA, l’exemple qui dit tout
En 1966, Joseph Weizenbaum crée ELIZA — un programme qui simule un thérapeute rogérien en reformulant les phrases du patient (“Vous dites que votre mère vous inquiète” → “Parlez-moi de votre mère”). Techniquement : du pattern-matching sur mots-clés, zéro apprentissage, zéro compréhension.
Le résultat sidéra Weizenbaum lui-même : des utilisateurs se confiaient sincèrement à ELIZA, et certains thérapeutes proposèrent de l’utiliser comme substitut thérapeutique. Weizenbaum, horrifié, devint l’un des premiers critiques de l’IA thérapeutique.
Ce qui est frappant : les mécanismes psychologiques qui opèrent avec ELIZA (projection, attribution d’intentionnalité) sont identiques à ceux qui opèrent avec ChatGPT. Mais les technologies sont incomparables. Évaluer “les chatbots thérapeutiques” comme une catégorie homogène, c’est ignorer cette différence fondamentale.
Pour aller plus loin : les concepts d’anthropomorphisme, de HADD et de relations parasociales expliquent pourquoi nous attribuons des qualités humaines à ces systèmes — quelle que soit leur complexité technique. Le concept de test de Turing éclaire la question de la frontière entre simulation et compréhension.
En pratique : les questions à se poser
Avant de recommander, déconseiller ou commenter une app ou une étude, voici un filtre minimal :
1. Quel type d’IA ? Symbolique (règles), ML classique (apprentissage statistique), ou LLM (modèle de langage) ? La réponse change tout : les risques, les bénéfices et les mécanismes d’action sont différents.
2. Si chatbot : quelle architecture ? Scripté (réponses prédéfinies), intent-based (détection d’intention + modèle de réponse), ou génératif (LLM) ? Un chatbot scripté ne pose pas les mêmes questions éthiques qu’un chatbot LLM.
3. Si LLM : lequel, quand, et comment ? Le modèle (GPT-4, Claude, Llama), la version et la date exactes, le fine-tuning éventuel (données cliniques ?), et les guardrails (détection de crise, escalade humaine). L’étude a-t-elle vérifié la stabilité du modèle pendant toute la durée du protocole ?
4. Quelle intégration ? L’IA est-elle seule ou intégrée dans un écosystème (EMA, phénotypage, supervision clinicien) ? Un LLM isolé et un LLM supervisé par un clinicien sont deux interventions différentes.
5. Quel groupe de comparaison ? L’étude compare-t-elle le chatbot à un thérapeute humain, à un autre chatbot, à une liste d’attente, ou à rien ? Le choix du comparateur change radicalement l’interprétation des résultats.
Conclusion
Le flou terminologique autour de l’IA en santé mentale n’est pas un problème de vocabulaire. C’est un obstacle épistémologique qui empêche le débat éclairé, la comparaison des études et l’évaluation rigoureuse des outils.
En tant que cliniciens, nous avons une responsabilité : exiger la précision. Pas par purisme technique, mais parce que nos patients méritent qu’on sache exactement ce qu’on leur propose — ou ce dont on les met en garde.
Dire “l’IA en thérapie” sans préciser de quelle IA on parle, c’est comme dire “le médicament” sans préciser lequel. Et aucun clinicien ne prescrirait “un médicament” sans savoir ce qu’il contient.
Mots-clés