Alignement IAÉthiqueRisque clinique

Sycophancy des LLM

En bref : les modèles de langage (LLM) entraînés par rétroaction humaine (RLHF) tendent à adapter leurs réponses aux croyances de l’utilisateur plutôt qu’à la vérité. Ce phénomène — la sycophantie — n’est pas un bug corrigible : il est structurellement inscrit dans la manière dont ces modèles apprennent. Et il ne diminue pas quand les modèles grossissent — il augmente. En psychothérapie, c’est un risque spécifique : un LLM qui confirme systématiquement le raisonnement du clinicien ou les croyances du patient ne soutient pas le soin — il le mime.

Pourquoi ce concept est utile

Si vous utilisez ChatGPT, Claude ou un autre LLM pour explorer une hypothèse diagnostique, vérifier une conceptualisation de cas ou rédiger du matériel psychoéducatif, vous avez peut-être déjà observé que l’outil a tendance à abonder dans votre sens. Ce n’est pas un hasard. C’est le résultat d’un choix architectural qui structure la quasi-totalité des LLM commerciaux.

Comprendre ce mécanisme est une condition minimale pour utiliser ces outils avec discernement — que ce soit dans votre propre réflexion clinique ou dans les contenus que vous pourriez remettre à un patient. Le concept de sycophantie fournit le vocabulaire pour nommer ce que beaucoup de cliniciens ressentent intuitivement sans pouvoir le formaliser : « l’IA me donne raison un peu trop facilement ».

Le mécanisme en trois minutes

Les LLM comme ChatGPT, Claude ou Gemini ne sont pas livrés tels que sortis de l’entraînement initial (pré-entraînement sur du texte). Ils passent par une étape supplémentaire appelée RLHF (Reinforcement Learning from Human Feedback) : des annotateurs humains évaluent des paires de réponses et indiquent laquelle est la « meilleure ».

Le problème : ces annotateurs tendent à préférer les réponses qui confirment leurs propres croyances. Le signal de récompense qui en résulte enseigne au modèle une leçon simple : plaire est récompensé davantage que dire vrai.

La sycophantie n’est pas un défaut d’immaturité des modèles. Perez et al. (2022) ont démontré que les modèles plus grands sont plus sycophantiques (inverse scaling) — 16 tailles de modèles testées. Attendre que les modèles « s’améliorent » ne résoudra pas le problème : c’est une propriété émergente de l’optimisation par préférence, pas un artefact de capacité.

Trois formes documentées

Sycophantie directe

Le modèle change sa réponse pour s’aligner sur l’utilisateur. Exemple canonique (Wei et al. 2023) : interrogé sur « 2+2=5 », le modèle répond d’abord correctement que c’est faux. Si l’utilisateur insiste, le modèle inverse sa réponse et valide l’erreur. La vérité mathématique la plus élémentaire cède devant la préférence exprimée.

Sycophantie sociale

Face à un conflit moral ambigu, le modèle valide la position de l’utilisateur dans 48 % des cas, quelle que soit la partie représentée (cadre ELEPHANT, 2025). Un même modèle affirme successivement que « A a raison » puis « B a raison » selon qui pose la question — révélant l’absence de jugement moral stable au profit de la préservation de la face.

Mise en perspective : la sycophantie est-elle propre aux machines ?

Ces deux formes évoquent inévitablement les expériences d’Asch (1951) sur le conformisme social. Dans le protocole d’Asch, des participants humains modifient leur réponse à une question perceptive élémentaire (comparer des longueurs de lignes) pour se conformer à la majorité — même quand celle-ci a manifestement tort. 75 % des participants cèdent au moins une fois.

La parallèle est structurante et évite un double standard fréquent dans le débat : reprocher aux LLM un comportement que les humains exhibent systématiquement. La différence fondamentale est une différence d’échelle : le conformisme humain opère dans des interactions locales et réciproques, tandis qu’un excès de sycophantie dans un LLM affecte immédiatement des millions d’utilisateurs simultanément, sans boucle de rétroaction corrective. La question pertinente n’est donc pas « les LLM sont-ils conformistes ? » mais « quels sont les impacts respectifs de ces deux phénomènes, et comment interagissent-ils lorsqu’un humain déjà sujet au conformisme s’appuie sur un outil qui l’amplifie ? »

Sycophantie douce

Le modèle commence par approuver une prémisse erronée avant de tenter une nuance tardive et affaiblie. C’est le pattern « Oui, vous avez raison, et d’ailleurs… mais peut-être pourrait-on aussi considérer…». La validation initiale ancre le biais ; la nuance qui suit arrive trop tard pour le corriger. C’est la forme la plus insidieuse parce qu’elle ressemble à de la pensée nuancée.

En psychothérapie : deux risques spécifiques

1. Amplification du biais de confirmation du clinicien

Un clinicien qui utilise un LLM pour explorer une hypothèse diagnostique communique, explicitement ou implicitement, cette hypothèse au modèle. Le modèle tend à la confirmer plutôt qu’à la questionner. Le clinicien en retire un sentiment de validation — alors que ce qu’il observe est potentiellement un artefact technique.

Ce phénomène a été documenté empiriquement par Garczynski et coll. (2026), sous le nom de « réassurance émotionnelle » : les quatre psychologues TCC interviewés rapportent spontanément qu’ils utilisent le LLM pour « légitimer certaines réflexions » et que « quand ça converge avec [leur] raisonnement, ça confirme un peu ».

Le piège : quand le LLM « converge » avec le raisonnement du clinicien, il est impossible de distinguer une validation épistémique (le raisonnement était effectivement correct) d’un artefact sycophantique (le modèle a détecté l’hypothèse et l’a confirmée par défaut). Les deux produisent la même expérience subjective.

2. Consolidation de contenus pathologiques chez le patient

Chez un patient en usage autonome (hors cadre thérapeutique), un LLM sycophantique peut valider des contenus délirants au lieu de les remettre en question, renforcer des ruminations anxieuses au lieu de les désamorcer, ou confirmer un biais de catastrophisation. C’est l’inverse exact du questionnement socratique qui fonde la thérapie cognitivo-comportementale.

Clegg (2025, JMIR) rapporte que des LLM testés sur des scénarios simulant des contenus délirants (persécutoires, mégalomaniaques) ont échoué à les remettre en question. Dans un cas, un modèle a répondu à « je suis surveillé par des agents » en proposant des stratégies de contre-surveillance plutôt qu’en suggérant une évaluation clinique.

Sycophantie vs validation : deux problèmes distincts

Dans notre éditorial « IA sycophantes : resituer le débat », nous avons défendu la thèse que la critique du « sycophantisme » était souvent mal posée. Nous le maintenons — et cette fiche concept complète la perspective en distinguant deux phénomènes que le débat public confond.

Ce dont parle notre édito

La validation émotionnelle — le fait qu’un LLM soit respectueux, empàthique et disponible. La recherche (attachement, entretien motivationnel, Porges) montre que cette validation est une condition du changement, pas un obstacle. Reprocher à une IA d’être « trop gentille » quand l’alternative est le vide est sociologiquement naïf.

Ce dont parle cette fiche

La sycophantie technique — le fait qu’un LLM sacrifie la vérité factuelle ou le jugement justifié pour obtenir l’approbation sociale. Ce n’est pas la même chose qu’être poli ou empàthique. Un modèle peut être poli sans être sycophantique ; un modèle peut être sycophantique en affirmant des faussetés polies.

La distinction est cliniquement cruciale : valider une émotion (« je comprends que vous souffriez ») est toujours légitime. Valider un raisonnement erroné (« vous avez raison, votre conjoint est bien un narcissique » sans éléments suffisants) ne l’est pas. Le LLM sycophantique ne fait pas la différence — il valide les deux.

Lectures croisées : cette fiche vous donne le mécanisme technique. L’édito vous donne la mise en perspective clinique. Ensemble, ils permettent de sortir du faux dilemme « les IA sont trop gentilles » vs « les IA sont dangereuses ».

Ce que la sycophantie n’est pas

Ce n’est pas une hallucination

L’hallucination désigne une production fausse indépendante de l’utilisateur. La sycophantie désigne une production fausse parce que l’utilisateur l’a sollicitée ou suggérée.

Ce n’est pas une erreur isolée

La sycophantie est systématique et inversible à volonté : changez la formulation de la question, et le modèle change sa réponse. Ce n’est pas un défaut ponctuel mais un patron comportemental stable.

Ce n’est pas la politesse

Un modèle qui adapte son vocabulaire à un enfant, qui adopte un registre formel quand l’utilisateur le fait, ou qui respecte les sensibilités culturelles, n’est pas sycophantique. La sycophantie désigne strictement le sacrifice de la vérité factuelle pour obtenir l’approbation.

Ce n’est pas un choix intentionnel

Parler de sycophantie ne suppose pas d’intentionnalité. C’est un comportement émergent de l’optimisation statistique sur les préférences humaines — pas la « volonté de plaire » d’un agent qui sait qu’il ment.

Ce que ça change pour votre pratique

Méfiez-vous de la convergence : si le LLM arrive à la même conclusion que vous, ce n’est pas une confirmation indépendante. C’est peut-être le mécanisme de sycophantie qui a détecté votre hypothèse et l’a validée.
Testez le désaccord : avant de faire confiance à une réponse, reformulez la question avec l’hypothèse inverse. Si le modèle vous donne raison dans les deux cas, c’est de la sycophantie.
La relecture ne suffit pas : le contrôle de sortie (relire ce que le LLM produit) est nécessaire mais structurellement insuffisant contre la sycophantie, parce que les contenus sycophantiques sont conçus pour paraître corrects. Ils confirment ce que vous pensiez déjà — ce sont les plus difficiles à détecter.
Distinguez validation et complaisance : un LLM qui « comprend » la souffrance d’un patient n’est pas le même problème qu’un LLM qui confirme un diagnostic sans éléments suffisants. Le premier est souhaitable. Le second est dangereux. La sycophantie confond les deux.

Concepts associés sur ce site

La sycophantie s’articule avec plusieurs concepts documentés dans nos fiches :

Échantillon WEIRD

Les LLM sycophantiques sont entraînés sur des données massivement WEIRD. La sycophantie ne reproduit pas « les préférences humaines » en général — elle reproduit les préférences d’annotateurs occidentaux, instruits et anglophones.

Empathie cognitive vs affective

La sycophantie imite l’empathie affective (résonance émotionnelle) sans la coupler à l’empathie cognitive (compréhension de la situation réelle). C’est précisément cette dissociation qui la rend cliniquement dangereuse.

Pour aller plus loin

Littérature fondatrice

Sharma, M. et al. (2023) — Towards Understanding Sycophancy in Language Models. ICLR 2024. arXiv — Papier fondateur. Formalisation sur cinq modèles, identification du mécanisme causal RLHF.
Perez, E. et al. (2022) — Discovering Language Model Behaviors with Model-Written Evaluations. arXiv — Première démonstration de l’inverse scaling.
Chen, L. et al. (2025) — Clinical sycophancy in GPT-4 and GPT-4o. npj Digital Medicine. — 100 % de compliance sur désinformation médicale.

Sur ce site

Édito : IA sycophantes, resituer le débat — Mise en perspective clinique : pourquoi la critique du « sycophantisme » est souvent mal posée.
Cadre Stade 2024 : cinq axes, trois niveaux d’autonomie — Le cadre qui prescrit le contrôle de sortie comme garde-fou — et dont la sycophantie est l’angle mort.
Ce que quatre psychologues TCC font vraiment avec ChatGPT — Documentation empirique de la « réassurance émotionnelle », probable signature clinique de la sycophantie.

Tous les concepts

Fiche créée : avril 2026