BERT
Google Research — Publié en octobre 2018
En bref : BERT (Bidirectional Encoder Representations from Transformers) est l'architecture qui a révolutionné la façon dont l'IA « comprend » le langage. Contrairement à ChatGPT qui génère du texte, BERT encode le sens des mots en tenant compte de leur contexte. C'est la brique de base de la plupart des outils d'analyse textuelle utilisés en recherche clinique — y compris BERTopic, utilisé dans l'étude de Vancappel et al. (2026) sur les processus communs en psychothérapie.
Identité
Créateur : Google AI Language (Jacob Devlin et al.)
Publication : Octobre 2018 (arXiv), NAACL 2019
Type : Modèle de compréhension du langage (encoder)
Architecture : Transformer (encoder uniquement)
Paramètres : 110M (base) / 340M (large)
Langues : Anglais (BERT), 104 langues (mBERT), français (CamemBERT, FlauBERT)
Licence : Apache 2.0 (open source)
Citations : 100 000+ (l'un des articles les plus cités en IA)
Ce que fait BERT (en clair)
BERT transforme des mots en coordonnées numériques (des « vecteurs ») qui capturent leur sens en contexte. Le mot « transfert » aura un vecteur différent dans « transfert bancaire » et « transfert psychanalytique ».
L'innovation clé : la bidirectionnalité
Avant BERT, les modèles lisaient le texte dans un seul sens (gauche à droite). BERT lit dans les deux sens simultanément : pour comprendre un mot, il regarde à la fois ce qui précède et ce qui suit. C'est ce que signifie « Bidirectional » dans son nom.
Encoder ≠ Générateur
BERT est un encoder : il comprend le texte, il ne le génère pas. ChatGPT (GPT) est un décodeur : il génère du texte mot par mot. Ce sont deux architectures complémentaires, pas concurrentes. Dans la recherche en psychothérapie, BERT sert à analyser le discours clinique, GPT sert à produire des résumés.
Les embeddings : transformer des mots en coordonnées
Un embedding est une représentation mathématique d'un mot ou d'une phrase sous forme de vecteur (une liste de nombres). Imaginez une carte à N dimensions où chaque mot occupe un point. Les mots dont le sens est proche se retrouvent à des positions voisines.
Exemple : « anxiété » et « peur » seront proches dans l'espace vectoriel. Mais « restructuration cognitive » et « défusion cognitive » seront également proches — car elles partagent un vocabulaire similaire, même si elles reposent sur des théories du changement opposées. C'est là que réside le piège.
Pertinence pour la recherche en psychothérapie
Usages en recherche clinique
- • Analyse du discours thérapeutique : identifier des thèmes récurrents dans les entretiens cliniques (topic modeling via BERTopic)
- • Classification de textes cliniques : détecter automatiquement des contenus liés à la dépression, l'anxiété, etc. dans des corpus de patients
- • Recherche sémantique : retrouver des articles scientifiques par similarité de sens (pas seulement de mots-clés)
- • Extraction d'entités : identifier automatiquement des noms de médicaments, de troubles, de techniques dans des textes cliniques
Limites à connaître
Proximité ≠ Équivalence
BERT capture la proximité lexicale (les mots apparaissent dans des contextes similaires), pas l'équivalence fonctionnelle (les interventions produisent les mêmes effets). « Maison » et « prison » sont proches vectoriellement, mais fonctionnellement opposées.
Biais du corpus d'entraînement
BERT a été entraîné sur Wikipédia anglophone et BookCorpus. Ses représentations reflètent les biais de ces sources : surreprésentation de la littérature anglophone, sous-représentation des traditions cliniques non-TCC.
Performance multilingue inégale
Le BERT original est anglophone. Les variantes francophones (CamemBERT, FlauBERT) existent mais ne sont pas toujours utilisées en recherche. Un modèle anglophone appliqué au français clinique perd en précision sémantique.
Ne comprend pas, ne raisonne pas
BERT capture des régularités statistiques dans le langage, pas le sens profond. Il ne « sait » pas ce qu'est la restructuration cognitive. Il sait que ce terme apparaît dans les mêmes contextes que « pensées automatiques » et « colonnes de Beck ».
La famille BERT : variantes à connaître
| Modèle | Spécificité | Langue |
|---|---|---|
| BERT base/large | Modèle original Google | Anglais |
| mBERT | BERT multilingue (104 langues) | Multi |
| CamemBERT | BERT entraîné sur du français (OSCAR) | Français |
| FlauBERT | Alternative française (CNRS) | Français |
| BioBERT | Spécialisé biomédical (PubMed) | Anglais |
| MentalBERT | Spécialisé santé mentale (Reddit) | Anglais |
| all-MiniLM-L6-v2 | Version compacte pour embeddings rapides | Anglais |
Le point clé pour le clinicien
Quand une étude dit avoir utilisé « l'IA » pour analyser du discours clinique, elle a probablement utilisé un modèle de la famille BERT. Cela signifie que les résultats reposent sur la proximité statistique des mots, pas sur une compréhension des mécanismes thérapeutiques. Cette distinction est cruciale pour interpréter les conclusions.
Références
- • Devlin, J. et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL. arXiv:1810.04805
- • Martin, L. et al. (2020). CamemBERT: a Tasty French Language Model. ACL. arXiv:1911.03894
- • Ji, S. et al. (2022). MentalBERT: Publicly Available Pretrained Language Models for Mental Health. LREC.