IA recherche Compréhension du langage Open source

BERT

Google Research — Publié en octobre 2018

En bref : BERT (Bidirectional Encoder Representations from Transformers) est l'architecture qui a révolutionné la façon dont l'IA « comprend » le langage. Contrairement à ChatGPT qui génère du texte, BERT encode le sens des mots en tenant compte de leur contexte. C'est la brique de base de la plupart des outils d'analyse textuelle utilisés en recherche clinique — y compris BERTopic, utilisé dans l'étude de Vancappel et al. (2026) sur les processus communs en psychothérapie.

Identité

Créateur : Google AI Language (Jacob Devlin et al.)

Publication : Octobre 2018 (arXiv), NAACL 2019

Type : Modèle de compréhension du langage (encoder)

Architecture : Transformer (encoder uniquement)

Paramètres : 110M (base) / 340M (large)

Langues : Anglais (BERT), 104 langues (mBERT), français (CamemBERT, FlauBERT)

Licence : Apache 2.0 (open source)

Citations : 100 000+ (l'un des articles les plus cités en IA)

Ce que fait BERT (en clair)

BERT transforme des mots en coordonnées numériques (des « vecteurs ») qui capturent leur sens en contexte. Le mot « transfert » aura un vecteur différent dans « transfert bancaire » et « transfert psychanalytique ».

L'innovation clé : la bidirectionnalité

Avant BERT, les modèles lisaient le texte dans un seul sens (gauche à droite). BERT lit dans les deux sens simultanément : pour comprendre un mot, il regarde à la fois ce qui précède et ce qui suit. C'est ce que signifie « Bidirectional » dans son nom.

Encoder ≠ Générateur

BERT est un encoder : il comprend le texte, il ne le génère pas. ChatGPT (GPT) est un décodeur : il génère du texte mot par mot. Ce sont deux architectures complémentaires, pas concurrentes. Dans la recherche en psychothérapie, BERT sert à analyser le discours clinique, GPT sert à produire des résumés.

Les embeddings : transformer des mots en coordonnées

Un embedding est une représentation mathématique d'un mot ou d'une phrase sous forme de vecteur (une liste de nombres). Imaginez une carte à N dimensions où chaque mot occupe un point. Les mots dont le sens est proche se retrouvent à des positions voisines.

Exemple : « anxiété » et « peur » seront proches dans l'espace vectoriel. Mais « restructuration cognitive » et « défusion cognitive » seront également proches — car elles partagent un vocabulaire similaire, même si elles reposent sur des théories du changement opposées. C'est là que réside le piège.

Pertinence pour la recherche en psychothérapie

Usages en recherche clinique

  • Analyse du discours thérapeutique : identifier des thèmes récurrents dans les entretiens cliniques (topic modeling via BERTopic)
  • Classification de textes cliniques : détecter automatiquement des contenus liés à la dépression, l'anxiété, etc. dans des corpus de patients
  • Recherche sémantique : retrouver des articles scientifiques par similarité de sens (pas seulement de mots-clés)
  • Extraction d'entités : identifier automatiquement des noms de médicaments, de troubles, de techniques dans des textes cliniques

Limites à connaître

Proximité ≠ Équivalence

BERT capture la proximité lexicale (les mots apparaissent dans des contextes similaires), pas l'équivalence fonctionnelle (les interventions produisent les mêmes effets). « Maison » et « prison » sont proches vectoriellement, mais fonctionnellement opposées.

Biais du corpus d'entraînement

BERT a été entraîné sur Wikipédia anglophone et BookCorpus. Ses représentations reflètent les biais de ces sources : surreprésentation de la littérature anglophone, sous-représentation des traditions cliniques non-TCC.

Performance multilingue inégale

Le BERT original est anglophone. Les variantes francophones (CamemBERT, FlauBERT) existent mais ne sont pas toujours utilisées en recherche. Un modèle anglophone appliqué au français clinique perd en précision sémantique.

Ne comprend pas, ne raisonne pas

BERT capture des régularités statistiques dans le langage, pas le sens profond. Il ne « sait » pas ce qu'est la restructuration cognitive. Il sait que ce terme apparaît dans les mêmes contextes que « pensées automatiques » et « colonnes de Beck ».

La famille BERT : variantes à connaître

Modèle Spécificité Langue
BERT base/largeModèle original GoogleAnglais
mBERTBERT multilingue (104 langues)Multi
CamemBERTBERT entraîné sur du français (OSCAR)Français
FlauBERTAlternative française (CNRS)Français
BioBERTSpécialisé biomédical (PubMed)Anglais
MentalBERTSpécialisé santé mentale (Reddit)Anglais
all-MiniLM-L6-v2Version compacte pour embeddings rapidesAnglais

Le point clé pour le clinicien

Quand une étude dit avoir utilisé « l'IA » pour analyser du discours clinique, elle a probablement utilisé un modèle de la famille BERT. Cela signifie que les résultats reposent sur la proximité statistique des mots, pas sur une compréhension des mécanismes thérapeutiques. Cette distinction est cruciale pour interpréter les conclusions.

Références

  • • Devlin, J. et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL. arXiv:1810.04805
  • • Martin, L. et al. (2020). CamemBERT: a Tasty French Language Model. ACL. arXiv:1911.03894
  • • Ji, S. et al. (2022). MentalBERT: Publicly Available Pretrained Language Models for Mental Health. LREC.