BERTopic
Maarten Grootendorst — Publié en 2022
En bref : BERTopic est un outil de topic modeling — il identifie automatiquement les thèmes récurrents dans un corpus de textes. C'est l'outil utilisé par Vancappel et al. (2026, L'Encéphale) pour extraire 30 thèmes du discours de 125 psychothérapeutes français. Comprendre son fonctionnement est essentiel pour interpréter ce type de résultats.
Identité
Créateur : Maarten Grootendorst (Pays-Bas)
Publication : 2022, arXiv:2203.05794
Type : Bibliothèque Python de topic modeling
Méthode : BERT + UMAP + HDBSCAN + c-TF-IDF
Licence : MIT (open source)
Langage : Python
Pré-requis : Un modèle d'embedding (ex: all-MiniLM-L6-v2)
Alternative à : LDA (Latent Dirichlet Allocation)
Le pipeline BERTopic en 4 étapes
Étape 1 — Embeddings (BERT)
Chaque document (réponse d'un thérapeute) est transformé en un vecteur numérique par un modèle de la famille BERT. Vancappel et al. ont utilisé all-MiniLM-L6-v2 (384 dimensions). C'est comme donner des coordonnées GPS à chaque phrase dans un espace de sens.
Étape 2 — Réduction (UMAP)
384 dimensions, c'est trop pour visualiser ou regrouper. UMAP (Uniform Manifold Approximation and Projection) réduit ces dimensions à un nombre gérable (typiquement 5-10) tout en préservant les relations de voisinage. C'est comme projeter une carte 3D sur un plan 2D — on perd de l'information, mais on garde la structure.
Étape 3 — Clustering (HDBSCAN)
HDBSCAN identifie automatiquement les zones de forte densité — les groupes naturels — dans l'espace réduit. Pas besoin de spécifier le nombre de groupes à l'avance (contrairement à K-means). L'algorithme décide lui-même quels documents sont proches. C'est purement géométrique : aucune connaissance clinique n'intervient.
Étape 4 — Représentation (c-TF-IDF)
Pour chaque cluster, BERTopic identifie les mots les plus discriminants via c-TF-IDF (class-based Term Frequency-Inverse Document Frequency). Ce sont les mots qui distinguent ce cluster des autres. Ces mots-clés sont ensuite optionnellement soumis à un LLM (dans le cas de Vancappel et al., GPT-4o) pour générer un résumé lisible.
Ce que BERTopic trouve (et ne trouve pas)
Ce qu'il trouve
- • Des thèmes récurrents dans le discours
- • Des recouvrements lexicaux entre approches
- • La prévalence relative des thèmes
- • Des co-occurrences de termes
Ce qu'il ne trouve pas
- • Des processus causaux de changement
- • L'équivalence fonctionnelle entre techniques
- • Ce qui se passe en séance (seulement le discours sur la séance)
- • La qualité ou l'efficacité d'une intervention
Limites et biais
Dépend du modèle d'embedding
La qualité des topics dépend entièrement du modèle utilisé à l'étape 1. Un modèle anglophone sur du français clinique produira des clusters de moindre qualité.
Nombre de topics non garanti
HDBSCAN détermine le nombre de clusters automatiquement, mais les paramètres (min_cluster_size, min_samples) influencent fortement le résultat. Deux paramétrages différents donneront des topics différents.
Labellisation subjective
Quand un LLM (GPT-4o) nomme les clusters, il introduit ses propres biais. Le prompt utilisé n'est généralement pas publié, rendant l'étape opaque.
Pas de validation statistique standard
Contrairement à LDA, BERTopic ne dispose pas de métriques de cohérence consensuelles. L'évaluation de la qualité des topics reste en partie subjective.
Alternatives en recherche clinique francophone
| Outil | Méthode | Avantage |
|---|---|---|
| BERTopic | Embeddings neuronaux + clustering | Capture le sens contextuel |
| IRaMuTeQ | Lexicométrie (Reinert) | Standard validé en recherche qualitative francophone |
| Alceste | Classification descendante hiérarchique | Référence historique en analyse textuelle |
| LDA | Modèle probabiliste (fréquences) | Métriques de cohérence établies |
Note : L'absence de comparaison avec IRaMuTeQ ou Alceste dans l'étude de Vancappel et al. (2026) empêche d'évaluer la valeur ajoutée spécifique de BERTopic par rapport aux outils standard.
Le point clé pour le clinicien
BERTopic est un outil de cartographie thématique, pas un outil de diagnostic clinique. Il révèle de quoi les thérapeutes parlent, pas ce qui fonctionne en séance. Quand une étude dit que BERTopic a « identifié des processus communs », lisez : « a identifié des thèmes discursifs partagés ».
Références
- • Grootendorst, M. (2022). BERTopic: Neural topic modeling with a class-based TF-IDF procedure. arXiv:2203.05794
- • Vancappel, A. et al. (2026). Extracting common processes across psychotherapies through AI. L'Encéphale. DOI: 10.1016/j.encep.2026.01.003
- • Ratinaud, P. (2014). IRaMuTeQ : Interface de R pour les Analyses Multidimensionnelles de Textes et de Questionnaires.