IA rechercheTopic modelingOpen source

BERTopic

Maarten Grootendorst — Publié en 2022

En bref : BERTopic est un outil de topic modeling — il identifie automatiquement les thèmes récurrents dans un corpus de textes. C’est l’outil utilisé par Vancappel et al. (2026, L’Encéphale) pour extraire 30 thèmes du discours de 125 psychothérapeutes français. Comprendre son fonctionnement est essentiel pour interpréter ce type de résultats.

Identité

Créateur : Maarten Grootendorst (Pays-Bas)

Publication : 2022, arXiv:2203.05794

Type : Bibliothèque Python de topic modeling

Méthode : BERT + UMAP + HDBSCAN + c-TF-IDF

Licence : MIT (open source)

Langage : Python

Pré-requis : Un modèle d’embedding (ex: all-MiniLM-L6-v2)

Alternative à : LDA (Latent Dirichlet Allocation)

Le pipeline BERTopic en 4 étapes

Étape 1 — Embeddings (BERT)

Chaque document (réponse d’un thérapeute) est transformé en un vecteur numérique par un modèle de la famille BERT. Vancappel et al. ont utilisé all-MiniLM-L6-v2 (384 dimensions). C’est comme donner des coordonnées GPS à chaque phrase dans un espace de sens.

Étape 2 — Réduction (UMAP)

384 dimensions, c’est trop pour visualiser ou regrouper. UMAP (Uniform Manifold Approximation and Projection) réduit ces dimensions à un nombre gérable (typiquement 5-10) tout en préservant les relations de voisinage. C’est comme projeter une carte 3D sur un plan 2D — on perd de l’information, mais on garde la structure.

Étape 3 — Clustering (HDBSCAN)

HDBSCAN identifie automatiquement les zones de forte densité — les groupes naturels — dans l’espace réduit. Pas besoin de spécifier le nombre de groupes à l’avance (contrairement à K-means). L’algorithme décide lui-même quels documents sont proches. C’est purement géométrique : aucune connaissance clinique n’intervient.

Étape 4 — Représentation (c-TF-IDF)

Pour chaque cluster, BERTopic identifie les mots les plus discriminants via c-TF-IDF (class-based Term Frequency-Inverse Document Frequency). Ce sont les mots qui distinguent ce cluster des autres. Ces mots-clés sont ensuite optionnellement soumis à un LLM (dans le cas de Vancappel et al., GPT-4o) pour générer un résumé lisible.

Ce que BERTopic trouve (et ne trouve pas)

Ce qu’il trouve

• Des thèmes récurrents dans le discours
• Des recouvrements lexicaux entre approches
• La prévalence relative des thèmes
• Des co-occurrences de termes

Ce qu’il ne trouve pas

• Des processus causaux de changement
• L’équivalence fonctionnelle entre techniques
• Ce qui se passe en séance (seulement le discours sur la séance)
• La qualité ou l’efficacité d’une intervention

Limites et biais

Dépend du modèle d’embedding

La qualité des topics dépend entièrement du modèle utilisé à l’étape 1. Un modèle anglophone sur du français clinique produira des clusters de moindre qualité.

Nombre de topics non garanti

HDBSCAN détermine le nombre de clusters automatiquement, mais les paramètres (min_cluster_size, min_samples) influencent fortement le résultat. Deux paramétrages différents donneront des topics différents.

Labellisation subjective

Quand un LLM (GPT-4o) nomme les clusters, il introduit ses propres biais. Le prompt utilisé n’est généralement pas publié, rendant l’étape opaque.

Pas de validation statistique standard

Contrairement à LDA, BERTopic ne dispose pas de métriques de cohérence consensuelles. L’évaluation de la qualité des topics reste en partie subjective.

Alternatives en recherche clinique francophone

Outil	Méthode	Avantage
BERTopic	Embeddings neuronaux + clustering	Capture le sens contextuel
IRaMuTeQ	Lexicométrie (Reinert)	Standard validé en recherche qualitative francophone
Alceste	Classification descendante hiérarchique	Référence historique en analyse textuelle
LDA	Modèle probabiliste (fréquences)	Métriques de cohérence établies

Note : L’absence de comparaison avec IRaMuTeQ ou Alceste dans l’étude de Vancappel et al. (2026) empêche d’évaluer la valeur ajoutée spécifique de BERTopic par rapport aux outils standard.

Le point clé pour le clinicien

BERTopic est un outil de cartographie thématique, pas un outil de diagnostic clinique. Il révèle de quoi les thérapeutes parlent, pas ce qui fonctionne en séance. Quand une étude dit que BERTopic a « identifié des processus communs », lisez : « a identifié des thèmes discursifs partagés ».

Références

• Grootendorst, M. (2022). BERTopic: Neural topic modeling with a class-based TF-IDF procedure. arXiv:2203.05794
• Vancappel, A. et al. (2026). Extracting common processes across psychotherapies through AI. L’Encéphale. DOI: 10.1016/j.encep.2026.01.003
• Ratinaud, P. (2014). IRaMuTeQ : Interface de R pour les Analyses Multidimensionnelles de Textes et de Questionnaires.

BERT

all-MiniLM-L6-v2