🧪 Benchmark : Analyse de séance TCC par IA

Comparaison des réponses de 4 modèles d'IA sur 43 questions d'analyse clinique

👤

Cas clinique

Julie Dupont

Première consultation

🤖

Modèles comparés

4 LLMs

Gemini 1.5 Pro, GPT-4o, Claude 3.5 Sonnet, Claude Opus 4.5

❓

Questions

8 catégories

Pourquoi comparer les modèles ?

Tous les LLM ne se valent pas pour l'analyse clinique. Voici les critères clés à considérer.

📏

Fenêtre de contexte

Une séance TCC = 10-15k tokens. Le modèle doit pouvoir traiter l'intégralité.

🧠

Qualité du raisonnement

Le temps d'inférence et l'architecture impactent la nuance des analyses.

🎛️

Paramètres accessibles

La température permet d'ajuster créativité vs rigueur analytique.

💰

Coût et accessibilité

De gratuit à plusieurs euros par analyse selon le modèle et le mode d'accès.

📖 Guide complet : Comment choisir un LLM pour la supervision thérapeutique

Catégories de questions

Sélectionnez une catégorie pour comparer les réponses des différents modèles

🩺

Diagnostic

Hypothèses diagnostiques DSM-5 et évaluation clinique

4 questions Q01-Q04

→

🔄

Transdiagnostic

Processus transdiagnostiques et évaluation dimensionnelle

3 questions Q05-Q07

→

🛠️

Techniques

TCC, thérapie des schémas, entretien motivationnel

5 questions Q08-Q12

→

👤

Patiente

Émotions, cognitions, schémas, comportements

9 questions Q13-Q21

→

📋

Évaluation

Examens, analyses fonctionnelles, réseau relationnel

7 questions Q22-Q28

→

📝

Interventions

Tâches à domicile, supervision, psycho-éducation

6 questions Q29-Q34

→

💡

Concepts

Parts de soi, métaphores, guide d'auto-observation

5 questions Q35-Q39

→

🎭

Dynamique

Structure séance, dynamique relationnelle, non verbal

4 questions Q40-Q43

→

🎲 Question aléatoire 📄 Voir la transcription

Modèles comparés

Google

Gemini 1.5 Pro

Context window : 1M tokens

OpenAI

GPT-4o

Context window : 128k tokens

Anthropic

Claude 3.5 Sonnet

Context window : 200k tokens

Anthropic

Claude Opus 4.5

Context window : 200k tokens