🧪 Benchmark : Analyse de séance TCC par IA

Comparaison des réponses de 4 modèles d'IA sur 43 questions d'analyse clinique

👤
Cas clinique
Julie Dupont
Première consultation
🤖
Modèles comparés
4 LLMs
Gemini 1.5 Pro, GPT-4o, Claude 3.5 Sonnet, Claude Opus 4.5
Questions
43
8 catégories

Pourquoi comparer les modèles ?

Tous les LLM ne se valent pas pour l'analyse clinique. Voici les critères clés à considérer.

📏

Fenêtre de contexte

Une séance TCC = 10-15k tokens. Le modèle doit pouvoir traiter l'intégralité.

🧠

Qualité du raisonnement

Le temps d'inférence et l'architecture impactent la nuance des analyses.

🎛️

Paramètres accessibles

La température permet d'ajuster créativité vs rigueur analytique.

💰

Coût et accessibilité

De gratuit à plusieurs euros par analyse selon le modèle et le mode d'accès.

Modèles comparés

Google
Gemini 1.5 Pro
Context window : 1M tokens
OpenAI
GPT-4o
Context window : 128k tokens
Anthropic
Claude 3.5 Sonnet
Context window : 200k tokens
Anthropic
Claude Opus 4.5
Context window : 200k tokens