5 articles

évaluation IA

Tous les articles de veille IA tagués évaluation IA

Décryptage

19 février 2026 • Source externe

PROBAST+AI : 34 questions que la majorité des modèles de prédiction IA en santé ne survivent pas

Publié dans le BMJ en mars 2025, PROBAST+AI est le premier outil d'évaluation de la qualité des modèles de prédiction clinique qui soumet les approches statistiques classiques et celles issues de l'intelligence artificielle aux mêmes exigences de rigueur. Son constat de départ est accablant : la majorité des modèles publiés sont de mauvaise qualité, leurs performances sont surestimées et leurs biais passent inaperçus. Sixième volet de notre série sur les cadres d'évaluation de l'IA en santé.

reporting guideline modèle prédictif risque de biais évaluation IA evidence-based medicine PROBAST équité algorithmique

Décryptage

12 février 2026 • Source externe

Moins de 40 % des études sur les chatbots en santé rapportent leur stratégie de requête : le CHART Statement

Sur 137 études publiées dans l'année suivant le lancement de ChatGPT, moins de 40 % rapportent les éléments clés de leur stratégie de requête. Un consortium international de 531 experts propose 12 critères pour y remédier — et changer la manière dont nous lisons ces études.

reporting guideline chatbot transparence méthodologique reproductibilité évaluation IA

Décryptage

12 février 2026 • Source externe

Seules 3 revues sur 52 exigent la transparence des essais cliniques IA : le cas CONSORT-AI

Publié en 2020, CONSORT-AI impose 14 critères de transparence pour les essais cliniques testant des interventions IA. Cinq ans plus tard, l'adhérence décline et la plupart des revues ignorent ces standards. Ce que ça révèle — et ce que ça change pour la lecture critique des études.

reporting guideline essai clinique transparence méthodologique reproductibilité évaluation IA

Décryptage

12 février 2026 • Source externe

77 % des études sur les LLM en santé mentale ne dépassent pas le stade du test technique : le framework de Hua

Sur 160 études analysées, les LLM représentent 77 % des tests techniques mais seulement 16 % des essais cliniques. Une équipe de Harvard propose un cadre à trois niveaux pour situer ce que les études prouvent réellement — et ce qu'elles ne prouvent pas.

validité écologique évaluation IA chatbot santé mentale LLM méthodologie

Décryptage

12 février 2026 • Source externe

Pourquoi une IA qui « surpasse les médecins » en labo peut échouer en cabinet : le cadre de Choudhury

Une IA qui obtient 95 % de précision sur des cas standardisés peut échouer en pratique clinique. Un chercheur en facteurs humains de West Virginia University explique pourquoi — et propose un cadre à trois niveaux que tout clinicien devrait connaître avant de se fier à une étude sur l'IA en santé.

validité écologique facteurs humains évaluation IA confiance adoption clinique accountability

Retour à la veille IA