Le malentendu : significatif ne veut pas dire important
Dans les médias comme dans certains communiqués, une phrase revient souvent : l’intervention est efficace, car le résultat est statistiquement significatif (par exemple p < 0,05). Or, statistiquement significatif ne signifie pas utile, ni même visible dans la vie quotidienne. Ce glissement, très courant, ouvre la porte à des messages exagérés… parfois sans mensonge explicite.
La significativité répond à une question étroite
Un p-value répond essentiellement à une question technique : si, en réalité, l’intervention n’avait aucun effet, à quel point ce résultat serait-il improbable ?
Le p-value ne dit pas : quelle est l’ampleur du bénéfice, si le bénéfice est important pour les personnes, ni si l’étude est globalement fiable. C’est d’ailleurs un point explicitement rappelé dans la déclaration de l’American Statistical Association (ASA) : un p-value ne mesure ni la taille de l’effet ni son importance.
Pourquoi significatif peut n’être qu’un micro-effet
Le cœur du problème est simple : avec un très grand nombre de participants, on peut détecter des différences minuscules. Autrement dit, une étude peut conclure à un effet significatif alors que l’effet est si petit qu’il a peu de chances d’être pertinent (ou perceptible).
C’est une des raisons pour lesquelles, en médecine et en santé publique, de nombreux auteurs ont plaidé pour passer d’une lecture oui/non (significatif / non significatif) à une lecture par estimation : combien, à peu près, et avec quelle incertitude ?
Ce qui informe vraiment le public : combien et avec quelle incertitude
Pour juger si « ça compte », trois éléments sont bien plus éclairants qu’une p-value seul :
- La taille de l’effet, en chiffres compréhensibles, par exemple : 2 crises de moins par mois, +5 points sur une échelle, 10 personnes améliorées sur 100.
- L’intervalle de confiance (IC) : il indique la plage d’effets compatibles avec les données. Une intervention peut avoir un effet significatif tout en ayant un IC qui inclut des valeurs très faibles (donc un bénéfice possiblement négligeable). Les recommandations de reporting des essais (CONSORT) insistent sur l’importance de rapporter ces estimations (et pas seulement des p-values).
- Un seuil d’importance minimale : on utilise parfois la différence minimale cliniquement importante, c’est-à-dire le plus petit changement que les personnes perçoivent comme bénéfique et qui pourrait justifier une modification de prise en charge. La formulation de référence remonte notamment à Jaeschke, Singer et Guyatt (1989). Sans ce repère, on peut facilement faire passer des améliorations trop petites pour être significatives dans la vraie vie.
Mais, il ne s’agit pas detomber dans l’excès inverse : un petit effet peut être intéressant si l’intervention est : très sûre, peu coûteuse, facile à déployer, et concerne beaucoup de monde (impact populationnel). Cela dit, dans ce cas, la communication honnête devrait dire : l’effet est petit, mais il peut compter à grande échelle / à faible coût, plutôt que de s’abriter derrière p<0,05.
Pourquoi un effet « prouvé » est souvent moins « joli » en vie réelle
Même quand une intervention a un effet clair dans un essai contrôlé, cet effet peut devenir beaucoup plus faible, voire disparaître, une fois déployée en vie réelle. Ce n’est pas forcément de la mauvaise foi, ni une fraude : c’est souvent la conséquence logique de la différence entre conditions idéales, conditions expérimentales et conditions ordinaires.
L’effet observé en recherche dépend des « conditions de réussite »
Une intervention est rarement un simple comprimé magique. Elle fonctionne dans une étude parce qu’un ensemble de conditions sont réunies :
- Qui participe ? Dans les essais, les participants sont souvent plus motivés, plus disponibles, moins complexes cliniquement, ou sélectionnés avec des critères stricts.
- Qui délivre l’intervention ? Dans l’étude, ce sont parfois des équipes très formées, supervision régulière, protocole bien cadré.
- Quel environnement ? Rappels, relances, compensation, suivi rapproché, matériel fourni… bref, un écosystème qui n’existe (quasiment) jamais sur le terrain.
En santé mentale, on voit ça très concrètement : par exemple des programmes scolaires ou des outils numériques peuvent montrer des effets à court terme dans des conditions bien maîtrisées, mais avec des effets qui diminuent au suivi, ou qui dépendent fortement du contexte et de la mise en œuvre.
Deux mots-clés : validité externe et mise en œuvre
Pour comprendre l’écart, on peut distinguer deux concepts.
La validité externe qui répond à la question de savoir à quel point les résultats sont transposables à d’autres publics et contextes que ceux étudiés de manière cadrée ?
La mise en œuvre, ou implémentation, peut est évaluée en étudiant ce qu’il se passe réellement quand on déploie l’intervention. On peut considérer qu’il y a quatre blocs importants à observer : la validité interne, la validité externe, la magnitude de l’effet, et la faisabilité et l’acceptatibilité de l’implémentation (guides disponibles, coûts, soutien à la mise en œuvre, acceptation par la population cible, etc.). C’est un point crucial : un effet démontré sans capacité de déploiement de l’intervention peut être scientifiquement intéressant, mais politiquement et socialement peu utile.
L’efficacité en vie réelle se joue sur 5 dimensions (RE-AIM)
Un cadre très utilisé en santé publique, RE-AIM, résume bien pourquoi l’impact réel est souvent inférieur à l’impact expérimental en conditions contrôlées :
- Reach (Portée) : est-ce que l’intervention touche vraiment les personnes concernées ?
- Effectiveness : quel bénéfice en conditions ordinaires ?
- Adoption : est-ce que les organisations/professionnels l’adoptent ?
- Implémentation : est-ce mis en œuvre correctement (et à quel coût) ?
- Maintien : est-ce que ça dure dans le temps ?
Même une intervention jugée bonne peut avoir zéro impact populationnel si elle a une faible portée, une adoption limitée, une mise en œuvre dégradée ou si elle n’est pas maintenue.
Les résultats de mise en œuvre : ce que la communication oublie souvent
La science de l’implémentation insiste sur le fait qu’il existe des résultats différents des résultats cliniques (symptômes, qualité de vie). Proctor et collègues proposent une taxonomie d’indicateurs d’implémentation à observer : acceptabilité, adoption, pertinence, faisabilité, fidélité, coût, pénétration, durabilité… C’est un antidote possible au discours « c’est prouvé ».
Depuis Schwartz & Lellouch, on peut distinguer deux « attitudes » de recherche :
- Essais explicatifs : optimisés pour tester l’effet causal dans des conditions contrôlées (efficacité idéale).
- Essais pragmatiques : conçus pour aider à choisir entre options de soin dans la pratique réelle.
Le problème de communication survient quand on présente un résultat issu d’un essai très explicatif comme s’il était automatiquement valable partout et pour tous : le fameux One-Size-Fits-All. Pour éviter cette confusion, le guide PRECIS-2 aide à situer un essai sur un continuum « explicatif ↔ pragmatique » : choix des participants, flexibilité de l’intervention, suivi, etc.
Quand l’efficacité statistique devient un outil de communication trompeuse
Une fois qu’on a compris que significatif ne dit pas important, et qu’un effet peut se réduire, voire disparaître, en vie réelle, il reste une question clé : comment ces zones grises sont utilisées pour « vendre » une intervention comme plus utile qu’elle ne l’est ? Souvent, ce n’est pas une invention : c’est une mise en scène de certains chiffres et l’effacement d’autres informations. Si vous regardez des séries politiques, on appelle généralement cela du spin.
Le spin : raconter le succès malgré des résultats peu convaincants
Boutron et collègues ont défini le spin comme des stratégies de présentation qui mettent en avant un bénéfice ou détournent l’attention alors que le résultat principal est non significatif ou décevant. Dans un échantillon d’essais publiés, ils observent que le spin est fréquent dans les discussions et conclusions, et qu’il peut conduire à des interprétations indûment positives. On observe par exemple l’utilisation de termes comme « tendance favorable » alors que l’incertitude est grande, une insistance sur un critère secondaire parce que le critère principal n’est pas concluant, une conclusion orientée recommandation (à envisager, prometteur) sans base suffisante.
Un point important : le spin peut exister même si tous les chiffres rapportés sont exacts. C’est un problème de hiérarchie et de cadrage.
Le cadrage des chiffres : relatif (impressionnant) vs absolu (informatif)
Le levier le plus puissant en communication consiste à annoncer des risques relatifs (-30%, deux fois moins) sans préciser le risque de base. Or, les travaux de Gigerenzer et collègues montrent qu’on comprend mieux et qu’on se fait moins berner quand on exprime les bénéfices/risques en nombres absolus ou en fréquences naturelles (sur 100 / sur 1 000).
Et même quand le risque de base est donné, la compréhension reste fragile : une étude expérimentale (Bodemer, 2014) conclut que la communication en risques relatifs demeure problématique et recommande des formats plus transparents.
Ainsi, dès qu’un message donne un pourcentage sans dire sur combien de personnes il est calculé, il faut se demander : 30% de quoi, à partir de quel niveau de départ ? En effet, une augmentation de 50% peut représenter un passage de 1 sur 100 à 1,5 sur 100…
Le silence sur les effets indésirables : une forme de tromperie par omission
En santé, une intervention utile se juge aussi au rapport bénéfices/risques. Or, les effets indésirables sont historiquement mal rapportés dans les essais, d’où la création d’extensions CONSORT dédiées aux effets iatrogènes (CONSORT Harms 2022). En communication, cela se traduit par un biais très concret : bénéfices décrits en détail ; inconvénients résumés ou minimisés (« bien toléré »), voire absents, ou renvoyés dans des annexes illisibles et difficiles à trouver.
Le choix des critères « qui brillent » : scores, ressenti, et vulnérabilité aux attentes
Une autre manière d’amplifier un signal consiste à privilégier des critères plus sensibles aux attentes, au contexte, ou à l’auto-évaluation (ce qui est fréquent en santé mentale), puis à les présenter comme une preuve d’efficacité générale. La littérature sur les placebos et les essais souligne que les effets placebo tendent à être faibles sur les critères objectifs, mais peuvent apparaître sur des critères subjectifs (par exemple douleur, ressenti), ce qui rend l’attention critique à l’interprétation et processus d’aveuglage particulièrement importante. Ici, la nuance est essentielle : ça ne veut pas dire que les critères subjectifs ne valent rien, au contraire ils sont très importants, mais ils sont plus exposés aux biais et donc plus faciles à transformer en message triomphal si on ne contextualise pas.
Le tour de magie final : transformer un effet modeste en « révolution »
Quand on combine :
- un résultat significatif,
- un effet présenté en relatif,
- une sélection de critères favorables,
- et l’absence de discussion sur les effets indésirables et sur la mise en œuvre,
on obtient une narration de rupture (LA solution, un game changer) à partir d’un bénéfice parfois minime, fragile, ou difficilement transposable. C’est exactement pour cela que les guides de reporting (CONSORT et extensions) existent : forcer la présence d’informations qui limitent la surinterprétation.
Un modèle de communication responsable de l’efficacité
L’objectif de cette partie est pratique : comment parler d’une intervention « qui a un effet » sans transformer un micro-effet fragile en promesse, et sans noyer le public sous du jargon trompeur. L’idée n’est pas d’être moins convaincant, mais plus exact, donc plus digne de confiance.
Le principe directeur : informer pour décider, pas convaincre
En communication en santé, il existe une tension constante entre persuasion et information. Or, quand on communique des résultats scientifiques, la boussole éthique est claire : ne pas créer une certitude que les données ne permettent pas. Si les conclusions sont incertaines, il vaut mieux le dire plutôt que « sur-annoncer » parce que la crédibilité du messager et la confiance du public sont en jeu. Donc : on peut être pédagogique et accessible sans devenir promotionnel.
Le minimum vital à inclure dans tout message d’efficacité
A. Quel bénéfice concret ?
- 1 à 3 critères qui parlent à la vraie vie (symptômes, fonctionnement, qualité de vie), pas seulement score global.
B. Combien de personnes aide-t-on, en chiffres absolus ?
- Format recommandé : sur 100 (ou sur 1 000) avec le même dénominateur partout, pour éviter les comparaisons impossibles. Le CDC recommande explicitement de garder des dénominateurs constants dans les documents grand public.
C. Comparé à quoi ?
- Soins habituels / placebo / autre méthode : c’est ce qui donne le sens du chiffre.
D. Quelle incertitude et quelle solidité ?
- Une phrase simple sur la confiance qu’on peut avoir dans l’estimation : élevée / modérée / faible (approche GRADE).
E. Quels effets indésirables et contraintes ?
- Effets négatifs, abandons, charge de temps, coût, accessibilité (et pas en note de bas de page).
F. Quelles conditions en vie réelle ?
- Ce qu’il faut pour que ça marche : fréquence, durée, besoin de supervision, pré-requis, etc. (sans prétendre que tout est transposable automatiquement).
Passer de la preuve au choix : le cadre GRADE EtD
Plutôt que de s’arrêter à « l’étude dit que… », le cadre GRADE Evidence-to-Decision force à expliciter les dimensions qui conditionnent une décision raisonnable : effets désirables et indésirables, certitude des preuves, valeurs et préférences, ressources et coût, équité, acceptabilité, faisabilité. On peut le traduire ainsi :
- Bénéfices : qu’est-ce que ça améliore, et de combien ?
- Risques/inconvénients : qu’est-ce que ça peut coûter, faire perdre, faire courir comme risque ?
- Confiance : à quel point on est sûr ?
- Faisabilité : est-ce réaliste pour les gens et les services ?
- Équité : qui risque d’être exclu si on le déploie ?
Dire l’incertitude sans affoler : être clair, honnête pour faire passer à l’action
Un message responsable n’essaie pas d’effacer l’incertitude : il la cadre. L’OMS rappelle, dans ses recommandations de communication en contexte d’urgence, que l’enjeu central est la confiance, et que communiquer sans surjouer la certitude fait partie des conditions de cette confiance. D’autres guides proposent une logique opérationnelle : identifier où est l’incertitude (mesure, généralisation, durée, biais) et la traduire en langage accessible.
Plutôt que « prouvé scientifiquement » comme on peut le lire souvent, on peut utiliser cette formulation : les études suggèrent un bénéfice faible à modéré à court terme. On est modérément confiants dans ce résultat, mais on ne sait pas encore bien s’il dure au-delà de 6 mois. C’est plus utile, plus honnête, moins manipulable et surtout évite les déceptions vis-à-vis de sur-promesses intenables.
Rendre les chiffres lisibles : résumés Cochrane et clarté
Cochrane recommande, dans ses « Summary of findings », de présenter à la fois les mesures relatives et les mesures absolues. Cochrane fournit aussi des consignes pour écrire des résumés en langage clair (plain language summaries) afin que les non-spécialistes comprennent la question, les résultats et leurs limites.
Et côté « ergonomie » du message, l’approche du CDC Clear Communication Index donne des critères concrets de clarté (but principal explicite, chiffres comparables, vocabulaire simple, etc.).
Petite nuance en santé mentale : l’incertitude est souvent au cœur du vécu
Dans la communication en santé mentale, l’incertitude (sur le diagnostic, le pronostic, le « quoi faire ») n’est pas un détail technique : c’est une dimension psychologique centrale. L’incertitude traverse les processus de recherche d’information, d’émotions et de décision. Conséquence : une communication qui « sur-certifie » peut rassurer à court terme, mais se retourner contre la confiance si l’expérience réelle ne suit pas.
Une checklist simple à mettre en œuvre
- Ça change quoi, concrètement ? On parle d’une amélioration, mais est-ce un changement visible dans la vie (retour au travail, sommeil, qualité de vie), ou juste un petit gain sur un score ?
- Combien de personnes ont vraiment été aidées ? Chercher des phrases comme « X personnes sur 100 vont mieux après avoir suivi… » plutôt que « +30% d’amélioration » (souvent présenté en relatif et ça peut gonfler l’impression). Mais surtout :
- Par rapport à quoi ?
- rien / liste d’attente ? (plus facile de démontrer une augmentation)
- placebo / soins habituels ? (plus informatif)
- une autre méthode reconnue ? (encore mieux)
- L’effet est-il assez grand pour compter ? Indice utile : vérifier si l’article/communiqué donne des chiffres clairs (différence réelle, taille d’effet), sinon méfiance.
- L’effet tient-il dans le temps ? Regarder si l’amélioration dure au-delà de la fin de l’intervention (1 mois, 3 mois, 6 mois…). Un effet immédiat peut s’évanouir vite.
- Qui sont les gens étudiés : des gens « comme moi » ? Âge, sévérité, comorbidités, situation sociale : si l’étude ne ressemble pas au public réel, l’efficacité terrain peut être beaucoup plus faible.
- Combien ont arrêté en cours de route ? Un fort taux d’abandon peut vouloir dire : trop contraignant, pas acceptable, effets indésirables, manque de bénéfice. Sans ces infos, le résultat peut être « beau sur le papier » seulement.
- Quid des effets indésirables / inconvénients ? Une communication fiable parle aussi des limites : effets secondaires, risques, fatigue, coût, temps, accessibilité. Quand c’est 100% positif, c’est souvent un discours commercial et/ou intéressé.
- Y a-t-il une seule étude ou plusieurs ? Une étude isolée peut surestimer un résultat. Il est plus fiable de s’appuyer sur plusieurs études + synthèse (revue systématique/méta-analyse) + résultats cohérents.
- Qui parle et qui finance ? Si l’information vient directement d’une marque, d’un organisme qui vend la méthode, ou d’un influenceur lié au produit : il existe un très fort risque de biais. Une bonne source affiche clairement les conflits d’intérêts.