L’illusion statistique (1ère partie)

Publié le par Anton Suwalki

L’incompréhension des statistiques, la méconnaissance des lois du hasard, la confusion fréquente entre corrélation et causalité sont sources d’innombrables biais de raisonnement. L’exemple ci-dessous m’a été inspiré par une récente discussion, les termes du problème ont été à peine simplifiés, pour la commodité de l’exposé.

 

Prenons une affection quelconque qui frappe en moyenne une personne sur 100.

Les habitants d’un immeuble qui abritent 100 personnes se sont aperçus que 5 d’entre eux, voire plus en étaient atteints.

Quelle malédiction nous accable ? Quelle est la mystérieuse source du mal qui nous frappe ? Que ne cache-t-on ? A qui le tour ?

Telles sont les inévitables questions qui vont alimenter les conversations . N’allez surtout pas dire qu’il n’y a pas de quoi fouetter un chat : vous serez probablement catalogué du côté des forces du mal.

5 fois plus de malades que la moyenne, c’est bien sûr beaucoup. Ca ne prouve pas pour autant que l’immeuble soit particulièrement pathogène. Et si c’était tout simplement …le hasard ?

Démonstration pour les incrédules :

Trouver par hasard (c’est-à-dire par le simple jeu de la répartition aléatoire d’une population) 5 personnes ou plus atteintes d’un mal particulier là ou on ne devrait en trouver qu’une seule obéit à une loi dite « normale » (« loi de Laplace-Gauss » ). La probabilité d’un tel événement peut se calculer par approximation à l’aide d’une loi dite de « Poisson » de paramètre 1 .

1, c’est le nombre moyen de malades qu’on obtiendra en tirant  au hasard une échantillon de 100 personnes dans une population.

Plus on s’écarte de cette valeur moyenne, plus la probabilité est faible. Il est ainsi plus improbable de trouver parmi 100 personnes 2 malades qu’un seul, 3 malades que 2, et a fortiori 5 qu’un seul .

Un extrait des tables de la loi de Poisson nous indique que la probabilité d’obtenir exactement 5 pour une valeur moyenne de 1 est (environ) de 0,0031 soit 3,1 pour mille ou 0,31%. La probabilité d’obtenir au moins 5 malades est un peu supérieure : (environ) 0,004 soit 4 pour mille ou 0,4%. C’est peu.

C’est pourtant loin d’être une probabilité négligeable. Et bien des gens confondent faible probabilité et impossibilité. Mais un tel raisonnement probabiliste sur un seul immeuble n’a en fait pas grand sens.

Nous avons en effet tiré un échantillon de 100 personnes dans une population, et nous n’avions que 4 chances sur 1000 de trouver 5 malades ou plus. Considérons maintenant toute la population (exemple, les 100.000 habitants d‘une ville moyenne) répartis par « ilots » géographiques de 100 habitants. Nous avons toujours 4 chances sur 1000 de tirer au hasard un ilot comportant 5 malades. Mais en considérant l’ensemble des ilots, on trouvera presque à coup sûr un ou plusieurs ilots concentrant 5 malades ,6 malades ou même plus!. Le raisonnement probabiliste peut même être inversé : il serait extrêmement étonnant de ne trouver aucun immeuble dans ce cas de figure.

L’illusion qui amène à penser que le hasard est exclu dans ces phénomènes de sur-représentation statistique tient souvent à une incompréhension des mécanismes du hasard, à qui on prête paradoxalement une forme d’intelligence et un sens de l’équité :

Cette illusion frappe par exemple les joueurs invétérés qui ont perdu 9 fois de suite à la roulette et s’imaginent que la 10ème fois sera la bonne, que la chance va tourner, que le hasard va réparer ses injustices. C’est l’incapacité à concevoir que les évènements sont indépendants, que chaque tirage est indépendant du précédent, et qu’au dixième tirage comme au premier ou au centième, la probabilité de tomber sur « pair » ou « impair » est identique ( 0,5 pour une roulette équilibrée-une chance sur deux).

Dans notre exemple, nous avons tendance à considérer comme une anomalie statistique une concentration de malades qui peut être parfaitement fortuite : la répartition aléatoire des 1% d’individus malades dans une population n’a aucune raison d’être homogène, dans l’immense majorité des cas, elle n’a pas plus de raison d’être régulière que les résultats de lancers de pièces successifs . On convient assez facilement qu’obtenir pour 20 lancers de pièces un tirage strictement régulier , avec alternance systématique des piles et des faces

      P(ile) F(ace) P F P F P F P F P F P F P F P F P F

Ou

      F P F P F P F P F P F P F P F P F P F P

a peu de chances de se produire. A vrai dire , très peu: il s’agit de 2 tirages particuliers sur les 220 (soit 1 048 576 ) combinaisons possibles = 1 chance sur 524 288 !

Or le hasard ne « procède » pas comme ça qu’avec les pièces ou les dés.

 Quand il s’agit d’une maladie, qui a une cause matérielle, la répartition spatiale de ses cas peut bien sûr être directement en relation avec l’environnement dans les endroits où elle se manifeste davantage, ou avec les caractéristiques de la population. On peut songer par exemple au saturnisme affectant les jeunes enfants vivant dans des immeubles délabrés, avec des vieilles peintures au plomb non refaites qui se décollent des murs.

Mais il est très difficile de faire entendre à beaucoup de gens que la concentration de ces cas peut être totalement due au hasard, comme le mettent en évidence les lois de probabilités. Répétons-le, il est très probable de trouver par hasard pour une pathologie donnée, une proportion de cas qui s’éloigne à certains endroits notablement de la moyenne. En l’absence de source du mal identifiable et de liens pouvant être établis entre une cause quelconque et un effet biologique, l’ « anomalie statistique » est vraisemblablement dûe au hasard.

Lorsqu’ils ne veulent pas l’admettre, il faut absolument aux gens un coupable, et là place à l’imagination… Encore que question imagination, dans cette période de technophobie relayée ,  on connaît à peu près les bons candidats au rôle de coupable : ne disons pas qu’ils ont « la tête de l’emploi », car la plupart du temps , ils sont invisibles. La radioactivité d’origine anthropique, les ondes électromagnétiques, la chimie, bientôt les nanotechnologies etc… 

En cherchant bien , on pourra toujours désigner une source de pollution responsable du nombre élevé à un endroit donné de gens souffrant de maux de tête, dépression , et autres symptômes des « électrosensibles ». Il en va de même pour bien d’autres problèmes.

Que cent études convergent dans leurs résultats  , rien ne changera dans l’opinion des gens, et il y aura toujours un média pour remettre une 101ème fois la question sur le tapis et pour convaincre une partie de l’opinion qu’on n’a pas bien cherché ou qu’on lui a caché des choses.

L’idée que les études expérimentales ou épidémiologiques pourraient servir à rassurer le public est vaine dans le climat actuel de défiance entretenue vis-à-vis de la science et des scientifiques.  Elles ne servent qu’à mettre (éventuellement) en évidence des risques, des sources de problèmes pour la santé publique, et à préconiser des mesures que les pouvoirs publics décideront ou non d’appliquer. 

En attendant, essayons malgré tout de propager à la mesure de nos moyens un climat plus sain, et de lutter contre les biais de raisonnement les plus répandus, dont fait partie l’illusion statistique.

Anton

Pour être informé des derniers articles, inscrivez vous :
Commenter cet article
(
<br /> Voir mon blog(fermaton.over-blog.com),No-29. - THÉORÈME GOTIT. -  6 ÉNIGMES JEUX HASARD.<br />
Répondre
(
<br /> Mon Blog(fermaton.over-blog.com),No-1. - THÉORÈME DU BOURDON. - LE HASARD DE LA PARESSE ?<br />
Répondre
J
Effectivement, la nouvelle version du blog est bien mieux...
Répondre
J
Je devrais d'abord préciser que... une fois n'est pas coutume... je suis d'accord avec le fond de l'article...Mais si mes souvenirs sont bons... La loi normale ne peut pas être appliquée à ce cas... Ou du moins, elle n'est pas la loi la plus appropriée pouvant ensuite être approximée...En effet, le "domaine d'utilisation" des distributions de Gauss est plutôt celui des variables quantitatives continues.Ici, la variable est discrète et a deux états: malade/ sain, dans les fréquences 0.01/0.99. La distribution statistique qui fit le mieux un tirage aléatoire répété dans une telle population est une binomiale...C'est un peu comme les fréquences génétiques en fait (deux allèles=binomial, plusieurs allèles=multinomial)La binomiale peut être approximée ici par une loi de Poisson dans la mesure où la fréquence d'un des deux évènements est très faible (0.01) et le nombre de tirage très grand (100).La loi binomiale pourrait être approximée par une loi de Gauss (et non le contraire) si les fréquences étaient moins déséquilibrées et le nombre de tirages très grand...
Répondre
T
Bravo Anton pour ce papier. Mais la loi de Poisson...je crains que les anti-"scientistes" ne fassent reparquer que Monsanto et son pyralène empoisonne les poissonsde nos belles rivières...
Répondre
L
Anti scientiste ça ne veut strictement rien dire pauvre inculte!Le scientisme peut être une sorte de maladie ne tout voir qu'a travers le prisme de la science!
C
Le Hasard et la Nécessité<br /> Le hasard ne satisfait pas la nécessité ressentie de comprendre et surtout de maîtriser... Le hasard ne satisfait pas la nécessité ressentie de justice, voire d'égalité. Le hasard est ressenti comme injuste, aveugle, résistant à notre puissance.
Répondre