Seriez-vous un enquêteur bayésien ?

Publié le par Anton Suwalki

Seriez-vous un enquêteur bayésien  ?

Voici un petit problème que je soumets à mes chers lecteurs , après l'avoir testé sur un petit panel d'amis, pas forcément représentatif…

Un navire possède un équipage de 200 personnes dont 20 femmes, portant tous le même uniforme, si bien que de loin, rien ne les distingue, sauf éventuellement la silhouette. Alors qu'il était en pleine mer, un sabotage a été commis dans la salle des machines, et le navire menace de couler.

Pendant que le bateau est en perdition, à terre, un policier enquête et galère : rien ne permet de soupçonner a priori un membre de l'équipage plutôt qu'un autre, Et le seul indice dont il dispose est l'image de vidéo-surveillance reçue d'une silhouette humaine captée par une caméra dans le couloir menant à la salle des machines, au moment où le sabotage a eu lieu.

L'image n'apporte qu'une seule information : la silhouette semble correspondre à celle d'une femme.

Les opérateurs habitués à exploiter les images de vidéo-surveillance considèrent que l'information est fiable à 80% : autrement dit, on est capable d'identifier correctement un homme ou une femme à partir de ce genre d'images dans huit cas sur 10.

L'enquêteur consulte à nouveau rapidement la liste de l'équipage, et affirme à l'assistance médusée : « alors, c'est plus probablement un homme qu'une femme ! »

Notre policier aurait-il perdu la raison ?

Ce problème est inspiré d'une célèbre expérience de psychologie réalisée auprès d'étudiants: les taxis bleus et les taxis verts de Kahneman et Tversky. Je l'ai modifié pour éviter que des petits malins cherchent la solution sur Internet. Résultat du test : ceux qui ont répondu m'ont dit que la probabilité que l'auteur du sabotage soit une femme était de 80 %. Une réponse analogue à celles constatées par Kahneman et Tversky.

Or, c'est faux ! C'est notre enquêteur qui a raison. Contrairement à tous ceux qui s'en tiennent à la fiabilité du témoignage visuel (80%), sans prendre en compte une autre information dont ils disposent a priori : il y a 10 % de femmes dans l'équipage, et 90 % d'hommes.

Notre enquêteur applique le théorème de Thomas Bayes , un pasteur britannique dont la découverte a constitué un pas fondamental en matière de probabilité.

Nous noterons P(SF/F) la probabilité d' identifier une silhouette de femme sur l'image quand il s'agit d'une femme, soit 0,8. P(SF/H) est la probabilité d'identifier à tort une femme alors qu'il s'agit d'un homme soit 0,2. P(F) est la probabilité de tirer une femme (*) au hasard dans l'équipage soit 0,1 (20 femmes sur 200). P(H) probabilité de tirer un homme.

Dans ces conditions, nous pouvons calculer P(F/SF), la probabilité a postériori qu'il s'agisse d'une femme sachant que nous avons identifier la silhouette comme étant celle d'une femme.

Bayes vient ici à notre secours :

P(F/SF) = P(SF/F) . P(F) / [P(SF/F) . P(F) + P(SF/H). P(H)] = 0,3076 , soit à peu près 31 % .

On est très loin des 80 % de fiabilité apparente du témoignage visuel. Ceux qui se trompent négligent le fait que bien qu'on reconnaisse la plupart du temps le sexe d'une personne à partir de sa silhouette, la disproportion hommes /femmes dans l'équipage du navire représente une source d'erreur très importante. 180 hommes dans l'équipage pourrait conduire à 36 erreurs d'identification.

Pendant longtemps, Bayes a fait couler beaucoup d'encre, L'école dite « fréquentiste » considérait comme une hérésie d'introduire des informations a priori dans des calculs de probabilité, Pour les fréquentistes, seules comptaient les données observées (je schématise).

A travers cet exemple , on voit bien non seulement l'utilité, mais la nécessité d'adopter un raisonnement bayésien. C'est aussi indispensable en médecine, pour prendre en compte les faux positifs lorsqu'on utilise des tests de dépistage de maladie. Comme nous l'avions noté dans un billet précédent, Monsieur Cazeneuve serait bien inspiré d'adopter un tel type de raisonnement lorsqu'il justifie un surveillance généralisée des citoyens sous couvert de dépistage des terroristes. Notons aussi que les jurés de cour d'assise devraient raisonner en bayésiens, afin de relativiser des témoignages qu'on leur présente comme « très fiables ». Je ne suis pas certain que ce soit toujours le cas.

La théorie bayésienne a donné lieu à une littérature volumineuse, et parfois très technique. La meilleure façon de la défendre est de pousser jusqu’à l'absurde l'approche purement fréquentiste. Avec celle-ci, on considérerait chaque nouvelle expérience indépendamment de toute connaissance accumulée par ailleurs.

Le raisonnement bayésien (ou l'inférence bayésienne) nous offre cette possibilité d'interpréter des observations à la lumière d'expériences antérieures, d'informations provenant de sources multiples, ou encore de l'opinion (subjective, mais d'intérêt) d'experts d'un domaine. Il permet a contrario de réexaminer un avis a priori à la lumière d'expériences nouvelles. Bref, une approche féconde.

Anton Suwalki

(*) Honni soit qui mal y pense !

A relire

http://imposteurs.over-blog.com/2015/12/opinion-des-mesures-anti-terroristes-inefficaces-et-liberticides.html

Pour être informé des derniers articles, inscrivez vous :
Commenter cet article
T
I recently came across your article and have been reading along. I want to express my admiration of your writing skill and ability to make readers read from the beginning to the end.
Répondre
M
Très mauvais exemple. L'évènement F veut dire "une femme a commis le sabotage" dans P(F/SF) et "en piochant une personne au hasard dans l'équipage on tombe sur une femme" dans P(F). Les deux ne sont pas équivalents et le premier n'est pas un évènement aléatoire (si on refait l'expérience ce n'est pas une personne différente qui commettra le sabotage), donc Bayes ne s'applique pas, pas plus que la théorie des probas. Avec les informations qu'on a dans son problème, c'est le panel d'amis qui dit 80% qui a raison. C'est la seule information de laquelle on peut tirer des probabilités en rapport avec le sabotage.<br /> <br /> Mieux aurait valu s'en tenir aux exemples de Kahneman, qui eux ont le mérite d'être valides: on y pioche bien une personne au hasard.<br /> <br /> Ce n'est pas la première fois que je vois une tentative reformulation trébucher sur la définition d'un évènement aléatoire (souvent c'est aussi la notion d'indépendance qu'on comprend mal).
Répondre
P
Bof, petit exercice niveau bac.
Répondre
B
Pour ceux qui veulent en savoir un peu plus sur l'approche Bayesienne, je leur conseille de lire «The signal and the noise» de Nate Silver. Le Nate Silver qui a prédit l'élection d'Obama il y a quelques années. <br /> https://en.wikipedia.org/wiki/The_Signal_and_the_Noise
Répondre