Seriez-vous un enquêteur bayésien ?

Publié le 10 février 2016 par Anton Suwalki

Voici un petit problème que je soumets à mes chers lecteurs , après l'avoir testé sur un petit panel d'amis, pas forcément représentatif…

Un navire possède un équipage de 200 personnes dont 20 femmes, portant tous le même uniforme, si bien que de loin, rien ne les distingue, sauf éventuellement la silhouette. Alors qu'il était en pleine mer, un sabotage a été commis dans la salle des machines, et le navire menace de couler.

Pendant que le bateau est en perdition, à terre, un policier enquête et galère : rien ne permet de soupçonner a priori un membre de l'équipage plutôt qu'un autre, Et le seul indice dont il dispose est l'image de vidéo-surveillance reçue d'une silhouette humaine captée par une caméra dans le couloir menant à la salle des machines, au moment où le sabotage a eu lieu.

L'image n'apporte qu'une seule information : la silhouette semble correspondre à celle d'une femme.

Les opérateurs habitués à exploiter les images de vidéo-surveillance considèrent que l'information est fiable à 80% : autrement dit, on est capable d'identifier correctement un homme ou une femme à partir de ce genre d'images dans huit cas sur 10.

L'enquêteur consulte à nouveau rapidement la liste de l'équipage, et affirme à l'assistance médusée : « alors, c'est plus probablement un homme qu'une femme ! »

Notre policier aurait-il perdu la raison ?

Ce problème est inspiré d'une célèbre expérience de psychologie réalisée auprès d'étudiants: les taxis bleus et les taxis verts de Kahneman et Tversky. Je l'ai modifié pour éviter que des petits malins cherchent la solution sur Internet. Résultat du test : ceux qui ont répondu m'ont dit que la probabilité que l'auteur du sabotage soit une femme était de 80 %. Une réponse analogue à celles constatées par Kahneman et Tversky.

Or, c'est faux ! C'est notre enquêteur qui a raison. Contrairement à tous ceux qui s'en tiennent à la fiabilité du témoignage visuel (80%), sans prendre en compte une autre information dont ils disposent a priori : il y a 10 % de femmes dans l'équipage, et 90 % d'hommes.

Notre enquêteur applique le théorème de Thomas Bayes , un pasteur britannique dont la découverte a constitué un pas fondamental en matière de probabilité.

Nous noterons P(SF/F) la probabilité d' identifier une silhouette de femme sur l'image quand il s'agit d'une femme, soit 0,8. P(SF/H) est la probabilité d'identifier à tort une femme alors qu'il s'agit d'un homme soit 0,2. P(F) est la probabilité de tirer une femme (*) au hasard dans l'équipage soit 0,1 (20 femmes sur 200). P(H) probabilité de tirer un homme.

Dans ces conditions, nous pouvons calculer P(F/SF), la probabilité a postériori qu'il s'agisse d'une femme sachant que nous avons identifier la silhouette comme étant celle d'une femme.

Bayes vient ici à notre secours :

P(F/SF) = P(SF/F) . P(F) / [P(SF/F) . P(F) + P(SF/H). P(H)] = 0,3076 , soit à peu près 31 % .

On est très loin des 80 % de fiabilité apparente du témoignage visuel. Ceux qui se trompent négligent le fait que bien qu'on reconnaisse la plupart du temps le sexe d'une personne à partir de sa silhouette, la disproportion hommes /femmes dans l'équipage du navire représente une source d'erreur très importante. 180 hommes dans l'équipage pourrait conduire à 36 erreurs d'identification.

Pendant longtemps, Bayes a fait couler beaucoup d'encre, L'école dite « fréquentiste » considérait comme une hérésie d'introduire des informations a priori dans des calculs de probabilité, Pour les fréquentistes, seules comptaient les données observées (je schématise).

A travers cet exemple , on voit bien non seulement l'utilité, mais la nécessité d'adopter un raisonnement bayésien. C'est aussi indispensable en médecine, pour prendre en compte les faux positifs lorsqu'on utilise des tests de dépistage de maladie. Comme nous l'avions noté dans un billet précédent, Monsieur Cazeneuve serait bien inspiré d'adopter un tel type de raisonnement lorsqu'il justifie un surveillance généralisée des citoyens sous couvert de dépistage des terroristes. Notons aussi que les jurés de cour d'assise devraient raisonner en bayésiens, afin de relativiser des témoignages qu'on leur présente comme « très fiables ». Je ne suis pas certain que ce soit toujours le cas.

La théorie bayésienne a donné lieu à une littérature volumineuse, et parfois très technique. La meilleure façon de la défendre est de pousser jusqu’à l'absurde l'approche purement fréquentiste. Avec celle-ci, on considérerait chaque nouvelle expérience indépendamment de toute connaissance accumulée par ailleurs.

Le raisonnement bayésien (ou l'inférence bayésienne) nous offre cette possibilité d'interpréter des observations à la lumière d'expériences antérieures, d'informations provenant de sources multiples, ou encore de l'opinion (subjective, mais d'intérêt) d'experts d'un domaine. Il permet a contrario de réexaminer un avis a priori à la lumière d'expériences nouvelles. Bref, une approche féconde.

Anton Suwalki

(*) Honni soit qui mal y pense !

A relire

http://imposteurs.over-blog.com/2015/12/opinion-des-mesures-anti-terroristes-inefficaces-et-liberticides.html