Pendant la Seconde Guerre mondiale, l'US Army Air Forces cherche à renforcer ses appareils. Ceux qui reviennent portent des impacts visibles : ailes, fuselage, queue. La réponse intuitive consiste à blinder les zones les plus touchées. Wald inverse la carte. Si ces avions sont revenus avec ces impacts, alors les zones touchées ne sont pas celles où l'impact détruit l'appareil. Il faut renforcer les zones presque intactes sur les avions revenus.

Le manque est la donnée.

Les impacts visibles appartiennent aux survivants. Ils ne cartographient pas la vulnérabilité de l'avion. Ils cartographient les dommages compatibles avec le retour. Une aile trouée peut encore porter. Un fuselage atteint peut encore tenir. Mais un avion touché dans une zone réellement critique ne revient pas toujours pour montrer son dommage.

L'absence entre dans le raisonnement.

Le biais du survivant est souvent décrit comme une erreur simple : on observe les réussites et l'on oublie les échecs. Mais sa forme la plus dure est ailleurs. L'échantillon n'est pas seulement incomplet. Il est produit par une condition terminale. Pour appartenir à l'échantillon, l'avion devait revenir.

Chaque trou visible est donc double. Il indique qu'un projectile a frappé cette zone. Il indique aussi que cette frappe n'a pas empêché l'avion d'être observé. La trace ne dit pas seulement ce qui s'est produit. Elle dit que ce qui s'est produit est resté compatible avec l'inscription dans l'archive.

Les avions absents ne fournissent pas leurs impacts. Ils fournissent la règle de lecture des impacts présents.

Dans la série de notes qu'il rédige pour le Statistical Research Group en 1943, Wald ne corrige pas les données en ajoutant ce qui manque. Il change la question posée aux données disponibles. La carte des trous n'est pas une carte des zones à protéger. C'est une carte des zones où l'avion peut être atteint sans disparaître de l'échantillon.

Ce qui est visible désigne le non-fatal.

Ce qui manque désigne peut-être le vital.

L'échantillon est filtré par son résultat. Les trajectoires détruites n'entrent pas dans la collection qui sert à décider. Elles ont existé, volé, été touchées, chuté. Mais elles n'ont pas franchi le seuil documentaire du retour. Le retour n'est pas seulement une issue militaire. C'est une condition d'apparition statistique.

L'archive ne ment pas. Elle parle depuis les cas qui ont survécu à la condition d'entrée.

La leçon de Wald ne porte donc pas seulement sur les avions. Elle porte sur toute collection produite par un seuil de visibilité. Une base de données contient les cas qui ont été enregistrés. Une archive contient les documents qui ont survécu à la conservation. Une littérature scientifique contient les résultats qui ont été publiés. Un récit de réussite contient ceux qui ont franchi le seuil de la réussite.

Dans chaque cas, lire l'échantillon exige de lire la condition qui l'a produit.

Doctrine

L'absence porte de l'information lorsqu'elle résulte d'un filtre.

Une trace visible ne dit pas seulement ce qui s'est produit. Elle dit aussi que ce qui s'est produit est resté compatible avec son inscription dans l'échantillon. Le survivant ne montre pas directement la vulnérabilité du système. Il montre les dommages que le système peut absorber sans disparaître.

L'échantillon n'est pas biaisé par accident. Il est constitué par son seuil d'apparition.

Vecteur ouvert

Tout échantillon est produit par une condition d'entrée.

Les entreprises encore actives écrivent l'histoire de la stratégie. Les patients revenus à l'hôpital écrivent l'histoire du traitement. Les modèles entraînés sur des données disponibles apprennent le monde qui a laissé des traces. Les archives conservent ce qui a franchi leurs seuils de conservation.

La question n'est donc pas seulement : que contient l'échantillon ? Mais, qu'a-t-il fallu survivre pour y entrer ?

Références

A. Lynge Archives internes