Un document non indexé n’est pas un document perdu.
Il est conservé, physique, réel. Il occupe de l’espace sur une étagère ou un serveur. Il peut être consulté si l’on sait qu’il existe et où il se trouve. Mais pour un système qui ne le connaît pas, il n’existe pas comme objet mobilisable. Il est présent sans être accessible. Il existe sans être trouvable.
La distinction entre existence physique et existence opératoire est l’objet de ce dossier.
Une grande bibliothèque conserve des millions de documents. Aucun chercheur ne peut les consulter tous. Ce qui devient réellement accessible, c’est l’index. L’index décide ce qui est trouvable. Ce qui est trouvable décide ce qui peut être cité, mobilisé, comparé, réfuté. Un document non indexé est conservé mais inopérant. Il n’entre pas dans les chaînes de preuves, les bibliographies, les arguments. Il ne produit pas de conséquences opératoires. Pour la recherche, il n’existe pas.
Ce n’est pas une défaillance exceptionnelle. C’est la structure normale de tout système documentaire.
Les catalogues de bibliothèques médiévales indexaient par titre, auteur, parfois par sujet. Mais les sujets étaient les catégories du catalogueur, pas celles du document. Un traité de mécanique des fluides rangé sous “philosophie naturelle” pouvait devenir introuvable pour un lecteur cherchant l’écoulement, la pression ou la résistance des fluides. Le catalogue ne reflétait pas seulement le contenu. Il reflétait les catégories disponibles au moment de l’indexation. Ces catégories filtraient ce qui pouvait être trouvé, et par qui.
L’Index librorum prohibitorum, tenu par la Congrégation de l’Index de l’Église catholique de 1559 à 1966, opérait selon la même logique dans une direction inverse : indexer pour interdire, rendre visible pour rendre inaccessible. Un livre inscrit à l’Index existait comme objet de prohibition. Il n’existait pas comme source légitime. L’indexation négative est aussi une opération de traitabilité : elle convertit une présence physique en statut opératoire, ici celui de l’interdit.
Un moteur de recherche ne donne pas accès au web. Il donne accès à son index du web.
Ce qu’il n’a pas exploré, ce qu’un fichier robots.txt a exclu, ce qu’une structure dynamique n’a pas rendu crawlable, ce qu’un formulaire enferme, ce qu’une URL isole, n’appartient pas immédiatement à l’espace commun du trouvable. Ce contenu peut être public, légal, hébergé, techniquement présent. Pour la quasi-totalité des utilisateurs, il n’existe pas. Ils ne peuvent pas le trouver sans savoir précisément où chercher. Sa présence physique sur des serveurs ne lui confère aucune existence opératoire dans l’espace de recherche.
L’index d’un moteur n’est pas une liste exhaustive de ce qui existe. Il est le résultat d’un processus d’exploration partiel, contraint par des ressources computationnelles finies, des priorités de crawl, des règles d’exclusion techniques et juridiques, et des critères de pertinence qui changent avec les algorithmes. À chaque cycle, le système décide ce qui entre dans l’espace du trouvable et ce qui reste en dehors.
PageRank, l’algorithme original de Google, évaluait l’importance d’une page par le nombre et la qualité des liens entrants. Une page sans liens entrants ne peut pas être trouvée par l’exploration ordinaire. Elle peut exister si son URL est connue ou soumise directement, mais elle ne bénéficie pas du même régime de découverte. Le critère d’indexation et le critère de pertinence se renforcent mutuellement : ce qui est déjà connu est plus facilement trouvé ; ce qui est plus facilement trouvé est plus souvent cité ; ce qui est plus souvent cité devient plus facilement trouvable.
L’index amplifie ce qui est déjà dans l’index.
Cette circularité n’est pas arbitraire. Elle vient d’une décision opératoire sur ce que signifie l’importance d’un document : l’importance est dérivée des liens, les liens sont des décisions humaines de citation, et les décisions de citation dépendent de ce qui était trouvable auparavant. Le critère devient endogène au système qu’il mesure.
PubMed indexe plusieurs dizaines de millions de références bibliographiques en sciences biomédicales. Une étude clinique publiée dans une revue non indexée peut être rigoureuse, pertinente, réplicable. Elle existe dans la littérature au sens matériel. Mais elle n’entre pas dans les mêmes chaînes de revue systématique, de méta-analyse automatisée, de recommandation clinique ou de médecine fondée sur les preuves. Elle n’a pas disparu. Elle n’est pas opératoire au même endroit.
La politique d’indexation est donc une politique épistémique. Elle décide ce qui peut compter comme preuve dans la chaîne qui va de l’étude clinique à la recommandation thérapeutique. Une revue non indexée produit des études qui existent, mais qui entrent difficilement dans les dispositifs où les pratiques sont agrégées, comparées et décidées.
L’index n’est pas une liste de ce qui existe.
Il est la condition de ce qui peut compter.
Doctrine
L’index est une opération de seuil appliquée à une collection.
Il convertit une présence physique en accessibilité opératoire. Ce qui passe le seuil de l’indexation devient un objet mobilisable dans les chaînes de preuves, de citations, d’arguments, de décisions. Ce qui ne le passe pas reste dans le hors-champ de la traitabilité documentaire.
La politique d’indexation est une politique épistémique. Elle décide ce qui peut compter comme source, preuve, référence, autorité. Elle n’est pas neutre, parce qu’elle n’est pas exhaustive. Toute indexation opère par sélection, et toute sélection produit un hors-champ.
Ce hors-champ n’est pas vide. Il est peuplé de documents réels, d’études rigoureuses, de textes existants. Il est simplement inaccessible aux systèmes qui opèrent depuis l’index. Pour ces systèmes, il n’existe pas.
Vecteur ouvert
Les algorithmes de recommandation sont des index dynamiques et personnalisés. Ils n’indexent pas ce qui existe dans un espace commun. Ils indexent ce qui correspond à un profil inféré, à un historique, à des clics, à une localisation, à une heure d’accès, à une probabilité d’engagement. Deux personnes cherchant le même terme peuvent recevoir deux espaces de trouvabilité différents. L’index devient personnel.
Ce que chacun peut trouver dépend de ce que le système a décidé qu’il cherche. L’espace du trouvable n’est plus commun. Il est individualisé, opaque à l’utilisateur, révisable à chaque requête. La réalité accessible devient un objet opératoire instable, différent selon qui cherche et quand.
Le hors-champ de cet index personnalisé n’est pas un hors-champ partagé. Il est propre à chaque utilisateur. Ce que l’un ne peut pas trouver, l’autre peut le trouver. Ce qui n’existe pas pour l’un existe pour l’autre. L’index fragmente l’espace du trouvable en autant d’espaces qu’il y a de profils.
Quand deux personnes ne peuvent plus trouver les mêmes choses, peuvent-elles encore partager les mêmes preuves ?
