Cartographier une présence sur le web

Ce document est un rapport de stage produit en deuxième année de Master "Document Numérique et Humanités Digitales" à l'Université Bordeaux Montaigne. Il détaille mon travail sur un projet de recherche ANR: "HyperOtlet"

Introduction

Le web peut constituer une base de données intéressante à interroger notamment pour représenter l'état d'une question à un moment donné afin de distinguer les éventuels réseaux d'influence qui traitent d'une question. Nous avons donc tenté de savoir et de comprendre quels sont les sites et réseaux qui évoquent Paul Otlet actuellement afin de mesurer l'influence de la pensée du visionnaire belge. La représentation cartographique présente une forme intéressante à analyser et interpréter à condition de bien saisir le contexte d’obtention des données, en l’occurrence des liens, et notamment les éventuelles limites liées à la constitution du corpus de données.Paul Otlet lui-même considérait que la cartographie pouvait concerner un grand nombre de domaines documentaires :« Il en est des cartes comme des écrits. Elles peuvent être plus ou moins faciles à lire. La cartographie n’est pas seulement l’art de représenter les données vraies de la Géographie, de l’aspect géographique de tous les ordres de faits. Elle est devenue celui de les représenter avec l’efficience requise de tout document en général. » (Otlet, 1934, TD, 242.2.D)Nous présentons ici dans une première partie les objectifs et les méthodes utilisées pour réaliser ce travail cartographique. Nous précédons à sonanalyse dans la seconde partie. Enfin, nous interrogeons l’intérêt et les limites des méthodes de cartographie de liens hypertexte dans une approche critique et herméneutique.

Objectifs et méthodes de la cartographie

Notre objectif était d’étudier la présence sur le web d’un acteur très connecté durant son époque et qui a peu à peu été oublié, le théoricien de la documentation, Paul Otlet (1868-1944) qui va connaître un regain successif d’intérêts. L’avocat, pacifiste et militant des organisations internationales va être remis à l’honneur par les travaux d’un bibliothécaire et chercheur néo-Zélandais, Boyd Rayward (Rayward, 1975) qui va lui consacrer une thèse. Par la suite, en 1989, une édition fac simile du Traité de Documentation paru initialement en 1934 (Otlet, 1934) est publiée. Enfin, l’intérêt de certains acteurs du web comme Google ont permis la reconnaissance d’un acteur en dehors des sciences de l’information et de la documentation. Le 23 août 2015, un doodle lui est même consacré pour célébrer sa naissance.

Comment peut-on désormais comprendre l’influence actuelle de Paul Otlet ? À cet effet, nous avons choisi de considérer le web comme une source de données nous permettant de mesurer et de catégoriser cette influence. Ce travail s’effectue en parallèle d’une autre étude qui repose sur les données bibliographiques qui mesure plutôt l’influence scientifique.

Notre travail repose sur la méthode développée par l’équipe Dime-SHS du Médialab Science-Po en utilisant leur outil de crawling Hyphe. La première partie du travail a été de constituer notre corpus de sites sur lesquels effectuer le crawl. Le travail a été réalisé à partir de requêtes sur les moteurs de recherche ainsi que par la collecte de liens pertinents collectés via la plateforme de signets sociaux Diigo. La requête « Paul Otlet » a été notamment utilisée. Il est d’ailleurs possible d'extraire des liens avec un simple script python. Cependant, il existe des limites à l’extraction de données sur Google. Le script ne permet guère de récupérer plus de 300 liens. D’autre part, Google, comme d’autres moteurs de recherche, privilégie parfois une approche qui consiste à minorer les contenus jugés trop anciens, notamment au-delà de quatre ans d’ancienneté. Cela pose des problèmes en ce qui concerne les index des moteurs de recherche qui négligent volontairement la possibilité d’une approche qui prend en compte les archives du web. Il est donc recommandé d’utiliser à la fois les méthodes d’indexation documentaire traditionnelles avec les méthodes d’indexation automatique pour obtenir un corpus de base satisfaisant.

Nous avons effectué un crawl de niveau 1 pour obtenir un premier corpus de liens à analyser.

Nous avons ensuite procédé à un export sous Gephi pour obtenir une représentation graphique du réseau.

Dans notre exemple, nos 300 liens ont été répartis en 161 entités web, chacune connectée directement ou indirectement aux autres avec une moyenne de 2.65, ce qui correspond au nombre de liens moyens par lesquels il faut passer pour aller de n'importe quel nœud à n'importe quel autre du réseau. Notre réseau obtenu à un diamètre de 7, ce qui correspond au chemin le plus long entre deux entités de notre réseau. Afin de conserver une relative cohérence et homogénéité de la représentation cartographique, nous avons choisi de ne pas aller effectuer des crawls de plus grande profondeur pour cette étude.

Des liens qui bifurquent

La cartographie repose sur une logique de liens qui bifurquent pour reprendre l’expression de Borges (Borges, 1981), sans pour autant que ces liens soient clairement qualifiés. En effet, la cartographie ne permet pas de distinguer clairement les références et les différents types de citations qui sont effectuées. Les citations hypertextes ne reposant sur aucune ontologie, elles sont traitées ici de manière équivalente et de manière quantitative plutôt que qualitative. Seuls les mots sur lesquels portent les liens pourraient être traités automatiquement. Une ontologie de type CITO pour les références bibliographiques pourrait être toutefois opportune pour mieux distinguer les citations qui font vraiment référence par rapport à des citations plus institutionnelles.

Nous avons cependant renoncé à réaliser un travail de qualification a posteriori pour des raisons autant de temps que de méthodes du fait d’un risque de subjectivité.

Le traitement algorithmique et graphique sous Gephi a permis d’obtenir un résultat interprétable. Nous avons choisi d’utiliser l’algorithme Force Atlas 2. (Jacomy et al, 2014) pour obtenir une représentation graphique (Figure 1) qui soit interprétable et mette en avant les différentes lignes de force.

Le traitement algorithmique et graphique sous Gephi a permis d’obtenir un résultat interprétable. Nous avons choisi d’utiliser l’algorithme Force Atlas 2. (Jacomy et al, 2014) pour obtenir une représentation graphique (Figure 1) qui soit interprétable et mette en avant les différentes lignes de force.

Comment analyser la cartographie?

Notre cartographie concerne un acteur qui est décédé depuis plus de 70 ans. Nous sommes donc dans une situation différente des cartographies qui cherchent à étudier des thématiques ou des controverses où il s’agit souvent de mesurer les forces en présence et pour lesquelles il peut être intéressant d’effectuer des crawls relativement profonds pour mieux comprendre les liaisons « idéologiques » sous-jacentes. Ici nous sommes dans un cadre plutôt de nature réputationnelle plus proche de ce que peuvent effectuer des acteurs de cartographie de type linkfluence. La différence de taille est que l’acteur étudié n’est plus directement actif, mais seulement de manière indirecte de par l’intérêt et les travaux qu’il parvient encore à susciter. C’est donc une forme d’analyse cartographique réputationnelle sur des temporalités post-mortem. L’archéologie des médias qualifie de médias zombies les anciens médias et dispositifs qui sont transformés pour leur donner une seconde vie. Le cadre cartographique est ici quelque peu différent.

Limites de la représentation cartographiques

Ce travail de représentation cartographique basée sur des urls et leurs liens comporte plusieurs limites méthodologiques et interprétatives.

L'impossibilité de l'exhaustivité du corpus: L'Une des premières limites d’un travail cartographique réside dans la taille du corpus obtenu qui est relativement restreint. Cette taille peut également s’expliquer par la difficulté à intégrer de façon exhaustive l’ensemble des sites web qui parlent de Paul Otlet. En premier lieu, les requêtes sur les moteurs de recherche ne parviennent pas à récupérer l’intégralité de l’indexation. Plusieurs raisons peuvent être évoquées :D’une part, la question linguistique peut constituer un frein à l’indexation du fait d’orthographes différentes d’un nom propre dans des langues avec des alphabets non latins. D’autre part, c’est la question des archives du web qui apparaît ici cruciale. En effet, les résultats des moteurs privilégient des documents récents, si possibles publiés durant les quatre dernières années. Il faut parfois aller chercher dans ses propres archives pour compléter le corpus de liens. À cet effet, nos signets sur Diigo ont permis de retrouver certains résultats de recherche.Mais quid des documents désormais non indexés et parfois disparus des serveurs ?La cartographie ne représente finalement qu’un état du web à un moment donné alors qu’idéalement il nous faudrait une cartographie dynamique dans le temps, ce qui rejoint le conseil d’Élisée Reclus dans sa nouvelle géographie universelle :« En étudiant l’espace, il faut tenir compte d’un élément de même valeur, le temps » (Reclus, 1876, p.8) Cela suppose de pouvoir bénéficier d’une conservation des sites dans le temps, mais aussi de leur versioning et des métadonnées associées.La cartographie idéale ne peut reposer alors que sur une encyclopédie maximale:

(…) une encyclopédie Maximale n’est pas attingible dans sa totalité parce qu’elle représente l’ensemble de tout ce qui a été dit et pensé, ou du moins e, principe de tout ce qui serait trouvable en tant qu’exprimé au moyen d’une séquence d’interprétants matériellement identifiables (graffitis, stèles, monuments, manuscrits, livres, enregistrements électroniques), comme dans une sorte de Worldwide web infiniment plus riche que celui auquel on a accès par Internet. (Eco, 2011, p.108)Cependant, cette encyclopédie n’existe pas, même s’il est possible de parcourir d’anciens documents dans les archives du web notamment celles d’Internet Archive.

Cela permet de voir que certains sites ont ainsi fait le choix de mettre Paul Otlet dans leur nom de domaine, comme pour paulotlet.info ou paulotlet.com. Le premier s’est arrêté en 2006 tandis que le dernier ne contient aucune donnée. Le nom de domaine semble avoir été un simple enregistrement de nom de domaine. Il existe un institut Paul Otlet, mais qui semble être très peu mentionné par d’autres sites web, ce qui en fait surtout un candidat idéal au web invisible.Cependant, le moteur de recherche d’Internet Archive reste peu efficient pour pouvoir rechercher véritablement à l’intérieur des contenus conservés pour des questions de format de capture des sites web.

Conclusion

La cartographie produite est située dans le temps, c’est-à-dire qu’elle correspond à une démarche d’observation réalisée en 2019. L’objectif va être désormais de procéder à la réalisation de nouvelles démarches à intervalle régulier afin de voir l’évolution des cartes réalisées. A terme, cela permettra de générer des formes de cartographie dynamique.Outre le sujet d’étude premier qui est de mesurer la présence et l’influence actuelle de Paul Otlet sur le web, ce travail d’analyse du web permet également de mesurer la place du projet de recherche dans lequel s’inscrit cette recherche.Le paradoxe de ce travail est justement que l’équipe projet est également actrice de la production de documents de type web qui peuvent être visibles et fortement connectés sur les cartographies qui vont être produites. Dans ce cadre, la cartographie s’avère un excellent outil réputationnel. On rejoint finalement la pensée de Michel de Certeau en concevant ce travail cartographique comme un parcours plutôt que comme une simple cartographie d’un espace informationnel et documentaire stabilisé.