Archiver internet : la bibliothèque d’Alexandrie ressuscite, en double !

Collecter et conserver pour le bien commun et celui les générations futures la masse toujours changeante et grandissante des contenus circulant sur internet, tel est le difficile défi relevé par quelques fondations. Leur tâche est immense, les enjeux multiples, les difficultés rencontrées aussi !

Volatile et éphémère par essence, le web est pourtant devenu en quelques années la première source d’information et de diffusion de la culture. En 1996, alors que le nombre de sites consultables venait de dépasser 20 000, la Bibliothèque Nationale du Canada préparait déjà des projets d’indexation de leur contenu. Internet Archive vit le jour l’année suivante en Californie. A l’époque, les chercheurs avaient constaté que ce nouveau média était utilisé par des groupes sociaux utilisant peu les canaux traditionnels de diffusion de l’information. On constatait aussi déjà que de nombreux sites disparaissaient ou étaient modifiés et remplacés par d’autres. Conserver leur mémoire, créer un patrimoine pour les générations futures, telles sont encore les principales missions d’Internet Archive, l’une des organisations à but non lucratif qui se sont lancées dans l’archivage du web, alors que le nombre de sites consultables a déjà dépassé les 500 milliards. Un tel archivage destiné au bien commun est d’autant plus nécessaire que d’autres « mémoires » se constituent par ailleurs sur le web, au service d’intérêts privés, mercantiles, ou politiques. Ce sont en particulier ces multiples fichiers dont la prolification est difficilement contrôlable et où foisonnent des informations de tous ordres dont notamment des données personnelles. La volatilité du web est aussi une aubaine pour les falsificateurs et révisionnistes suffisamment puissants : la vérité d’hier peut être effacée d’un instant à l’autre au profit de celle d’aujourd’hui !

Concrètement, l’archivage du web est réalisé par des robots qui aspirent régulièrement des sites entiers et procèdent à leur indexation. Il pose déjà de nombreux problèmes, notamment techniques avec la traduction des différents formats de fichiers ou la puissance de mémoire nécessaire, mais aussi les problèmes liés au droit d’auteur et à la propriété intellectuelle. Alors qu’en France, cet archivage est une extension du dépôt légal dont la collecte systématique et automatique est assortie de réserves juridiques, Internet Archive procède à une très large collecte dont les fruits sont ensuite traités par de nombreux projets et services collaboratifs. L’ensemble des fichiers collectés constitue la Wayback Machine, sorte de machine à remonter le temps qui permet de découvrir toutes les versions archivées d’une même page. Vous pouvez d’ailleurs vous rendre sur le site archive.org pour découvrir la jeunesse de vos sites préférés. L’ensemble des données, dont la taille dépasse aujourd’hui les 4 pétaoctets (4000 téraoctets) et progresse au rythme de 100 téraoctets par mois, est archivé sur deux sites miroirs dont l’un est conservé à la Bibliotheca Alexandrina en Égypte, construite où jadis s’élevait l’antique Merveille du monde détruite par les flammes.

L’archivage du web, y compris celle du web 2.0, est donc en marche au travers de multiples projets partout dans le monde ! Il constitue aujourd’hui l’arme la plus sûre contre le copyfraud et réalise peu à peu le rêve d’une gigantesque somme de tous les savoirs humains. Gigantesque, mais néanmoins fragile : en 2002, les avocats de l’Église de Scientologie ont exigé et obtenu l’effacement par Internet Archive de sites critiques à l’égard de la scientologie recensé par la Wayback Machine.