Le web profond : 20 000 lieues sous Google !

Plutôt qu’un espace éthéré, internet serait une sorte d’océan, avec sa surface, ses grottes sombres et ses abîmes invisibles qui cachent aussi bien des horreurs, que des trésors réservés aux explorateurs avertis.

Si l’on parle souvent de « cyberespace » pour désigner le réseau des réseaux, c’est la métaphore marine qui semble revenir le plus fréquemment et avec le plus de pertinence. Ainsi, nous explorons le web à l’aide de navigateurs et nous aimons y surfer. Mais cette dernière activité qui consiste à cheminer d’une page à l’autre au gré des hyperliens en se laissant porter par la sérendipité (le fait de trouver autre chose que ce que l’on cherche) se pratique essentiellement à la surface. Car comme tout océan, le web a ses abysses, ses zones cachées, inexplorées. Les outils dont nous disposons pour le parcourir sont en effet imparfaits. Ce sont des robots qui lancent leurs filets dans les quelques zones dont ils connaissent les contenus. Ils vous ramènent à la demande les prises qu’ils savent identifier. A en juger par le nombre de résultats proposés pour la plupart des requêtes, on pourrait d’ailleurs imaginer que les moteurs de recherche les plus courants explorent la totalité du web, et tirent pour nous de cet océan une mer de résultats dont nous n’exploitons généralement que la surface, c’est à dire les premières pages. Il existe pourtant une infinité de pages qui ne figureront jamais dans les listes de résultats, quelle que soit la finesse de votre requête.

Concrètement, se sont toutes les pages qui, pour de multiples raisons, ne sont pas indexées par les moteurs de recherche et que l’on regroupe sous le vocable de « web profond ». Cette non indexation peut être d’origine technique, c’est à dire causée par une incapacité technique, soit d’origine volontaire, c’est à dire cachées derrière des systèmes d’identification privées, où même composées de manière à déjouer les indexations. C’est un peu comme s’il existait une infinité d’abonnés au téléphone et aucun annuaire consultable pour les joindre : un site du web profond n’est consultable que par ceux qui en connaissent l’adresse.

Notre réseau-océan est ainsi composé de plusieurs zones qui restent inaccessibles aux moteurs de recherche classiques :

Le web opaque est constitué de pages théoriquement indexables mais non indexées de fait. On y trouve notamment tous les sites qui n’ont pas suivi les protocoles facilitant leur indexation, et une infinité de sites personnels.
Le web invisible, lui aussi indexable, est ignoré par la plupart des moteurs de recherche classique, mais partiellement accessible à certains moteurs spécialisés. Il comporte entre autres d’immenses ressources documentaires sous forme de bases de données en ligne, notamment les ressources des bibliothèques numériques. 75 % des sites demeurent ainsi absents des résultats des recherches.
Le web anonyme et le web dit « sombre » sont volontairement cachés par leurs créateurs et utilisateurs. Les pires horreurs peuvent s’y cacher, c’est du moins ce que certaines rumeurs prétendent.

D’après une étude réalisée en 2001 l’ensemble du web profond pouvait contenir 500 fois plus de ressources que le web indexé par les moteurs de recherche. Il existe donc de vastes zones à explorer, des trésors multiples à dénicher. L’explorateur des profondeurs pourra se munir de multiples outils, tel que le moteur BASE, qui effectue l’indexation automatique des bibliothèques numériques utilisant le protocole Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH). Mais les moteurs capables de révéler toutes les ressources du web invisibles sont encore à inventer.

Le surfer de jadis aimait se perdre dans des zones inconnues et inattendues. S’il veut continuer à nourrir sa curiosité, il doit aujourd’hui quitter le maquis des sites à caractère commercial et plonger sous la surface balisée par Google pour trouver de belles vagues souterraines !