Connaissez vous la notion de web invisible ?
Je viens de terminer un e-books, proposé gratuitement par Digimind, parlant de la notion du web invisible (ou web profond) : « Découvrir et exploiter le web invisible pour la veille stratégique« . Celui là même qui n’apparait pas dans les résultats proposés par les moteurs de recherches que nous connaissons.
J’avoue que je n’avais qu’une vague notion de ce que représentait le web invisible et ce petit livre m’a vraiment intéressé, ça m’a aussi permit d’avoir une idée un peu plus chiffrée et donc concrète de la chose. Donc pourquoi ne pas partager avec vous ce que j’en ai retenu ? Il date un peu (2 ans) mais l’important c’est de situer les principes.
La première donnée que j’ai retenue c’est la part de ce qui est indexé par Google & Co. Elle ne représenterait que quelques % de tout ce qui existe. C’est déjà peu en soi et l’ont parle ici du total, chacun des moteurs n’indexant qu’une part de ces quelques %, d’où l’intérêt d’effectuer ses recherches sur plus d’un seul d’entre eux. Foultitude de tests ont étés fait, montrant que plus le temps passe, plus les résultats affichés sur les 3 premières pages de chaque moteur ont tendances à se diversifier.
Il y a plusieurs raisons expliquant cette immense partie de web non indexée :
- Les documents à indexer sont trop volumineux, que ce soit en terme de « poids » (les moteurs n’indexeraient pas entièrement les pages dépassant les 500Ko) ou en terme de nombre de pages (exemple donné est IMDB qui possède 7 millions de pages dont toutes ne sont pas indexées par les moteurs).
- Certaines pages sont volontairement retirées des index ou bloquées par les auteurs (que ce soit via le fichiers robots.txt, les balises meta ou autres). C’est notamment le cas pour les services proposant des pages accessibles via paiement (ce serait en effet balo de faire payer un contenu qui se retrouverai sur le net).
- Les pages générées dynamiquement ou mal reconnues par les moteurs
- Celles protégées par un identifiant/login quelconque (notamment par exemple les articles privés publiés sur un blog)
- Certains formats de documents sont encore mal comprit. On parle par exemple des fichiers flash, même si cela semble s’améliorer actuellement.
- Il y a également les pages web « orphelines », sans liens vers elle, pas encore répertoriées, …
- A quoi il faudrait ajouter la stabilisation du nombre de pages web indexées par les moteurs, ces derniers arrivant à saturation de ce qu’ils peuvent fournir.
Le web profond croit plus vite que le web visible, pourtant sa majeure partie reste accessible à tout le monde gratuitement et serait d’une plus grande qualité que ce que nous connaissons (notamment de par le fait qu’il y existe de nombreuses bases de données spécialisées, …)
Si l’ont prend l’exemple du site PubMed (base de médecine), la commande Google site:www.pubmedcentral.nih.gov/ renvoit 549.000 résultats, alors que la base comporterait en fait plus de 15.000.000 d’articles. Ce n’est qu’un exemple parmi d’autre (17.000 sites ont étés testés) mais je trouve que c’est plutôt intéressant.
Cet e-book propose également toute une série de ressources (majoritairement anglophones) comme des bases de données interrogeables, des répertoires spécialisés, bibliothèques en ligne (dont des privées), portails sectoriels, métamoteurs, …
En conclusion, si le petit livre est là pour promouvoir la technologie de veille proposée par Digimind, il y a vraiment des choses sympa à apprendre sur une portion méconnue d’Internet (en tous cas pour moi). De plus ça se lit assez vite, il y a quelques images et graphiques, c’est aéré, …
>> Découvrir et exploiter le web invisible pour la veille stratégique : télécharger (PDF, 63 pages, ~900Ko)




6 commentaires
Laisser un commentaire


Posté dans
Ce billet possède










- 
Rien qu’avec les intranets des grandes entreprises modiales il y a de quoi mettre Google à genoux. La partie visible de certains sites par rapport à la partie accessible via login et mots de passe représente effectivement quelques pourcent.