Connaissez vous la notion de web invisible ?

Je viens de terminer un e-books, proposé gratuitement par Digimind, parlant de la notion du web invisible (ou web profond) : « Découvrir et exploiter le web invisible pour la veille stratégique« . Celui là même qui n’apparait pas dans les résultats proposés par les moteurs de recherches que nous connaissons.

J’avoue que je n’avais qu’une vague notion de ce que représentait le web invisible et ce petit livre m’a vraiment intéressé, ça m’a aussi permit d’avoir une idée un peu plus chiffrée et donc concrète de la chose. Donc pourquoi ne pas partager avec vous ce que j’en ai retenu ? Il date un peu (2 ans) mais l’important c’est de situer les principes.

La première donnée que j’ai retenue c’est la part de ce qui est indexé par Google & Co. Elle ne représenterait que quelques % de tout ce qui existe. C’est déjà peu en soi et l’ont parle ici du total, chacun des moteurs n’indexant qu’une part de ces quelques %, d’où l’intérêt d’effectuer ses recherches sur plus d’un seul d’entre eux. Foultitude de tests ont étés fait, montrant que plus le temps passe, plus les résultats affichés sur les 3 premières pages de chaque moteur ont tendances à se diversifier.

Connaissez vous la notion de web invisible ?Il y a plusieurs raisons expliquant cette immense partie de web non indexée :
- Les documents à indexer sont trop volumineux, que ce soit en terme de « poids » (les moteurs n’indexeraient pas entièrement les pages dépassant les 500Ko) ou en terme de nombre de pages (exemple donné est IMDB qui possède 7 millions de pages dont toutes ne sont pas indexées par les moteurs).
- Certaines pages sont volontairement retirées des index ou bloquées par les auteurs (que ce soit via le fichiers robots.txt, les balises meta ou autres). C’est notamment le cas pour les services proposant des pages accessibles via paiement (ce serait en effet balo de faire payer un contenu qui se retrouverai sur le net).
- Les pages générées dynamiquement ou mal reconnues par les moteurs
- Celles protégées par un identifiant/login quelconque (notamment par exemple les articles privés publiés sur un blog)
- Certains formats de documents sont encore mal comprit. On parle par exemple des fichiers flash, même si cela semble s’améliorer actuellement.
- Il y a également les pages web « orphelines », sans liens vers elle, pas encore répertoriées, …
- A quoi il faudrait ajouter la stabilisation du nombre de pages web indexées par les moteurs, ces derniers arrivant à saturation de ce qu’ils peuvent fournir.

Le web profond croit plus vite que le web visible, pourtant sa majeure partie reste accessible à tout le monde gratuitement et serait d’une plus grande qualité que ce que nous connaissons (notamment de par le fait qu’il y existe de nombreuses bases de données spécialisées, …)

Si l’ont prend l’exemple du site PubMed (base de médecine), la commande Google site:www.pubmedcentral.nih.gov/ renvoit 549.000 résultats, alors que la base comporterait en fait plus de 15.000.000 d’articles. Ce n’est qu’un exemple parmi d’autre (17.000 sites ont étés testés) mais je trouve que c’est plutôt intéressant.

Cet e-book propose également toute une série de ressources (majoritairement anglophones) comme des bases de données interrogeables, des répertoires spécialisés, bibliothèques en ligne (dont des privées), portails sectoriels, métamoteurs, …

En conclusion, si le petit livre est là pour promouvoir la technologie de veille proposée par Digimind, il y a vraiment des choses sympa à apprendre sur une portion méconnue d’Internet (en tous cas pour moi). De plus ça se lit assez vite, il y a quelques images et graphiques, c’est aéré, …

>> Découvrir et exploiter le web invisible pour la veille stratégique : télécharger (PDF, 63 pages, ~900Ko)

 6 commentairesPARTICIPEZ !

  1. Rien qu’avec les intranets des grandes entreprises modiales il y a de quoi mettre Google à genoux. La partie visible de certains sites par rapport à la partie accessible via login et mots de passe représente effectivement quelques pourcent.

  2. Très intéressant en effet. Cela remet en perspective la puissance toute relative de Google.
    La recherche de données sur Internet est plus complexe et subtile que ce que l’on pense en général. A distribuer dans les écoles !

    Par contre, une mise à jour des données chiffrées serait interessante afin de voir à quel point les choses ont évoluées en deux ans.
    Il y a une explosion des blogs (skyblog) et de sites publicitaires qui ont du faire fameusement gonfler notre iceberg.

  3. @Bruno >> oui en effet, ce qui est assez normal pour les « gros » sites ou les sites de grosses boites. Ce qui m’a étonné c’est le rapport entre ce qui est visible et invisible, sachant que si ce qui est indexé par tous les moteurs réunis représente ~10%, Google ne fait que 5-6% par exemple. Et dire que tout le monde se bat pour être bien placé dans ces qq % ;) (qui sont les plus important cela dit car les plus visible)

    @JeanLou >> Comme chiffre ça concerne en effet l’année 2005. Les seuls que j’ai sont que le web profond progresse plus vite que le web visible et que si les moteurs que nous utilisons indexent 10% du total, en terme de volume le web profond ferait 500 plus que le web connu. Ce qui semble logique si l’ont considère qu’il est composé de bases de données lourdes, de pages plus longue et lourde en Ko, …

  4. Très intéressant tout cela ; le Web est si vaste… :idea:

Ils en ont parlé chez eux...
  1. Revue de la semaine - Oueb-Revue
  2. Jean-Marie Gall.com » Blog Archive » Ma Revue de Presse 2.0 | 09

 Laisser un commentaire




Commentaire


Les commentaires postés par des personnes utilisant des pseudos "SEO" seront remplacés.