
Dans un billet publié hier, Google affirme avoir identifié un Trillion d’URLs uniques sur le web. C’est en fait plus, mais certaines pages ont des URLs multiples avec le même contenu.
Google note dans le quatrième paragraphe qu’ils ne référencent pas toutes ces pages. Google estime à environ 40 milliards le nombre de pages indexées.
Pourquoi n’indexent-ils donc pas toutes les pages qu’ils trouvent? Certaines sont des Spams; et en plus c’est extrêmement cher. Et le fait que Google indexe des sites d’infos ou des blogs et d’autres sites ultra dynamiques qui changent de contenu en permanence rend le processus encore plus coûteux. Il est donc indispensable d’effectuer une sélection sur ce qui est “juste” de référencer et ce qui ne l’est pas; c’est pourquoi une partie du web est “ignorée”.
Mais Google n’oublie pas de compléter: “Nous sommes fiers de présenter le moteur de recherches avec l’index le plus complet”





On prend toute la mesure de l’infrastructure matérielle qu’il faut pour assurer tout leurs services. De belles performances pour Google en tout cas.
On commence à voir l’utilité des méta-moteurs.
Couplons Google avec des moteurs de recherche de cette parti invisible du web et nous aurons certains THE moteur de recherche du web.
Techniquement parlant, il n’y a pas de limite fini aux nombres d’urls.
Je m’explique : aujourd’hui la grande majorité des sites sont publiées avec des outils qui fabrique dynamiquement les urls. Dans les faits, le simple outil de calendrier d’un blog qui ne vérifie pas la présence de billet pour afficher les boutons mois suivants/précédent va faire balader le crawler dans une boucle infinie.
C’est donc une obligation de la part des moteurs d’étudier le contenu des pages scannées.
Assez d’accord avec OsmOnOs !
Le moteur n’est-il pas en train de s’éteindre au profit d’outils plus sélectifs comme les moteurs de blogs (plates-formes de plus en plus utilisées par les institutionnels) d’un côté et les métamoteurs de l’autre ?
Il me semble que la surface à indexer est de plus en plus incompatible avec la pertinence des résultats de la recherche. S’ajoute à cela la grande perméabilité des moteurs face aux référenceurs.
S’il s’agit bien de 1000 milliards d’URL alors il faudrait dire (en français) un billion et non un trillion. C’est ce qu’explique la page de wikipedia vers laquelle vous avez mis un lien, Ouriel.
Oui d’accord avec andras… c’est lequel de trillion dont il parle…
10 exposant 12 ou 10 exposant 18, parce qu’il y a quand même un facteur 1 million entr les 2 …
Il s’agit du trillion des américains et des anglais, soit 10 puissance 12.
En français, il s’agit d’un billion.
http://fr.wikipedia.org/wiki/%C3%89chelles_longue_et_courte
Merci JED pour l’explication sur le trillion anglosaxons et le billion français!!!
On sait par contre on s’arrête le web : http://lafinduweb.org/
Totalement inutile, mais terriblement drole je trouve.
On ne peut pas connaitre la taille exacte du web.
Pour la seule est unique raison que le Web est en perpetuelle expansion (avec ou sans Google).
Je vous épargne la théorie du bigbang =)
Einstein à dit:
Il y a deux choses d’infinies :
Le Web et la Connerie humaine … ^^
Google est certainement le moteur de recherche le plus performant et le plus complet du web, mais dire qu’il détient tjrs les nombres et les stats exacts, est en quelque sorte faux. mais, en fin de compte, ses initiatives sont tjrs la bienvenue!
Vraiment !
@collobian : merci, MDR !
bon c’etait cobolian, excuse !