De nombreux tests m'ont convaincu que les anciennes versions d'un site toujours en ligne actuellement ou ayant disparu conservaient une empreinte dans le moteur de recherche Google. Mais jusqu'où va ce système d'archivage ? Avertissement: cette réflexion est une réflexion de Geek qui n’intéressera pas les pros du marketing.
Voici quelques calculs très simples permettant de dégrossir le sujet et de sortir de l'alternative basique (Google ne se souvient de rien/Google se souvient de tout).
Je me suis livré à un petit calcul pour déterminer les limites de ce que Google pourrait archiver
Google a 10 millions de serveurs dédiés à Gmail, Youtube, Google analytics, Picasa... mais aussi aux profiling des internautes, à Google Adwords, Adsense... et évidement au stockage des données du web, à l'indexation de ces données et à la mise à disposition de ces données via des recherches par mots clés.
Imaginons que 3 millions de ces serveurs soient utilisés pour les trois derniers items (qui constituent le moteur de recherche).
Imaginons qu'un million de serveur soit dédié au stockage de données TEXTE et puissent stocker, chacun 3To de données.
Il y aurait 100 à 200 milliards de pages disponibles sur le web.
Matt Cutts a indiqué que les 256 premiers Ko d'une page étaient indexés (il faudrait que je vérifie que cela est toujours d'actualité).
On peut donc estimer la quantité de données disponibles sur le web et la comparer aux capacités de stockage globales de Google.
Pages sur internet | 200 000 000 000 |
Volume a indéxer par page | 0,256 |
Poids des pages (en Mo) | 51 200 000 000 |
Poids des pages (en Go) | 51 200 000 |
Poids des pages (en To) | 51 200 |
Nombre de serveurs | 1 000 000 |
Capacité d'un serveur (en To) | 3 |
Capacité serveurs Google | 3 000 000 |
Capacité/volume données web | 58,59 |
On tombe sur un premier nombre, avec ce calcul grossier, qui est de 58.
Sur ses serveurs de stockage, Google pourrait stocker 58 versions d'une même page.
Mais cela inclut:
- les x versions de sauvegarde de la version actuelles,
- les dizaines de copies de la version actuelle répliquées sur les dizaines de datacenters...
- et enfin, les anciennes versions d'une page données.
Conclusion temporaire: Google peut archiver de plusieurs versions d'une même page, mais apparemment pas toutes.
Quelques arbitrages réalise-t-il dès lors ?
Une version par an ?
Les x dernières versions de la page ?
Archive-t-il plus volontiers les pages de certains sites clés que celles d'autres sites moins importants ?
On est bien avancé, maintenant :-)