Le « budget crawl » est une notion qui fait référence au fait que Google allouerait un nombre limité de ressources pour parcourir (crawler) un site web.Google via un article officiel nous donne quelques précisions à ce sujet.
Le crawl d’un site est une étape nécessaire pour Google afin qu’il puisse l’analyser et mettre à jour son index.
Lors de l’étape de crawl les moteurs de recherche comme Google utilisent des robots (nommés également crawlers, agents, spiders,…) pour parcourir toutes les pages d’un site en suivant les différents liens.
Il est surtout utile de s’intéresser à la notion de budget crawl pour les sites possédant plusieurs milliers de pages.
Google liste dans un document officiel quelques paramètres qui influencent le « budget crawl » :
Lors de l’exploration, Google se fixe une limite (nombre de connexions simultanées) afin de ne pas surcharger le serveur.
Elle est grandement liée à la vitesse du serveur et aux codes d’erreurs renvoyés par celui-ci.
Suivant les besoins Google s’adaptera et crawlera plus moins de pages.
Par exemple pour un site rarement mis à jour les robots de Google ne passeront pas souvent, dans le cas d’une refonte les robots seront beaucoup plus actifs.
C’est en associant la vitesse d’exploration et le besoin d’exploration que Google détermine le nombre d’URL qu’il veut et peut explorer.
Comme l’indique le moteur de recherche, il est important de ne pas gaspiller les ressources des crawlers en ayant des pages de faible qualité.
Google nous donne également un aperçu de facteurs pouvant affecter négativement l’exploration et l’indexation d’un site internet :
Le fait que le crawl d’un site soit facilité n’est pas un critère de positionnement, mais cela est nécessaire pour que toutes les pages importantes d’un site soient prises en compte par les algorithmes.