Deep Crawl et Fresh Crawl - Définition de Deep Crawl et Fresh Crawl

Les différents processus d'analyse des pages web par GoogleBot le robot de Google.

Description

Pour recenser et aussi ajouter de nouveaux sites dans son indexe, Google parcourt ("crawl") le web en utilisant un robot appelé GoogleBot Ce robot suit les liens hypertexte de page en page. Il existait jusqu'en 2003 deux types de crawl : le deep crawl (ou full crawl) et le fresh crawl, maintenant regroupés en un seul type.

Le deep crawl était l'indexation massive du web par GoogleBot au cours de laquelle il analysait en profondeur toutes les pages des sites, et répertoriait en particulier tous les liens. En général elle démarrait juste après une Google Dance et servait de base à la Google Dance qui suivait.

Le fresh crawl est l'examen quotidien du web par GoogleBot spécialisé sur les pages récemment publiées. Suivant divers critères, une page sera visitée à une fréquence variant entre 12 h et 1 mois environ.

Google doit crawler ainsi plus de 4 milliards d'URL le plus régulièrement possible. On peut savoir si GoogleBot est venu visiter son site en regardant les fichiers log, ou encore plus facilement en installant RobotStats.

Si vous avez des questions ou des commentaires à apporter à cette définition, utilisez ce formulaire, merci d'avance !

Auteur

Autres sites sur le sujet

Commentaires

Pour l'instant aucun commentaire n'a été ajouté. N'hésitez pas à utiliser le formulaire ci-dessous si vous avez des questions ou des précisions à apporter à cette définition.

Ajoutez votre commentaire

Si vous avez des commentaires à faire ou des questions à poser, remplissez le formulaire ci-dessous :

Les champs marqués du signe * sont obligatoires.

Votre pseudo et celui de votre site apparaîtront sur la page publique de la définition, avec un lien vers votre site. Votre adresse email nous servira à vous prévenir des suites que nous donnerons à votre commentaire (qu'il soit accepté ou refusé) ; en aucun cas elle ne sera communiquée à un tiers sans votre consentement. Votre adresse IP sera enregistrée conformément aux obligations légales.

Définitions à consulter

Nous vous proposons de consulter également la définition des termes suivants :

Agent conversationnel : Personnage virtuel dialoguant avec l'internaute afin de l'aider dans sa navigation ou son processus d'achat.
Banc d'essai : Le benchmark est une mesure étalon ou un standard qui sert de point de référence pour évaluer les performances ou l'état d'un process.
Bundle : Signifie littéralement paquet. Un bundle désigne souvent un lot d'articles destiné à la vente dans le cadre d'une offre.
Capital-risque : Prises de participation, temporaires et minoritaires dans des entreprises non cotées afin de dégager ultérieurement des plus-values. Traduction du terme américain "venture capital ", le capital-risque stricto sensu ne concerne, quant à lui, que les seules interventions en fonds propres dans les entreprises nouvelles ou en phase de création.
Carte mère : Une carte mère est la base de tout ordinateur personnel, c'est elle qui assure la communication entre les différents éléments du système.
Charte graphique : Ensemble de documents qui pose les règles de mise en page et définit l’aspect graphique des documents (internes et externes) d'une entreprise.
Cluster : C’est un regroupement de deux serveurs ou plus, en vue de créer un "super serveur virtuel".
Common Object Request Broker Architecture (CORBA) : Norme industrielle multi-plateformes et multi-langages permettant de simplifier le développement d’architectures distribuées complexes.
Crack : Terme générique désignant un moyen illégal de disposer d'une licence sur un logiciel.
Google Deskbar : Petit logiciel à installer sur un PC sous Windows, permettant de lancer des recherches sur Google à tout instant, sans quitter l'application en cours, et sans ouvrir de navigateur web.
E-commerce : Le commerce électronique (qui se déroule sur le Web).
Google Dance : Période de mise à jour de l'index de Google.
Google Desktop Search : Logiciel de recherche de contenu sur PC proposé par Google.
Google Puffin : Nom de code du logiciel de recherche Google Desktop
GoogleBot : Nom du robot d'indexation de Google, qui parcourt le web de lien en lien à la recherche de nouvelles pages.
GoogleWhack : Jeu basé sur Google.
Internet Engineering Steering Group (IESG) : Petit groupe d'experts validant (ou non) les ébauches de normes et de standards Internet qui lui sont communiquées.
Mediapartner : Nom du robot d'indexation (crawler) de Google pour les partenaires AdSense for Content.
MX (DNS) : MX fait réference à une particularité du DNS concernant les mails, le MX d'un domaine correspondant au serveur sur lequel seront envoyés les e-mails.
Noogler : Nom donné aux nouveaux arrivants chez Google.