A quoi correspond l’indexation ?
Comment cela fonctionne-t-il ?
Peut-on agir pour améliorer le niveau d’indexation de notre site ?
Il ne faut pas oublier que l’indexation d’un site est la première action à faire pour un bon référencement naturel.

Referencement naturel lille

Qu’est-ce que l’indexation d’un site ?

Avant qu’un moteur de recherche puisse conseiller la lecture d’un site, c’est-à-dire le placer dans ses pages de recherche, il doit prendre connaissance du contenu et identifier la manière de le rendre rapidement disponible à l’internaute qui lui a poser la question.

L’opération d’indexation comporte plusieurs parties, à savoir :

  • Le crawl du site : Pour indexer un site, les moteurs de recherche actionne un programme de recherche souvent nommé « robot » ou « spider » qui va parcourir le site et indexer son contenu. On appelle cette phase de l’indexation le crawl (du verbe anglais crawler qui signifie brasser). Lors de cette phase d’exploration, le robot parcourt le contenu et suivre les liens présents sur la page afin de découvrir les contenus en lien.
  • La copie du contenu : Lorsqu’il parcourt le site, le robot copie son contenu qui sera stocké dans les serveurs du moteur de recherche afin de pouvoir l’analyser et étudier son évolution.
  • L’indexation : Indexer le site désigne l’opération permettant de codifier le contenu stocké dans les serveurs afin de pouvoir le proposer à la lecture des internautes en fonction des mots clés contenues dans leur question. L’indexation, c’est-à-dire le fait d’enregistrer que tel ou tel contenu peut intéresser une question sur tel ou tel autre mots clé diffère d’un moteur de recherche à l’autre tout en restant au final assez proche. Dans la suite de cet ouvrage nous nous intéresseront pratiquement exclusivement à la méthodologie Google qui représente environ 90% des recherches internet effectuées en France.

Remarque :
Toutes les pages ne sont pas indexées par Google. Il est possible d’empêcher l’indexation de certaines pages en indiquant à google que le contenu ne doit pas être mis à disposition du web.

L’indexation du contenu est l’une des fonctions stratégiques des moteurs de recherche. Ces derniers font donc évoluer le processus d’indexation afin de les moderniser. Par exemple, en 2010, Google à modifier son infrastructure afin d’accélérer la constitution de l’index et de faciliter sa mise à jour. Cela à permis :

  • de rendre rapidement accessible dans les SERP les pages nouvellement crawlées et indexées
  • de faire des mises à jour continues de l’index au niveau mondial
  • d’accélérer l’indexation des pages d’actualité afin de les rendre visible dans les SERP le plus rapidement possible.

Comment faire indexer son site ?

Lorsqu’on crée un site on crée un document permettant à google de connaitre les pages qu’il faut ou ne pas référencer. Le sitemaps est un protocole permettant à un site d’informer les moteurs de recherche des adresses d’un site web disponibles pour l’indexation automatique. Il s’agit d’un plan de site («le sitemap »)  qui répertorie les URL du site. Il permet d’ajouter des informations complémentaires sur chaque adresse URL, comme la date de modification, la fréquence de mise à jour et son importance. Cela permet donc aux moteurs de recherche d’explorer le site plus intelligemment.

Plusieurs solutions sont envisageables pour faire indexer son site :

  • Demander à Google d’indexer votre site. Il suffit pour cela d’utiliser le formulaire de soumission proposé par Google et d’y préciser l’URL du nom de domaine du site. Après ajout de l’URL, Google recevra votre demande d’inclusion à son index.
  • De demander à un autre site ayant un thème identique de faire un lien vers votre site (cela s’appelle faire un backlink). Lorsque le Googlebot crawlera le site externe, il trouvera le lien, le suivra et découvrira votre site. Il viendra donc crawler votre site et l’indexera dans la foulée.
  • Inscrire son site dans l’un des principaux annuaires de référencement (type annuaire Dmoz). Cette méthode est moins rapide que le suivi de lien mais fonctionne parfaitement.
  • Faire une soumission automatique par le biais d’annuaires internet qui sont en réalité des logiciels qui soumettent automatiquement le site à différents annuaires. Cette démarche est déconseillée car elle comporte de nombreux risques pouvant nuire au référencement du site (sur-optimisation des ancres, annuaires de mauvaise qualité, choix des annuaires sans rapport avec la thématique du site, mauvaise qualité des metrics des annuaires, …).

La solution la plus efficace est clairement de demander à un site de faire un backlink vers le vôtre. Elle permet d’avoir un temps d’indexation plus court, surtout si le site externe est souvent mis à jour, le googlbot alors crawl régulièrement le site afin de tenir à jour son indexation. Inscrire son site sur un annuaire de référencement est moins rapide que le suivi de lien mais fonctionne parfaitement.

Il est possible de demander à google de faire une indexation rapide. En vous rendant sur la Search Console (ou Google WebMasterTools) il est possible de demander à Google d’indexer ne page rapidement. Google indique (sans apporter de garantie) qu’il fera le nécessaire dans les 24h.

Remarque : il existe un quota d’indexation, attention à ne pas faire trop de demandes d’indexation. Il est préférable de conserver cette démarche pour les pages stratégiques.

Comment désindexer un site de l’index Google ?

Il est possible de désindexer un site. Cela consiste à supprimer le site de la base de données. Il suffit pour cela de supprimer les pages de l’index, lors de la visite, le robot n’ira pas sur ses pages qui seront invisibles pour lui. En conséquence il les désindexera. Deux solutions sont possibles :

  • En cas d’urgence il faut ajouter les URL à supprimer dans un fichier sitemap le utiliser la balise « expires ».
  • S’il n’y a pas d’urgence, il suffit de se rendre sur le google index de WebMasterTools et d’aller dans la section URL à supprimer.

Comment connaître l’état d’indexation ?

Lors d’une recherche sur internet, le navigateur ouvre la version la plus récente de la page sélectionnée. Il est cependant possible de demander à Google d’obtenir la version dite « en cache » qui correspond à la version antérieure de la page.

Pour ouvrir une page en cache, il suffit de taper la commande : « http://webcache.googleusercontent.com/search?q=cache: » suivie de l’adresse de la page désirée en supprimant les « www. » du début de la page.

Par exemple si vous souhaitez afficher la version en cache de la page fabriquer son drone du site Robots et Compagnie il suffit de taper sur google :

http://webcache.googleusercontent.com/search?q=cache:robots-et-compagnie.com/construire-son-drone/

Remarque : certains sites Web empêchent l’accès à l version cache de leur site, cela dépend du webmaster qui peut autoriser ou pas la mise en cache de son site par google.

Par ailleurs, une page effacée est conservée en cache jusqu’à ce que le Googlebot fasse une mise à jour du site ou que le webmaster demande à Google de valider la suppression de la page manuellement grâce aux outils WebMasterTools.

Conserver une version cache permet aux robots d’indexation d’étudier les éventuels changements de la page (modification du contenu, ajout d’image, changement des liens, …) depuis sa dernière visite. Lors de son passage, il compare la version « en cache » de la page à celle qu’il « voit », repère les modifications et change en conséquence l’indexation de la page afin d’avoir une indexation la plus fraiche possible.

Lorsque les modifications apportées à vos pages mettent du temps à être indexées, cela signifie que le robot de Google ne passe pas fréquemment. C’est un signe négatif qui peu montre un manque d’intérêt du moteur de recherche pour votre site. Il faut alors étudier les raisons de la faible fréquence du crawl Google (qualité des pages, fréquence de mise à jour, …)

Google est parfois désigné comme un « d’obsédé textuel », car se nourrit de textes et de données. Plus la fréquence de publication et de mise à jour du contenu de votre site est importante, plus il passera le visiter. La qualité de l’indexation d’un site dépend directement de la fraicheur et la fréquence de mise à jour de son contenu.

Comment savoir si des pages sont indexées par Google ?

Effectuer la requête : site:www.votresite.com  permet de mesurer le nombre de pages indexées par Google. Le nombre situé en haut de la page de recherche correspond à la liste des pages de votre site indexées (de manière générales).

Soumettre un site internet

Soumettre un site aux moteurs de recherche est la première étape à réaliser lors d’e la création d’un nouveau site. Elle sert à indiquer la création du site aux moteurs afin de le faire indexer par chacun des moteurs de recherche (et non pas « faire référencer un site par Google » qui ne signifie en réalité pas grand-chose).

Soumettre un site internet sert à informer Google qu’un nouveau site a été créer, afin qu’il fasse faire un crawl par son robot d’exploration et qu’il index le contenu du site. Comme nous l’avons vu, le crawl permettra de copier le contenu du site dans les bases de données de Google et d’indexer ses pages afin de les faire ressortir dans les SERP issues des requêtes des internautes.

Remarque : faire indexer un site n’est que le point de départ du référencement. En effet, « référencer un site » regroupe l’ensemble des démarches et pratiques visant à améliorer la visibilité d’un site sur les pages de résultat (les SERP) de google, principal moteur de recherche utilisé en France en portant le site en haut des SERP.

Pourquoi demander à Google d’indexer son site ?

Faire indexer son site par Google est en réalité une demande pour qu’il vienne le crawler puis l’indexer dans ses serveurs. Sans cette demande il est impossible d’espérer apparaître dans les résultats Google.

Faut-il demander à Yahoo, Bing, Exalead, Qwant d’indexer son site ?

Même si Google représente 90% des recherches faites en France, il n’est pas le seul à indexer des sites. Il peut donc être intéressant de soumettre son site aux moteurs comme Yahoo, Bing Exalead ou Qwant.

La démarche est identique pour chaque moteur, il suffit de se rendre sur le lien du moteur permettant de soumettre son site, cela ne prendra que quelques minutes pour chaque demande.

Soumettre un sitemap à Google

Le sitemap ou « plan de site » est un fichier qui comprend l’ensemble des informations utiles au référencement du site (URL des pages, renseignements complémentaires, …). Edité au format XML il permet à Google de prendre connaissance de l’ensemble du plan de votre site afin de l’indexer le plus efficacement possible. Néanmoins, même s’il dispose du plan di site, Google est libre de n’indexer que ce qu’il veut rien ne l’oblige à tout indexer. Chaque moteur de recherche décide de ce qu’il index ou pas.

L’indexation, première étape vers le référencement naturel

L’indexation d’un site est la première étape nécessaire mais pas suffisante. Un site indexé ne signifie pas qu’il est visible, c’est-à-dire bien positionné dans les résultats des moteurs de recherche (SERP).

L’indexation n’est que la première étape, une fois effectué commence le travail pour référencer le site sur Google, mais comment fonctionne google.