Qu’est-ce un robots.txt ?

Le fichier robots.txt est un fichier texte dans le répertoire racine d'un site Web. Il dirige les robots et offre la possibilité aux webmasters de décider quels fichiers ou répertoires doivent être suivis par les moteurs de recherche - avec le robots.txt vous dirigez quel pages vont être visités et quel pages seront écartés. 

Comment le fichier robots.txt est-il structuré ? 

Des fiches robots.txt peuvent être créé tout simplement avec un éditeur de texte, souvent il s'agit d'une seule ligne pertinente qui va être analysé par les robots. 

Le robots.txt est composé de deux parties : 

La première est appelée User Agent

Cette section est l'endroit où vous définissez un certain agent comme par exemple Google Bot. 

Ne ligne commençant avec User-agent: *, indique à tout les robots de suivre les instruction indiqués en dessous. 

La deuxième partie le « allow » et le « disallow » indiquent aux robots quels fichiers ou répertoires il doivent traçer et lesquels ils doivent ignorer. 

Disallow: /par exemple indique que les robots doivent ignorer cet répertoire ou document. 

Qu'est-ce qu'un fichier robots.txt simple ? 

Un fichier robots.txt simple contient deux lignes et permet tous les robots de tous les documents et répertoires à analyser un site : 

# Activer page entière 

User-agent: * 

Disallow: 

Dans l'exemple suivant, le site est exclue d'indexer complètement : 

# Bloquer le site entier pour les robots 

User-agent: * 

Disallow: / 

L'accès à certains fichiers ou répertoires peut être refusée de la façon suivante : 

User-agent: * 

Disallow: /news/ 

Disallow: /daily.html 

Pour désactiver l'accès à votre site Web pour des robots spécifiques, vous devez nommer chaque robots individuelement pour chacune de vos entrées dans la partie UserAgent : 

User-agent: Googlebot 

Disallow: / 

Avec Allow vous indiquez spécifiquement aux robots de traçer une certaine page : 

User-agent: Googlebot 

Disallow: /folder1/ 

Allow: /folder1/exemple.html 

Quel type de contenu peut être « écarté » dans le fichier robots.txt ? 

Dans le fichier robots.txt tous les répertoires peuvent être écartés de l'indexation que vous ne nécessitez pas pour l'index d'un moteur de recherche - tels que des dossiers d'images inutiles. 

Une option aditionelle, qui fonctionne bien dans le fichier robots.txt est un renvoi au sitemap.xml. Ce fichier fournit beaucoup de contenu aditionels pour les robots : 

User-Agent: * 

Disallow: Sitemap: http://www.votresiteweb.com/sitemap.xml 

Idem pour les sitemaps vidéo ou des images : 

User-Agent: * 

Disallow: 

Sitemap: http://www.votresiteweb.com/sitemap.xml 

Sitemap: http://www.votresiteweb.com/video-sitemap.xml 

Sitemap: http://www.votresiteweb.com/imagenes-sitemap.xml 

5 points à connaître sur le fichier robots.txt 

  • Le fichier robots.txt est toujours situé dans le répertoire racine (sur le même niveau que index.php dominio.com/robots.txt) et sera toujours vérifiée en premier par les robots des moteurs de recherche visitant votre site Web. 
  • Les robots principaux suivent habituellement les instructions du fichier robots.txt 
  • Il peut arriver que l'une des pages refusées ou des sites Web entiers finissent encore dans l'index du moteur de recherche. Cela peut se produire quand des liens externes dirigent à cette page. Le moteur de recherche peut trouver votre page intéressante et l’ajouter a l’index.

  • Important : Soyez toujours prudent lorsque vous créez ou modifiez votre fichier robots.txt. De simples erreurs peuvent rendre votre site web invisible pour tous les moteurs de recherche, ce qui mène à des baisses importantes dans votre classement.
  • Vous pouvez utiliser Google Webmaster Tools pour vérifier votre fichier robots.txt

Réussissez en ligne

L’application de marketing digital tout-en-un pour les petites et moyennes entreprises

DÉCOUVREZ-EN PLUS
Bon: 75 € Coupon
Bon: 75 € Coupon

17 Apr, 2015