WikiPlus

Créer un fichier robots.txt — guide et générateur gratuit

Le fichier robots.txt est la première chose que les crawlers des moteurs de recherche lisent avant d'explorer votre site. Ce petit fichier texte, placé à la racine de votre domaine, contrôle quelles pages peuvent être crawlées et lesquelles doivent être ignorées. Mal configuré, il peut accidentellement bloquer Google d'indexer votre site entier. Le Générateur Robots.txt de WikiPlus crée un fichier syntaxiquement valide et testé contre la spécification de Google, avec une interface guidée pour chaque règle.

Qu'est-ce qu'un fichier robots.txt et où le placer ?

Robots.txt est un fichier de protocole en texte brut qui suit le Robots Exclusion Standard, défini originalement en 1994 et formalisé par Google, Bing et d'autres. Il doit être placé exactement à la racine de votre domaine — accessible à `votresite.fr/robots.txt` sans sous-répertoire, sans redirection et sans authentification. Les crawlers des moteurs de recherche récupèrent cette URL avant de crawler toute autre page du domaine. Le fichier contient un ou plusieurs blocs User-agent qui identifient des crawlers spécifiques par nom, suivis de directives Allow et Disallow qui indiquent à ces crawlers quels chemins d'URL ils peuvent ou ne peuvent pas récupérer. Un bloc `User-agent: *` générique s'applique à tout crawler non correspondant à un bloc plus spécifique. Une directive Sitemap en bas du fichier fournit l'URL absolue de votre sitemap XML, aidant les crawlers à découvrir toutes les URLs indexables efficacement. Robots.txt n'est pas un mécanisme de sécurité — les scrapers malveillants et les scanners de vulnérabilités l'ignorent régulièrement. N'utilisez pas robots.txt pour cacher du contenu sensible.

Syntaxe des règles Allow et Disallow

La syntaxe robots.txt repose sur des paires user-agent/directive simples. `User-agent: *` s'applique à tous les bots. `User-agent: Googlebot` s'applique uniquement à Google. `Disallow: /admin/` bloque l'accès au répertoire admin et tout ce qu'il contient. `Allow: /` autorise l'accès à tout. Le matching de chemin utilise une logique de préfixe : `Disallow: /private/` bloque `/private/page.html`, `/private/docs/` et toute autre URL commençant par `/private/`. Les wildcards étendent le matching : `*` correspond à n'importe quelle séquence de caractères, `$` ancre le pattern à la fin de l'URL. Par exemple, `Disallow: /*.pdf$` bloque toutes les URLs se terminant par `.pdf` où qu'elles soient sur le site. La directive `Crawl-delay` indique un délai minimum en secondes entre les requêtes — utile pour les hébergements mutualisés à faibles ressources. La taille maximum du fichier robots.txt est de 500 Ko pour Google ; le contenu au-delà de cette limite est ignoré.

Directives Allow dans des répertoires bloqués

La spécification robots.txt supporte des directives Allow qui ont la priorité sur une directive Disallow plus large quand le chemin Allow est plus spécifique. L'algorithme de résolution de règles utilisé par Google et Bing compare la longueur du chemin correspondant : le chemin plus long (plus spécifique) gagne indépendamment de l'ordre dans lequel Allow et Disallow apparaissent dans un bloc User-agent. Par exemple, pour bloquer tout le répertoire `/membres/` sauf l'index des profils publics, écrivez `Disallow: /membres/` suivi de `Allow: /membres/profils/`. Les crawlers ignoreront toutes les URLs sous `/membres/` sauf celles sous `/membres/profils/` qui sont récupérées normalement. Le Générateur robots.txt de WikiPlus construit ces paires dans l'interface visuelle et valide les patterns en temps réel, signalant les wildcards invalides et les lignes dupliquées.

Tester votre robots.txt avant déploiement

Après avoir généré votre robots.txt avec WikiPlus, testez-le dans Google Search Console via l'outil de test robots.txt avant le déploiement. Téléchargez le fichier depuis WikiPlus, uploadez-le temporairement dans un environnement de test, ou utilisez directement le testeur de Google Search Console sur votre domaine de production une fois le fichier déployé. Pour vérifier une règle spécifique, entrez l'URL à tester dans le testeur — Google confirmera si l'URL est autorisée ou bloquée selon votre fichier. Les erreurs de syntaxe dans robots.txt échouent silencieusement côté navigateur mais font que Googlebot se replie sur son comportement de crawl par défaut. Utilisez également l'outil de couverture dans Google Search Console après déploiement pour surveiller que des pages ne sont pas accidentellement bloquées.

Questions fréquemment posées

Où placer le fichier robots.txt sur mon site ?
À la racine exacte de votre domaine : `https://votresite.fr/robots.txt`. Sans sous-répertoire, sans redirection, sans authentification. Pour WordPress, il est dans le dossier racine WordPress (là où se trouve wp-config.php). Pour les sites statiques Netlify/Vercel, dans le dossier public ou dist.
Quelle est la différence entre Disallow et noindex ?
Disallow dans robots.txt empêche le crawler de récupérer la page (page non visitée). noindex dans une balise meta exige que le crawler visite la page puis l'exclue de l'index. Une page avec Disallow peut encore apparaître dans les résultats si d'autres sites y pointent. Utilisez noindex pour les pages dont vous voulez contrôler l'indexabilité tout en préservant le flux de PageRank.
Mon robots.txt peut-il bloquer accidentellement Google ?
Oui. `Disallow: /` bloque tout le site pour tous les bots. Vérifiez toujours votre fichier dans le testeur de Google Search Console avant et après déploiement. Le générateur WikiPlus affiche un avertissement quand une règle bloque tout le domaine.