Fichier robots.txt pour WordPress et WooCommerce — configuration SEO
WordPress et WooCommerce génèrent des centaines de pages d'administration, de pagination de tags, de filtres de produits et d'URLs en paramètre qui gaspillent le budget de crawl de Google et diluent les signaux de référencement. Un fichier robots.txt bien configuré pour WordPress dirige les crawlers vers les pages de valeur et les éloigne des pages inutiles ou potentiellement nuisibles au SEO. Ce guide couvre la configuration optimale pour les sites WordPress et WooCommerce.
Pages WordPress à bloquer dans robots.txt
Plusieurs répertoires WordPress n'ont aucune valeur SEO et consomment inutilement le budget de crawl. `/wp-admin/` est le tableau de bord administrateur — doit toujours être bloqué. `/wp-includes/` contient les fichiers core PHP — inutile pour les moteurs de recherche. `/wp-login.php` est la page de login — aucune valeur SEO. `/?s=` est le paramètre de recherche interne WordPress — les pages de résultats de recherche interne ne doivent généralement pas être indexées. `/wp-json/` est l'API REST WordPress — sauf si vous avez des raisons spécifiques de l'indexer. Les pages de `/author/` si vous n'avez qu'un seul auteur et que les archives auteur sont dupliquées du contenu principal. Les pages de `/feed/` si votre CMS génère des flux RSS que vous ne voulez pas indexer. Combinez ces règles Disallow avec un crawler delay approprié selon la taille de votre hébergement.
Pages WooCommerce à bloquer
WooCommerce génère un grand nombre d'URLs de gestion de panier et de commande qui ne doivent pas être indexées. Bloquez `/cart/`, `/checkout/`, `/my-account/`, `/order-tracking/` — ces pages sont destinées aux utilisateurs connectés et n'ont pas de valeur SEO. Les pages de filtres produits comme `/?filter_color=red` ou `/?min_price=10&max_price=50` génèrent des milliers de combinaisons URL qui créent du contenu dupliqué. Bloquez ces paramètres avec `Disallow: /*?filter_*` et `Disallow: /*?min_price=*`. Les pages de tri de produits comme `?orderby=price` peuvent également créer du contenu dupliqué — bloquez avec `Disallow: /*?orderby=*` sauf si vous avez des raisons SEO de les indexer. Les pages de pagination des archives produit au-delà de la deuxième ou troisième page peuvent être bloquées ou gérées avec noindex selon votre stratégie.
Autoriser le CSS, JS et les images pour les moteurs de recherche
Une erreur courante est de bloquer les fichiers JavaScript et CSS dans robots.txt — une ancienne pratique qui nuisait autrefois aux performances de la page. Google recommande explicitement depuis 2015 de permettre aux crawlers d'accéder au CSS et JavaScript nécessaires au rendu de la page, car Googlebot rend les pages JavaScript avant de les indexer. Ne bloquez jamais `/wp-content/` en entier car ce répertoire contient les assets CSS et JS essentiels au rendu. Si vous utilisez des règles génériques, assurez-vous que vos exceptions Allow sont plus spécifiques que vos règles Disallow. La règle `Disallow: /wp-content/uploads/files/` peut être utile pour bloquer des documents privés, mais `Allow: /wp-content/` doit être présent si vous avez un Disallow plus large.
Vérifier et tester le robots.txt WordPress
Après avoir modifié votre robots.txt WordPress (généralement en éditant directement le fichier à la racine ou via les outils SEO comme Yoast ou Rank Math), testez-le immédiatement. Google Search Console offre un testeur de robots.txt sous Paramètres > robots.txt. Entrez les URLs les plus importantes de votre site pour vérifier qu'elles sont autorisées. Utilisez également la fonction de couverture de Search Console pour surveiller si des pages valides commencent à apparaître comme bloquées dans les logs de crawl. Attention aux plugins WordPress qui remplacent automatiquement votre robots.txt — Yoast SEO et Rank Math génèrent leur propre robots.txt virtuel qui peut écraser vos règles manuelles. Vérifiez les paramètres de votre plugin SEO pour vous assurer qu'il respecte ou intègre votre configuration personnalisée.
Questions fréquemment posées
- WordPress génère-t-il automatiquement un fichier robots.txt ?
- WordPress génère un robots.txt virtuel par défaut si aucun fichier robots.txt physique n'existe à la racine. Ce fichier par défaut est minimal. Les plugins SEO comme Yoast et Rank Math génèrent leur propre robots.txt via l'interface admin. Pour un contrôle total, créez un fichier robots.txt physique à la racine qui prendra la priorité.
- Dois-je bloquer les pages de pagination dans robots.txt ?
- Non — bloquez via noindex plutôt que via robots.txt. Les pages paginées bloquées dans robots.txt ne peuvent pas passer de PageRank aux pages qu'elles lient. Avec noindex, les crawlers visitent la page, suivent les liens et permettent au PageRank de circuler, mais la page elle-même n'est pas indexée.
- Comment optimiser le budget de crawl pour un WooCommerce avec 10 000 produits ?
- Bloquez les URLs de filtres et de tri via robots.txt. Utilisez canonical sur les variantes de produits. Assurez-vous que votre sitemap XML ne référence que les pages prioritaires (catégories et produits principaux). Configurez un crawl-delay approprié. Vérifiez dans Search Console que Google n'utilise pas de budget de crawl sur des milliers d'URLs de filtre.