Robots.txt para E-Commerce y WordPress: Mejores Prácticas y Ejemplos Reales
Las tiendas online y los sitios WordPress tienen necesidades muy específicas para robots.txt que difieren de un blog simple. Las plataformas de e-commerce generan miles de URLs de filtros, variantes de producto, páginas de carrito y proceso de compra que no deben ser indexadas. Al mismo tiempo, las páginas de producto y categoría sí deben ser rastreadas eficientemente. Una configuración incorrecta puede costarte rankings de producto o desperdiciar el presupuesto de rastreo de Googlebot en páginas sin valor. Esta guía proporciona configuraciones reales y probadas para las plataformas más populares.
Robots.txt óptimo para WooCommerce y WordPress
WordPress genera por defecto muchas URLs que no aportan valor SEO. La instalación de Yoast SEO o Rank Math crea automáticamente un robots.txt básico, pero raramente está completamente optimizado para WooCommerce. Configuración recomendada para WordPress + WooCommerce: ``` User-agent: * # Panel de administración Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php # Archivos del sistema Disallow: /wp-includes/ Disallow: /wp-content/plugins/ Disallow: /wp-content/themes/ Allow: /wp-content/uploads/ # WooCommerce Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ Disallow: /product-category/?orderby= Disallow: /shop/?add-to-cart= # Búsqueda interna Disallow: /?s= # Feed RSS (opcional) Disallow: /feed/ Sitemap: https://tudominio.com/sitemap_index.xml ``` La línea `Allow: /wp-admin/admin-ajax.php` es importante: bloquear toda la carpeta `/wp-admin/` pero permitir `admin-ajax.php` mantiene el funcionamiento correcto de elementos dinámicos del frontend que usan AJAX.
Robots.txt para Shopify: configuración oficial y customización
Shopify genera automáticamente un robots.txt básico que ya bloquea las páginas más problemáticas. Sin embargo, desde Shopify 2.0, es posible personalizar el robots.txt editando el archivo `robots.txt.liquid` en el editor de temas. La configuración por defecto de Shopify bloquea: `/admin`, `/cart`, `/orders`, `/checkouts`, `/internal`, y los parámetros de URL de filtros y variantes de producto. Para añadir bloqueos adicionales en Shopify: ```liquid {% comment %} Bloqueos adicionales personalizados {% endcomment %} User-agent: * Disallow: /collections/*?sort_by= Disallow: /collections/*?filter. Disallow: /search Disallow: /pages/test {{ shop.robots_txt }} ``` Una práctica importante en Shopify: las páginas de colección con filtros facetados generan URLs como `/collections/ropa?filter.p.m.color=Rojo`, que crean miles de URLs únicas con contenido esencialmente igual. Bloquear estas URLs en robots.txt y usar `canonical` para apuntar siempre a la URL limpia de la colección es la estrategia estándar. Si usas Shopify con múltiples idiomas o mercados (Shopify Markets), cada subdominio o subfolder de idioma hereda la configuración, pero puede necesitar ajustes específicos.
Gestión del presupuesto de rastreo con robots.txt
El «crawl budget» (presupuesto de rastreo) es la cantidad de páginas que Googlebot está dispuesto a rastrear en tu sitio en un período determinado. Sitios pequeños raramente tienen problemas de presupuesto de rastreo, pero sitios con cientos de miles de URLs (grandes e-commerce, portales de noticias, plataformas de contenido generado por usuarios) pueden ver páginas importantes sin rastrear si el presupuesto se agota en páginas de poco valor. Robots.txt es la herramienta más directa para optimizar el presupuesto de rastreo: bloqueando URLs de bajo valor, concentras el presupuesto disponible en las páginas que sí quieres indexadas. URLs que consumen presupuesto sin aportar valor SEO: - URLs con parámetros de sesión o tracking: `?session_id=`, `?utm_campaign=` - URLs de paginación profunda: `/categoria/page/847/` - Versiones de impresión: `?print=1`, `/print/` - Versiones de caché internas o de prueba - Páginas 404 vinculadas internamente (corrígelas en lugar de bloquearlas) Google Search Console te mostrará cuántas páginas está rastreando Googlebot en tu sitio en la sección «Estadísticas de rastreo». Si el número de páginas rastreadas es muy inferior al número de páginas en tu sitemap, considera si el presupuesto de rastreo es un factor limitante.
Verificación y prueba de robots.txt en Google Search Console
Después de configurar y publicar tu robots.txt, es esencial verificar que funciona como esperas. El error más costoso es bloquear accidentalmente páginas importantes y no darte cuenta hasta semanas después cuando ves caer el tráfico. Google Search Console tiene dos herramientas para esto. La primera está en «Configuración del sitio» → «robots.txt» donde puedes ver el archivo que Google ha leído más recientemente y solicitar una actualización. La segunda es la herramienta de «Inspección de URL», que muestra si una URL específica está bloqueada por robots.txt o por una etiqueta `noindex`. Para una verificación exhaustiva, usa la herramienta de prueba de robots.txt en Search Console (en la sección de «Configuración legacy»): introduce cualquier URL de tu sitio y la herramienta indica si está bloqueada o permitida por tu configuración actual, con la línea exacta del robots.txt que aplica la regla. Antes de desplegar cambios importantes en robots.txt, prueba la nueva versión en un entorno de staging. Si es urgente hacer cambios en producción, monitoriza activamente Search Console durante los 3-5 días siguientes para detectar cualquier impacto inesperado en la cobertura de indexación. El Generador de Robots.txt de WikiPlus incluye un validador integrado que señala errores de sintaxis y conflictos entre reglas (como cuando una regla `Allow` y una `Disallow` se aplican a la misma URL) antes de que copies el código.
Preguntas frecuentes
- ¿Qué pasa si tengo el mismo URL en el sitemap.xml y bloqueado en robots.txt?
- Creas una señal contradictoria para Google. Google puede intentar rastrear la URL igualmente (el sitemap le indica que existe), pero al estar bloqueada en robots.txt no puede acceder. Esto desperdicia presupuesto de rastreo. Las URLs en tu sitemap deben estar todas permitidas en robots.txt.
- ¿Robots.txt afecta por igual a todos los motores de búsqueda?
- Sí, si está configurado con `User-agent: *`. Sin embargo, puedes configurar reglas diferentes por motor de búsqueda. Googlebot, Bingbot y otros bots legítimos respetan el protocolo. Algunos bots de spam lo ignoran. Las reglas específicas de Googlebot (usando `User-agent: Googlebot`) solo aplican a las solicitudes de Google.
- ¿Necesito un robots.txt si mi web tiene menos de 50 páginas?
- No es estrictamente necesario para webs pequeñas, pero sí recomendable. Aunque no tengas páginas que bloquear, incluir la línea `Sitemap: https://tudominio.com/sitemap.xml` en el robots.txt ayuda a los buscadores a encontrar y rastrear tu sitemap más eficientemente.