Robots.txt para Sitios Multilingües: Configuración con Hreflang y Subdominios
Los sitios web multilingües como WikiPlus presentan desafíos únicos para la configuración de robots.txt. Con 6 idiomas y rutas dinámicas por idioma, decidir qué bloquear y qué permitir requiere una estrategia clara. La estructura del sitio (subdominios vs subdirectorios vs dominios separados) determina cuántos archivos robots.txt necesitas. Y la interacción con las etiquetas hreflang añade otra capa de complejidad: necesitas asegurarte de que todas las versiones de idioma que referencian hreflang sean rastreables por Google.
Cuántos archivos robots.txt necesitas según tu estructura multilingüe
La respuesta depende completamente de cómo está organizada la versión multilingüe de tu sitio: **Subdirectorios (ejemplo: /es/, /en/, /fr/):** Un único archivo robots.txt en la raíz del dominio aplica a todas las versiones de idioma. Las reglas de bloqueo deben incluir el prefijo de idioma cuando son específicas de una versión: `Disallow: /es/admin/` y `Disallow: /en/admin/` si quieres bloquear el admin en ambos idiomas. **Subdominios (ejemplo: es.dominio.com, en.dominio.com):** Cada subdominio necesita su propio archivo robots.txt. Los bots visitan `es.dominio.com/robots.txt` y `en.dominio.com/robots.txt` de forma independiente. Esto da más control pero requiere mantener múltiples archivos sincronizados. **Dominios separados (ejemplo: dominio.es, dominio.com):** Cada dominio tiene su propio robots.txt completamente independiente, como si fueran sitios distintos. WikiPlus usa subdirectorios con la estructura `/[lang]/`, por lo que un único robots.txt en la raíz controla todo el sitio. Las reglas de bloqueo deben formularse teniendo en cuenta el prefijo de idioma para evitar bloquear accidentalmente solo una versión de idioma de una página importante.
Hreflang y robots.txt: garantizando que todas las versiones sean rastreables
Las etiquetas hreflang le dicen a Google qué versión de idioma de una página debe mostrar a los usuarios según su idioma y región. Pero para que funcionen correctamente, TODAS las versiones de idioma referenciadas en el hreflang deben ser rastreables por Googlebot. Si una página en español tiene hreflang que apunta a su versión francesa, pero la versión francesa está bloqueada en robots.txt, Google no puede verificar la relación entre las versiones y puede ignorar las etiquetas hreflang por completo. Esto puede resultar en que Google muestre la versión incorrecta a usuarios francófonos. Verificación recomendada: después de configurar robots.txt en un sitio multilingüe, exporta todas las URLs del sitemap y verifica que ninguna de las URLs referenciadas en etiquetas hreflang esté bloqueada. Puedes automatizar esto con Screaming Frog: rastrea el sitio, exporta el informe de hreflang y filtra las URLs bloqueadas por robots. La directiva Sitemap en robots.txt es especialmente importante en sitios multilingües: si tienes sitemaps separados por idioma (`sitemap-es.xml`, `sitemap-en.xml`), lista todos en el robots.txt: ``` Sitemap: https://tudominio.com/sitemap-es.xml Sitemap: https://tudominio.com/sitemap-en.xml Sitemap: https://tudominio.com/sitemap-fr.xml ```
Estrategias para bloquear páginas en solo un idioma
En algunos casos, puede ser necesario bloquear una página en un idioma pero no en otros. Por ejemplo, si tienes una página de política de privacidad solo en inglés pero la versión española está en construcción, deberías bloquear solo la versión española mientras finalizas la traducción. Para sitios con estructura de subdirectorios: ``` # Bloquear solo la versión española de páginas en construcción User-agent: * Disallow: /es/paginas-en-construccion/ # Permitir explícitamente las mismas páginas en otros idiomas Allow: /en/work-in-progress/ Allow: /fr/en-construction/ ``` Sin embargo, la solución más limpia para páginas temporalmente no listas no es robots.txt sino la etiqueta `noindex`: permite que Google las rastree (para no perder el historial de rastreo) pero no las indexa en los resultados. Cuando la página esté lista, simplemente retiras el `noindex`. Otra situación frecuente: en mercados donde el sitio no está activo (por razones comerciales o legales), puede ser apropiado bloquear ciertas rutas para bots de buscadores de esa región. Sin embargo, robots.txt no permite reglas basadas en la región geográfica del bot, solo en el User-agent.
Monitorización de la indexación multilingüe en Google Search Console
Google Search Console permite añadir un sitio de múltiples formas: como dominio completo (que incluye todos los subdominios) o como prefijo de URL (que puede ser específico de un subdominio o subdirectorio). Para sitios multilingüe con subdirectorios, añadir el dominio completo te da una visión global. En la sección «Páginas» (antes «Cobertura»), filtra por prefijo de URL para ver el estado de indexación por idioma: filtra por `/es/` para ver solo las páginas en español, por `/en/` para las inglesas, etc. Esto te permite detectar si un idioma específico tiene problemas de indexación que los demás no tienen. La sección «Búsquedas» también puede filtrarse por país, lo que ayuda a correlacionar las páginas indexadas con el tráfico orgánico de cada mercado geográfico. Si añades o cambias idiomas en el futuro, recuerda: actualizar las reglas de robots.txt para incluir o excluir el nuevo prefijo de idioma si es necesario, añadir el nuevo sitemap al robots.txt, y verificar que las etiquetas hreflang de las páginas existentes incluyen correctamente la nueva versión de idioma. El Generador de Robots.txt de WikiPlus facilita la gestión de sitios multilingüe con campos específicos para añadir múltiples URLs de sitemap y vistas previas del archivo final antes de descargarlo.
Preguntas frecuentes
- ¿Puedo usar robots.txt para decirle a Google que indexe primero el idioma principal de mi sitio?
- No directamente. Robots.txt no tiene una directiva de prioridad de rastreo por idioma. Para influir en qué páginas Googlebot rastrea primero, usa el archivo sitemap con la propiedad `priority` (aunque Google afirma ignorarla mayormente) o asegúrate de que las páginas del idioma principal tienen más enlaces internos que las versiones en otros idiomas.
- Si bloqueo en robots.txt la versión en un idioma que nadie busca, ¿mejoro el SEO del idioma principal?
- No necesariamente. Bloquear versiones de idioma no transfiere autoridad a otras versiones. Si las versiones que bloqueas tenían enlaces internos hacia páginas importantes, perderás esas señales internas. Es mejor usar `noindex` en versiones de baja demanda en lugar de bloquearlas completamente.
- ¿Los sitemaps multilingües deben estar en el idioma correspondiente o pueden ser en inglés?
- El archivo sitemap XML en sí mismo (las etiquetas y estructura) siempre está en inglés independientemente del idioma del contenido. Las URLs que lista el sitemap pueden ser en cualquier idioma o estructura. No hay ventaja SEO en tener sitemaps «en español» vs «en inglés» en cuanto al formato del archivo.