Cómo Bloquear Bots de IA y Scrapers con Robots.txt en 2026
Con la explosión de los modelos de lenguaje en 2023-2026, una nueva categoría de bots ha empezado a rastrear masivamente la web: los recopiladores de datos para entrenar sistemas de inteligencia artificial. GPTBot de OpenAI, ClaudeBot de Anthropic, Google-Extended y docenas más visitan sitios web para recopilar contenido que puede usarse para entrenar modelos de IA. Muchos propietarios de webs quieren controlar si su contenido se usa para estos propósitos. Robots.txt es la herramienta principal para comunicar estas preferencias.
Los principales bots de IA que rastrean la web en 2026
El ecosistema de bots de IA ha crecido enormemente. Estos son los principales que encontrarás en tus logs de servidor y cómo se identifican: **GPTBot (OpenAI):** User-agent `GPTBot`. Recopila datos para entrenar los modelos GPT. OpenAI publicó en 2023 que respeta el bloqueo en robots.txt. URL de documentación: platform.openai.com/docs/gptbot. **ClaudeBot (Anthropic):** User-agent `anthropic-ai` o `Claude-Web`. Recopila datos para los modelos Claude. Anthropic respeta el estándar robots.txt. **Google-Extended:** User-agent `Google-Extended`. Bot específico de Google para entrenar Gemini y los productos de IA de Google, separado del Googlebot de búsqueda. Puedes bloquear Google-Extended sin afectar la indexación de tu web en Google Search. **Bytespider (ByteDance/TikTok):** User-agent `Bytespider`. Bot de TikTok/ByteDance con comportamientos menos predecibles que los bots de empresas occidentales. **CCBot (Common Crawl):** User-agent `CCBot`. Rastreador que alimenta datasets como Common Crawl, usados para entrenar muchos modelos de IA de código abierto. Muchos proveedores de hosting lo bloquean por el alto volumen de solicitudes que genera.
Cómo configurar robots.txt para bloquear bots de IA selectivamente
La ventaja del protocolo robots.txt es que puedes bloquear bots de IA específicos sin afectar la indexación de Google, Bing o los buscadores tradicionales. La clave es usar grupos `User-agent` separados en lugar de una regla única para todos los bots. Configuracion para bloquear los principales bots de IA: ``` # Bloquear GPTBot de OpenAI User-agent: GPTBot Disallow: / # Bloquear Claude/Anthropic User-agent: anthropic-ai Disallow: / User-agent: Claude-Web Disallow: / # Bloquear Google-Extended (IA de Google, sin afectar Google Search) User-agent: Google-Extended Disallow: / # Bloquear CCBot (Common Crawl, datasets de IA open source) User-agent: CCBot Disallow: / # Reglas para buscadores (no bloqueados) User-agent: Googlebot Allow: / User-agent: Bingbot Allow: / ``` El Generador de Robots.txt de WikiPlus incluye una sección de «Bots de IA» con casillas de verificación para los principales agentes, permitiéndote configurar estos bloqueos con un solo clic y sin memorizar los nombres exactos de los User-agents.
Robots.txt vs otras medidas para proteger tu contenido de la IA
Es importante tener expectativas realistas sobre lo que robots.txt puede y no puede hacer respecto a la recopilación de datos para IA. **Lo que robots.txt SÍ logra:** bloquear los bots de las grandes empresas tecnológicas (OpenAI, Anthropic, Google, Microsoft) que respetan el protocolo, ya que tienen reputación que perder y políticas públicas de cumplimiento. También bloquea rastreadores de datos legítimos como Common Crawl. **Lo que robots.txt NO logra:** bloquear scrapers maliciosos que ignoran el protocolo. Evitar que tu contenido ya publicado sea usado por modelos entrenados antes de que añadieras el bloqueo. Impedir que humanos copien manualmente tu contenido. Bloquear bots que se disfrazan con User-agents de navegadores normales. **Medidas complementarias:** el atributo `robots` meta tag con el valor `noai` (no estandarizado pero reconocido por algunos servicios) y la etiqueta `td-ai-content-policy` que algunas organizaciones están promoviendo. Las medidas técnicas como rate limiting, CAPTCHA y fingerprinting de bots son más efectivas que robots.txt para scrapers malintencionados. **Consideración legal:** en muchas jurisdicciones, el bloqueo en robots.txt es el mecanismo formal para expresar tu política de uso de datos. Su incumplimiento podría tener implicaciones legales bajo legislaciones como el RGPD europeo o la Computer Fraud and Abuse Act en EE.UU.
Monitorizar qué bots visitan tu web y cómo responden a robots.txt
Para verificar que tu robots.txt está siendo respetado y entender qué bots rastrean tu sitio, necesitas analizar los logs del servidor. En el panel de tu hosting o en herramientas como AWStats, puedes filtrar las entradas de log por User-agent para ver con qué frecuencia cada bot visita tu sitio. Si después de bloquear GPTBot en robots.txt sigues viendo solicitudes de GPTBot en los logs, puede indicar que el bot está ignorando las reglas o que hay un tiempo de respuesta al cambio. Google Search Console tiene una herramienta específica de «Estadísticas de rastreo» que muestra la actividad de Googlebot y, en versiones más recientes, diferencia entre el Googlebot de búsqueda y Google-Extended. Esto es útil para confirmar que Google-Extended respeta el bloqueo. Cloudflare (si lo usas como CDN) proporciona análisis de bots en su dashboard, incluyendo identificación de bots conocidos y su comportamiento respecto a los bloqueos configurados. La función «Bot Fight Mode» de Cloudflare puede complementar robots.txt bloqueando activamente bots no deseados antes de que lleguen a tu servidor. Para webs en producción, revisa los logs de bots mensualmente. Un aumento súbito en el tráfico de un User-agent desconocido puede indicar un nuevo scraper que está usando tu contenido para entrenar modelos.
Preguntas frecuentes
- ¿Bloquear Google-Extended en robots.txt afecta mi posicionamiento en Google Search?
- No. Google-Extended es un agente separado específico para los productos de IA de Google (Gemini, AI Overviews). Bloquearlo no afecta a Googlebot, que es el que indexa tu web para Google Search. Puedes bloquear Google-Extended mientras mantienes tu web completamente indexada en los resultados de búsqueda.
- ¿Tiene alguna consecuencia negativa bloquear todos los bots de IA?
- Directamente, no. Tu posicionamiento en buscadores no se verá afectado si solo bloqueas bots de IA y mantienes Googlebot y Bingbot permitidos. Indirectamente, tu contenido no aparecerá en respuestas de asistentes de IA que usen datos rastreados en tiempo real, lo que puede reducir algo de visibilidad en ese canal.
- ¿Cómo sé si un bot de IA está visitando mi web aunque lo haya bloqueado?
- Revisa los logs del servidor y filtra por el User-agent del bot que bloqueaste. Si sigues viendo solicitudes de ese User-agent después de actualizar robots.txt, puede ser que el bot no haya releído el archivo todavía (pueden pasar días) o que ignore el protocolo. Los logs también mostrarán si el bot intentó acceder a la ruta bloqueada y recibió respuesta de tu servidor.