WikiPlus

Otimizar crawl budget com robots.txt: guia para sites grandes

Para sites com milhares ou dezenas de milhares de páginas — e-commerces, portais de notícias, plataformas de conteúdo — o crawl budget é um recurso precioso. O Google dedica uma cota de rastreamento para cada site, e se esse orçamento é desperdiçado em páginas sem valor SEO (resultados de busca interna, parâmetros de URL, páginas de admin, conteúdo duplicado), as páginas importantes podem não ser rastreadas com a frequência necessária para refletir atualizações no índice. O robots.txt é a ferramenta primária para orientar o Google a usar seu crawl budget com eficiência máxima.

O que é crawl budget e por que ele importa

Crawl budget é o número de páginas que o Googlebot está disposto a rastrear em um site em um determinado período. Este número é determinado por dois fatores: o limite de rastreamento (quantos requests por segundo o Google faz sem sobrecarregar o servidor) e a demanda de rastreamento (quão frequentemente o Google quer atualizar as páginas do índice baseado em popularidade e frescor do conteúdo). Para sites pequenos com menos de mil páginas, crawl budget raramente é problema — o Google rastreia todo o site frequentemente. Para sites com centenas de milhares de páginas ou mais, crawl budget pode ser o gargalo que impede novas páginas de serem indexadas rapidamente. Nesses casos, usar robots.txt para bloquear páginas sem valor SEO é essencial para otimizar como o orçamento disponível é usado.

Identificando páginas que desperdiçam crawl budget

Antes de criar regras de robots.txt para otimizar crawl budget, é necessário identificar quais tipos de URL estão consumindo rastreamento desnecessariamente. Categorias comuns de URLs que não deveriam ser rastreadas: Resultados de busca interna (/search?q=...) — infinitos e sem valor de SEO. Parâmetros de sessão e tracking (?sessionid=..., ?ref=..., ?utm_source=...). Páginas de paginação além da segunda ou terceira página. Filtros de e-commerce com múltiplos parâmetros combinados (cor + tamanho + preço = URLs combinatórias). Versões de impressão de páginas (/print/). Páginas de ordenação de produtos (/produtos?ordem=preco-crescente). Páginas de tags com apenas 1-2 posts. Perfis de autor duplicados. Use o Screaming Frog ou os logs do servidor filtrados pelo user-agent do Googlebot para mapear quais tipos de URL o Google está rastreando e identificar os maiores desperdícios.

Estratégias robots.txt para e-commerce de grande escala

Sites de e-commerce têm desafios particulares de crawl budget. Um produto acessível por múltiplas categorias gera URLs como /roupas/camisetas/camisa-azul e /masculino/camisetas/camisa-azul — duplicatas que desperdiçam crawl. Estratégias eficazes: Disallow todas as URLs de ordenação: Disallow: /*?ordem= Disallow: /*?sort=. Disallow URLs de filtros combinados mantendo apenas o primeiro filtro: Allow: /produtos?categoria= Disallow: /produtos?categoria=*&. Disallow páginas de paginação além da página 5: Disallow: /*?pagina=6 Disallow: /*?pagina=7 (e assim por diante, ou usando padrões mais genéricos). Disallow versões de moeda ou idioma não canônicas: Disallow: /produtos?moeda=USD (se o site é BRL como padrão). Combine robots.txt com canonical tags e parâmetros de URL configurados no Google Search Console para controle máximo.

Medindo o impacto das mudanças no robots.txt

Após implementar mudanças de robots.txt para otimização de crawl budget, monitore os resultados com dados concretos. Métricas a acompanhar no Google Search Console: Total de URLs rastreadas por dia (Estatísticas de Rastreamento). Distribuição de rastreamento por tipo de URL — deve aumentar para páginas de produto/conteúdo e diminuir para URLs bloqueadas. Cobertura do índice — o número de páginas indexadas deve se estabilizar ou crescer ao longo do tempo, com menos 'erros' e 'excluídas'. Tempo de rastreamento médio por URL — deve diminuir se a qualidade média das páginas rastreadas aumentar. Google Search Console pode levar 2-4 semanas para refletir mudanças significativas no comportamento de rastreamento. Para mudanças maiores em sites de grande escala, considere implementar gradualmente, monitorando após cada etapa, para identificar qualquer efeito adverso antes de prosseguir.

Perguntas frequentes

Robots.txt ou noindex para economizar crawl budget?
São complementares. Robots.txt impede o rastreamento (Googlebot não visita a URL). Noindex impede a indexação (Googlebot visita mas não adiciona ao índice). Para economizar crawl budget real, use robots.txt — isso impede que o Googlebot sequer gaste recursos acessando a página. Use noindex para páginas que precisam ser rastreadas mas não indexadas.
Bloquear imagens no robots.txt economiza crawl budget?
Bloquear imagens pelo Googlebot (User-agent: Googlebot-Image / Disallow: /) impede que sejam indexadas no Google Imagens. Isso pode economizar algum crawl de imagens, mas raramente é recomendado pois imagens indexadas no Google Imagens trazem tráfego adicional. Foque o robots.txt em bloquear URLs HTML sem valor.
Com que frequência devo atualizar o robots.txt?
Revise o robots.txt após grandes mudanças no site (novo CMS, reestruturação de URLs, nova seção), ao identificar tipos de URL desnecessários sendo rastreados, e quando o Search Console mostrar queda na cobertura de indexação. Para sites em produção estável, uma revisão trimestral é geralmente suficiente.