WikiPlus

Robots.txt für E-Commerce: Duplicate Content und Crawl-Budget optimieren

E-Commerce-Websites sind in puncto robots.txt besonders herausfordernd. Filterfunktionen, Sortierparameter, Paginierung und Faceted Navigation erzeugen oft tausende von URLs mit identischem oder sehr ähnlichem Inhalt. Diese URLs verbrauchen Crawl-Budget und können durch Duplicate Content das Ranking gefährden. Der WikiPlus Robots.txt Generator hilft dabei, E-Commerce-Shops optimal zu konfigurieren.

Das Duplicate-Content-Problem in Onlineshops

In E-Commerce-Websites entsteht Duplicate Content besonders häufig durch: URL-Parameter für Filter und Sortierung — /kategorie/schuhe?farbe=blau&groesse=42&sortierung=preis-aufsteigend erzeugt hunderte von Varianten derselben Kategorieseite. Paginierung — /kategorie/seite-1, /kategorie/seite-2 etc. zeigen oft sehr ähnliche Inhalte. Session-IDs in URLs — /produkt?session=abc123 — jeder Nutzer bekommt eine eigene URL für dieselbe Seite. Mehrfach verlinkbare Produkte (ein Produkt in mehreren Kategorien) — /herrenschuhe/sneaker/nike-air-max und /sale/herrenschuhe/nike-air-max zeigen dasselbe Produkt. Technische Varianten — /produkt?currency=USD, /produkt?utm_source=newsletter. Wenn Google diese URLs alle einzeln crawlt, verbraucht das wertvolles Crawl-Budget und kann das Ranking für die Hauptkategorie- und Produktseiten beeinträchtigen.

URL-Parameter mit robots.txt und Search Console verwalten

Für URL-Parameter gibt es zwei primäre Lösungsansätze. robots.txt: Disallow: /*?* sperrt alle URLs mit beliebigen Query-Parametern. Das ist aggressiv und kann legitime Seiten ausschließen. Besser spezifisch sein: Disallow: /*?sort= — sperrt URLs mit sort-Parameter. Disallow: /*?filter= — sperrt Filter-URLs. Disallow: /*?session= — sperrt Session-ID-URLs. Google Search Console URL-Parameter-Tool (veraltet): Dieses Tool wurde von Google eingestellt. Canonical-Tags: Die bevorzugte moderne Lösung. Jede parametrisierte URL enthält ein <link rel='canonical' href='https://example.com/kategorie/'>, das auf die kanonische, parameterfreie URL zeigt. Google ignoriert dann die parametrisierten Seiten für Indexierungszwecke, kann sie aber trotzdem crawlen. Die Kombination aus Canonical-Tags für wichtige Filter und robots.txt für Session-IDs und unwichtige Parameter ist oft die beste Strategie.

Paginierung in Onlineshops richtig behandeln

Paginierung ist in E-Commerce ein häufiges SEO-Problem. Lösungsansätze: Canonical-Tag auf Seite 1: Alle Folgeseiten (/kategorie/?page=2) haben rel='canonical' auf /kategorie/. Funktioniert gut, wenn Seite 1 den wichtigsten Content enthält. Noindex auf Folgeseiten: <meta name='robots' content='noindex, follow'> auf /page=2 und folgende. Links werden trotzdem verfolgt, die Seite selbst nicht indexiert. robots.txt-Sperrung für Paginierungs-URLs: Disallow: /*?page= oder Disallow: /kategorie/page/ — riskanter, da Produkte auf späteren Seiten nicht gecrawlt werden. Infinite Scroll mit Google-kompatiblem Paginerungsschema: Lazy Loading plus <link rel='next'> und <link rel='prev'> (obwohl Google diese seit 2019 nicht mehr offiziell unterstützt). Moderne Empfehlung: Wichtige Seiten (erste 2-3 Kategorieseiten) indexieren, Folgeseiten mit Noindex versehen, immer rel='canonical' nutzen.

Staging-Umgebungen und robots.txt

Ein oft vergessener, aber kritisch wichtiger Punkt: Staging- und Testumgebungen müssen vollständig vor Suchmaschinen gesperrt werden. Wenn Google eine Staging-Umgebung findet und indexed, entstehen Duplicate-Content-Probleme zwischen Staging und Produktion. Die einfachste Lösung ist eine robots.txt auf dem Staging-Server: User-agent: * Disallow: /. Das sperrt alle Crawler vollständig. Zusätzlich empfiehlt es sich: HTTP Basic Authentication für die gesamte Staging-Umgebung aktivieren. noindex-Tags auf allen Staging-Seiten setzen (als zweite Sicherheitsebene). Die Staging-Domain nicht öffentlich verlinken. Für Deployment-Prozesse muss sichergestellt werden, dass die Produktions-robots.txt nicht die Staging-Einstellung übernimmt. Oft sinnvoll: robots.txt für Produktion und Staging als separate Dateien in der Versionsverwaltung pflegen.

Häufig gestellte Fragen

Soll ich alle URL-Parameter in robots.txt sperren?
Nein, nicht alle. Manche URL-Parameter sind sinnvoll (z.B. ?lang=de für Sprachauswahl) und sollen indexiert werden. Andere wie ?session=, ?sort= oder ?utm_= sollten gesperrt oder über Canonical-Tags verwaltet werden. Eine pauschale Sperrung aller Parameter ist zu aggressiv.
Was ist besser für Duplicate Content: robots.txt oder Canonical-Tags?
Canonical-Tags sind in den meisten Fällen die bevorzugte Lösung, weil Google die duplizierten Seiten noch crawlen kann, aber nur die kanonische Version indexiert. robots.txt spart Crawl-Budget, verhindert aber auch, dass Google Produktlink-Signale verfolgt. Für Session-IDs und technische Parameter ist robots.txt sinnvoller.
Wie finde ich heraus, wie viele Seiten Google auf meinem Shop gecrawlt hat?
In der Google Search Console unter 'Einstellungen' → 'Crawling-Statistiken' siehst du, wie viele Seiten täglich gecrawlt werden. Unter 'Indexabdeckung' siehst du die gesamte Anzahl indexierter Seiten. Ein unverhältnismäßig hohes Verhältnis gecrawlter zu indexierten Seiten deutet auf Crawl-Budget-Verschwendung hin.