Robots.txt Fehler: Die häufigsten Probleme und wie man sie vermeidet
Fehler in der robots.txt können drastische SEO-Konsequenzen haben. Im schlimmsten Fall wird die gesamte Website aus dem Google-Index ausgesperrt. Dieser Artikel zeigt die häufigsten robots.txt-Fehler, erklärt ihre Ursachen und zeigt, wie man sie mit dem WikiPlus Robots.txt Generator von Anfang an vermeidet.
Der kritischste Fehler: Disallow: / auf der Produktionswebsite
Der gefährlichste robots.txt-Fehler ist Disallow: / unter User-agent: * — er sperrt alle Crawler von der gesamten Website aus. Dieser Fehler passiert überraschend häufig, meistens durch das Vergessen, eine robots.txt vom Staging-Server für die Produktion umzuschreiben. Der Effekt: Google kann die Website nicht mehr crawlen und neue Inhalte nicht entdecken. Bestehende Seiten bleiben zunächst im Index, werden aber nach einiger Zeit ohne erneutes Crawlen als veraltet eingestuft und verlieren Rankings. Diagnosemöglichkeit: In der Google Search Console erscheinen unter 'Crawling' → 'Sperren durch robots.txt' plötzlich viele gesperrte URLs. Lösung: Sofort robots.txt korrigieren und in der Search Console eine beschleunigte Indexierung anfordern. Für schnelles Erkennen: Regelmäßige Überprüfung der robots.txt nach jedem Deployment. Der WikiPlus Robots.txt Generator zeigt eine Vorschau der erstellten Datei, um solche Fehler zu verhindern.
Wichtige Seiten versehentlich sperren
Auch ohne die komplette Disallow: / -Regel können zu breite Sperr-Regeln wichtige Seiten aus dem Index ausschließen. Häufige Beispiele: Disallow: /de/ — sperrt die gesamte deutschsprachige Version der Website. Disallow: /produkte/ — sperrt alle Produktseiten. Disallow: /*?* — sperrt alle URLs mit Query-Parametern, einschließlich echter Produkt-Varianten. Disallow: /*.pdf — kann wichtige Dokumente wie Preislisten oder Prospekte sperren, die in der Suche erscheinen sollten. Diagnosemöglichkeit: In der Google Search Console unter 'Indexabdeckung' → 'Ausgeschlossen durch robots.txt' findet man alle gesperrten URLs. Wenn dort wichtige Seiten auftauchen, muss die robots.txt angepasst werden. Lösung: Regeln verfeinern, Allow-Ausnahmen hinzufügen oder breite Sperren durch spezifischere ersetzen.
Syntaxfehler in robots.txt
Syntaxfehler führen dazu, dass Regeln ignoriert werden oder unerwartete Wirkung haben. Häufige Syntaxfehler: Fehlendes Leerzeichen nach dem Doppelpunkt — Disallow:/admin/ statt Disallow: /admin/ — viele Crawler interpretieren das korrekt, aber es ist nicht standardkonform. Fehlender führender Slash im Pfad — Disallow: admin/ statt Disallow: /admin/ — der fehlende Slash kann dazu führen, dass die Regel nicht gilt. Kommentare ohne # — Text ohne # am Anfang wird als Direktive interpretiert. Leerzeichen am Anfang von Zeilen — manche Parser ignorieren Zeilen mit führendem Whitespace. Doppelte User-agent-Blöcke — wenn mehrere Blöcke für denselben User-agent existieren, wird oft nur der erste gelesen. BOM (Byte Order Mark) am Anfang der Datei — UTF-8-BOM kann von Parsern als ungültiges Zeichen interpretiert werden. Der WikiPlus Robots.txt Generator erzeugt syntaktisch korrekte Dateien und vermeidet all diese Probleme.
robots.txt und HTTPS: Häufige Missverständnisse
Einige Missverständnisse rund um robots.txt und HTTPS/URLs. robots.txt gilt domainweit, nicht subdomain-übergreifend: Eine robots.txt auf example.com gilt nicht für shop.example.com oder www.example.com (obwohl www.example.com meist dieselbe Domain ist). Jede Subdomain braucht ihre eigene robots.txt. Protokoll-Unterschiede: Eine robots.txt auf http://example.com gilt normalerweise für die gesamte Domain, aber in der Praxis sollten sowohl HTTP als auch HTTPS korrekte robots.txt-Dateien ausliefern. Bei Weiterleitung von HTTP auf HTTPS ist das meistens automatisch korrekt. Trailing Slash: Disallow: /admin und Disallow: /admin/ haben unterschiedliche Bedeutungen. /admin sperrt die Seite /admin selbst und alles darunter. /admin/ sperrt nur den Ordner und alles darin, nicht /admin selbst. Für maximale Klarheit immer den Trailing Slash setzen, wenn ein Verzeichnis gesperrt werden soll.
Häufig gestellte Fragen
- Wie überprüfe ich, ob meine robots.txt korrekt funktioniert?
- Nutze die Google Search Console → Einstellungen → robots.txt-Tester. Gib URLs ein, die erlaubt oder gesperrt sein sollen, und überprüfe, ob die Ergebnisse deinen Erwartungen entsprechen. Außerdem: Schau regelmäßig in den Bericht 'Ausgeschlossen durch robots.txt' unter Indexabdeckung.
- Kann ich robots.txt verwenden, um bestimmte IP-Adressen zu sperren?
- Nein, robots.txt kann nicht nach IP-Adressen filtern. Es unterstützt nur User-agent-basierte Regeln. IP-basiertes Blocking muss auf Server-Ebene (.htaccess, nginx-Konfiguration oder Firewall) implementiert werden.
- Was passiert, wenn robots.txt einen 404-Fehler zurückgibt?
- Ein 404-Fehler für /robots.txt bedeutet, dass keine Datei existiert. Google interpretiert das als 'keine Einschränkungen' und crawlt alle öffentlich verlinkten Seiten. Das ist in den meisten Fällen akzeptabel, aber es ist best practice, zumindest eine minimale robots.txt mit der Sitemap-URL bereitzustellen.