Robots.txt Generator — kostenlos online erstellen
Die robots.txt ist eine einfache Textdatei, die mächtige Auswirkungen auf die SEO einer Website haben kann. Sie steuert, welche Bereiche einer Website von Suchmaschinen-Crawlern besucht werden dürfen. Falsch konfiguriert, kann sie dazu führen, dass wichtige Seiten nicht indexiert werden. Der kostenlose WikiPlus Robots.txt Generator erstellt eine optimierte robots.txt für jede Website-Art — direkt im Browser, ohne Kenntnisse der Syntax erforderlich.
Was ist robots.txt und wie funktioniert sie?
Die robots.txt-Datei liegt immer im Root-Verzeichnis einer Domain: https://example.com/robots.txt. Suchmaschinen-Crawler (Bots) rufen diese Datei als erstes ab, bevor sie weitere Seiten der Website besuchen. Sie enthält Regeln, die angeben, welche Crawler (User-Agents) welche Bereiche der Website crawlen dürfen. Die grundlegende Syntax ist einfach: User-agent: Gibt an, für welchen Crawler die Regel gilt. * bedeutet alle Crawler. Disallow: Gibt an, welche Pfade der Crawler nicht besuchen soll. Allow: Erlaubt ausdrücklich einen Pfad (nützlich, wenn übergeordnete Pfade per Disallow gesperrt sind). Crawl-delay: Empfiehlt dem Crawler, eine bestimmte Anzahl Sekunden zwischen Anfragen zu warten (nicht von Google unterstützt). Sitemap: Gibt die URL zur XML-Sitemap an — sehr empfehlenswert. Der WikiPlus Robots.txt Generator erstellt syntaktisch korrekte robots.txt-Dateien mit allen wichtigen Elementen.
Welche Bereiche sollte man mit robots.txt sperren?
Nicht alle Bereiche einer Website sollten von Suchmaschinen gecrawlt werden. Typische Kandidaten für Disallow-Regeln: Admin- und Backend-Bereiche (/admin/, /wp-admin/, /backend/) — sollten aus Sicherheitsgründen generell nicht zugänglich sein. Staging- und Testbereiche (/staging/, /test/, /dev/) — unfertige Inhalte sollen nicht in den Index. Benutzerspezifische Bereiche (/account/, /dashboard/, /meine-bestellungen/) — personalisierte Inhalte ohne Ranking-Potenzial. Interne Suche-Ergebnisseiten (/suche?q=, /search/) — viele Seiten mit wenig oder keinem eindeutigen Inhalt. Druckansichten (/drucken/, /?format=print) — Duplikat des Hauptinhalts. API-Endpunkte (/api/) — keine menschenlesbare Inhalte. Temporäre und Build-Verzeichnisse (/tmp/, /.git/, /node_modules/). Was man nicht sperren sollte: Produktseiten, Blogartikel, Kategorieseiten, die Startseite und alle anderen Seiten, die im Index erscheinen sollen.
robots.txt für WordPress, Shopware und andere CMS
Verschiedene CMS-Systeme haben typische Bereiche, die in der robots.txt behandelt werden sollten. WordPress: Sperren empfohlen für /wp-admin/ (außer admin-ajax.php, das von Plugins benötigt wird), /wp-includes/, /?s= (interne Suche), /?p= (numerische Post-IDs als alternative URLs zu vermeiden), /feed/ (RSS-Feeds brauchen meist kein SEO-Indexing). Typische WordPress robots.txt: User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Sitemap: https://example.com/sitemap.xml. Shopware / WooCommerce / andere E-Commerce: Sperren für /checkout/, /cart/, /mein-konto/, /api/, /?orderby= (Sortierparameter). Typo3: /typo3/ Verzeichnis sperren. Contao: /contao/ und /system/ sperren. Der WikiPlus Robots.txt Generator bietet Vorlagen für die gängigsten CMS-Systeme.
Crawl-Budget verstehen und optimieren
Das Crawl-Budget ist die Anzahl von Seiten, die Googlebot pro Zeitraum auf einer Website crawlt. Websites mit begrenztem Crawl-Budget (typischerweise große Websites mit Millionen von Seiten oder Websites mit langsamen Ladezeiten) profitieren stark von einer optimierten robots.txt. Wenn der Crawler Zeit mit unwichtigen Seiten verbringt — Filterseiten, Sortierparameter-Varianten, duplizierte Inhalte — bleibt weniger Budget für die wichtigen Seiten. robots.txt hilft dabei, das Budget auf die wertvollen Seiten zu fokussieren. Für kleinere Websites (unter 10.000 Seiten) ist Crawl-Budget selten ein Problem — Google crawlt alles in regelmäßigen Abständen. Hier ist der SEO-Wert der robots.txt vor allem die Ausschluss von tatsächlich problematischem Content (Duplicate Content, Thin Content) und die Sitemap-Angabe.
Häufig gestellte Fragen
- Verhindert robots.txt das Indexieren einer Seite?
- Nicht direkt. robots.txt verhindert das Crawlen, aber nicht das Indexieren. Wenn externe Links auf eine gesperrte Seite zeigen, kann Google sie trotzdem im Index aufnehmen, ohne den Inhalt zu kennen. Für echtes Noindex sollte der robots-Meta-Tag noindex oder der X-Robots-Tag im HTTP-Header verwendet werden.
- Kann ich mit robots.txt bestimmte Bilder vor Google-Bildersuche schützen?
- Ja, mit User-agent: Googlebot-Image und entsprechenden Disallow-Regeln kann man verhindern, dass der Google-Bildersuche-Crawler bestimmte Bildbereiche indexiert. Das verhindert jedoch keine direkte Verlinkung auf die Bilder — nur die Aufnahme in die Bildersuche.
- Wie kann ich überprüfen, ob meine robots.txt korrekt ist?
- In der Google Search Console gibt es unter 'Indexabdeckung' → 'robots.txt testen' ein Tool zur Überprüfung. Man kann URLs eingeben und sehen, ob sie durch die aktuellen Regeln erlaubt oder gesperrt sind. Auch online unter developers.google.com/search/docs/crawling-indexing/robots/robots-tester.