Was ist die robots.txt?
Die robots.txt ist eine Textdatei im Stammverzeichnis einer Website (domain.de/robots.txt), die Crawlern mitteilt, welche Bereiche der Website sie besuchen dürfen und welche nicht. Sie basiert auf dem „Robots Exclusion Protocol" und wird von allen seriösen Suchmaschinen-Crawlern und AI-Bots respektiert.
Wie ist eine robots.txt aufgebaut?
Die Datei besteht aus einfachen Regeln: User-agent gibt an, für welchen Crawler die Regel gilt (* = alle), Disallow blockiert bestimmte Pfade, Allow erlaubt Pfade innerhalb blockierter Bereiche, und Sitemap verweist auf die XML-Sitemap. Die Regeln werden von oben nach unten verarbeitet.
Welche Rolle spielt robots.txt für GEO?
Die robots.txt steuert auch den Zugang von AI-Crawlern wie GPTBot, ClaudeBot und PerplexityBot. Wer diese Bots blockiert, wird in AI-Antworten nicht erscheinen. Für eine GEO-Strategie ist es entscheidend, AI-Crawlern den Zugang zu den relevanten Inhalten zu erlauben. Ergänzend kann eine llms.txt den AI-Systemen zusätzliche Kontextinformationen liefern.
Welche Fehler sollte man vermeiden?
Häufigste Fehler: Versehentliches Blockieren der gesamten Website (Disallow: /), Blockierung wichtiger Ressourcen wie CSS und JavaScript (verhindert korrektes Rendering), fehlender Verweis auf die Sitemap und die irrtümliche Annahme, dass robots.txt Seiten aus dem Index entfernt – das tut sie nicht, dafür braucht man noindex.
💡 Kurz & knapp
robots.txt = Verkehrsregeln für Crawler. Steuert Google und AI-Bots. Für GEO: AI-Crawler erlauben, nicht blockieren. Sitemap verlinken nicht vergessen.