robots.txt

Was ist die robots.txt?

Die robots.txt ist eine Textdatei im Stammverzeichnis einer Website (domain.de/robots.txt), die Crawlern mitteilt, welche Bereiche der Website sie besuchen dürfen und welche nicht. Sie basiert auf dem „Robots Exclusion Protocol" und wird von allen seriösen Suchmaschinen-Crawlern und AI-Bots respektiert.

Wie ist eine robots.txt aufgebaut?

Die Datei besteht aus einfachen Regeln: User-agent gibt an, für welchen Crawler die Regel gilt (* = alle), Disallow blockiert bestimmte Pfade, Allow erlaubt Pfade innerhalb blockierter Bereiche, und Sitemap verweist auf die XML-Sitemap. Die Regeln werden von oben nach unten verarbeitet.

Welche Rolle spielt robots.txt für GEO?

Die robots.txt steuert auch den Zugang von AI-Crawlern wie GPTBot, ClaudeBot und PerplexityBot. Wer diese Bots blockiert, wird in AI-Antworten nicht erscheinen. Für eine GEO-Strategie ist es entscheidend, AI-Crawlern den Zugang zu den relevanten Inhalten zu erlauben. Ergänzend kann eine llms.txt den AI-Systemen zusätzliche Kontextinformationen liefern.

Welche Fehler sollte man vermeiden?

Häufigste Fehler: Versehentliches Blockieren der gesamten Website (Disallow: /), Blockierung wichtiger Ressourcen wie CSS und JavaScript (verhindert korrektes Rendering), fehlender Verweis auf die Sitemap und die irrtümliche Annahme, dass robots.txt Seiten aus dem Index entfernt – das tut sie nicht, dafür braucht man noindex.

💡 Kurz & knapp

robots.txt = Verkehrsregeln für Crawler. Steuert Google und AI-Bots. Für GEO: AI-Crawler erlauben, nicht blockieren. Sitemap verlinken nicht vergessen.

← Canonical Tag XML-Sitemap →

Was ist die robots.txt?

Wie ist eine robots.txt aufgebaut?

Welche Rolle spielt robots.txt für GEO?

Welche Fehler sollte man vermeiden?

💡 Kurz & knapp

GEO & SEO in der Praxis