Inhaltsverzeichnis
Der Unterschied auf einen Blick
Beide Dateien betreffen das Crawling, haben aber gegensätzliche Aufgaben:
| Datei | Aufgabe | Sagt Google … |
|---|---|---|
| XML-Sitemap | Seiten anbieten | „Diese URLs gibt es, bitte beachten" |
| robots.txt | Zugriff steuern | „Diese Bereiche bitte nicht crawlen" |
Wichtig: Keine der beiden Dateien erzwingt Indexierung. Die Sitemap ist eine Einladung, die robots.txt eine Zugriffsregel – die finale Entscheidung trifft Google.
Die XML-Sitemap
Eine Sitemap ist eine strukturierte Liste Ihrer wichtigen URLs. Sie hilft Google besonders bei großen oder verschachtelten Websites, alle relevanten Seiten zu finden – und über das Feld lastmod zu erkennen, wann eine Seite zuletzt aktualisiert wurde.
Was hineingehört
- Alle wichtigen, indexierbaren Seiten
- Aktuelle, gepflegte
lastmod-Angaben
Was nicht hineingehört
- Seiten mit
noindex - Weitergeleitete oder fehlerhafte URLs
- Duplikate und unwichtige Parameter-Seiten
Reichen Sie Ihre Sitemap in der Google Search Console ein und prüfen Sie dort, wie viele der gemeldeten URLs tatsächlich indexiert wurden.
Die robots.txt
Die robots.txt liegt im Stammverzeichnis Ihrer Domain und teilt Suchmaschinen mit, welche Bereiche sie nicht crawlen sollen – etwa interne Such- oder Adminseiten. Sie ist mächtig und entsprechend gefährlich: Eine falsche Zeile kann die gesamte Website blockieren.
Wichtige Klarstellung
Disallow in der robots.txt verhindert das Crawlen, nicht zwingend die Indexierung. Eine blockierte Seite kann trotzdem (ohne Inhalt) im Index erscheinen, wenn andere darauf verlinken. Wollen Sie eine Seite zuverlässig aus dem Index halten, nutzen Sie das noindex-Meta-Tag – und blockieren die Seite dann nicht in der robots.txt, damit Google das Tag überhaupt lesen kann.
Gute Bots nicht aussperren
Ein verbreiteter Fehler ist, mit Crawl-Delays oder Sperren auch nützliche Bots auszubremsen. Den Googlebot oder relevante Suchsysteme sollten Sie nie behindern.
Das Zusammenspiel verstehen
Sitemap und robots.txt arbeiten am besten zusammen, wenn man ihre Aufgaben sauber trennt. Die Sitemap sagt Google, was es beachten soll; die robots.txt, was es nicht crawlen soll. Widersprechen sich beide – etwa weil eine in der Sitemap gemeldete URL gleichzeitig per robots.txt blockiert ist –, sendet das ein verwirrendes Signal.
Ein konsistentes Bild entsteht, wenn:
- die Sitemap nur indexierbare, erwünschte URLs enthält,
- die robots.txt nur wirklich unnötige Bereiche (interne Suche, Admin) ausschließt,
- Seiten, die nicht in den Index sollen, per
noindexgesteuert und nicht zusätzlich in der robots.txt blockiert werden.
Diese klare Aufgabenteilung verhindert die meisten Crawling-Probleme von vornherein.
Nach Relaunch und Umzügen besonders aufpassen
Die teuersten Fehler entstehen erfahrungsgemäß bei Relaunches. Während der Entwicklung wird eine Website oft komplett für Suchmaschinen gesperrt – per Disallow: / oder einem globalen noindex. Wird diese Sperre beim Live-Gang vergessen zu entfernen, verschwindet die Seite still aus dem Index, ohne dass es jemandem sofort auffällt.
Für Unternehmen in Bitterfeld-Wolfen, die ihre Website überarbeiten lassen, gehört deshalb ein fester Kontrollschritt zum Go-Live: robots.txt und Indexierungseinstellungen prüfen, die Sitemap in der Google Search Console neu einreichen und die Indexierung der wichtigsten Seiten überwachen. Ein vergessenes Häkchen kann sonst Wochen an Sichtbarkeit kosten, bevor das Problem überhaupt bemerkt wird.
Häufige Fehler
- Versehentliche Komplettsperre: Ein
Disallow: /legt die ganze Website lahm – ein klassischer und teurer Fehler nach Relaunches. - noindex und Disallow kombinieren: Wird eine Seite blockiert, kann Google das noindex nicht lesen – sie bleibt womöglich im Index.
- Veraltete Sitemap: Tote oder weitergeleitete URLs in der Sitemap kosten Crawl-Budget und Vertrauen.
- Sensible Daten „verstecken" wollen: Die robots.txt ist öffentlich und schützt nichts – sie ist kein Sicherheitswerkzeug.
- Gute Bots ausbremsen: Unnötige Crawl-Delays auf Googlebot schaden der Indexierung.
Häufige Fragen
Braucht jede Website eine Sitemap?
Kleine, gut intern verlinkte Seiten kommen oft auch ohne aus. Empfehlenswert ist sie trotzdem, besonders ab einer gewissen Größe.
Wo finde ich meine robots.txt?
Unter ihre-domain.de/robots.txt. Existiert keine, crawlt Google standardmäßig alles Erreichbare.
Kann ich mit der robots.txt Seiten aus Google entfernen?
Nicht zuverlässig. Dafür sind noindex oder das Entfernungstool der Search Console der richtige Weg.
Was bedeutet lastmod in der Sitemap?
Es gibt das Datum der letzten Änderung an. Korrekt gepflegt hilft es Google, aktualisierte Inhalte schneller neu zu crawlen.
Fazit
Sitemap und robots.txt sind klein, aber folgenreich. Die Sitemap lädt Google zu Ihren wichtigen Seiten ein, die robots.txt steuert den Zugriff – und ein Fehler darin kann teuer werden. Für Unternehmen in Bitterfeld-Wolfen lohnt es sich, beide Dateien sauber zu konfigurieren und regelmäßig zu prüfen.
Wender Media richtet seit 2007 Crawling und Indexierung technisch sauber ein – mit persönlicher Betreuung. Sprechen Sie uns an oder werfen Sie einen Blick auf unser Technisches SEO.
Schlagworte
Inhalte erarbeitet in den agentic workflows von Wender Media — konstitutionell geprüfte KI-Werkzeuge auf Basis langjähriger SEO- und Webdesign-Praxis seit 2007.