Logfile-Analyse zur Crawl-Budget-Optimierung
Was ist Crawl-Budget aus technischer Sicht?
Antwort: Das Crawl-Budget ist die Anzahl der URLs, die ein Suchmaschinen-Bot auf einer Website innerhalb eines Zeitraums crawlen kann und will. Es wird durch zwei Komponenten bestimmt:
- →Crawl Rate Limit (Crawl-Kapazität): Die maximale Anzahl gleichzeitiger Verbindungen und die Zeit zwischen den Abrufen, die ein Bot nutzen kann, ohne die Server-Performance zu beeinträchtigen.
- →Crawl Demand (Crawl-Bedarf): Die von Google ermittelte Wichtigkeit und Aktualisierungsfrequenz einer Website. Populäre und häufig aktualisierte URLs werden mit höherem Bedarf gecrawlt. Die Logfile-Analyse dient dazu, die Nutzung dieses Budgets zu verstehen.
Wie wird verschwendetes Crawl-Budget durch Logfiles identifiziert?
Antwort: Verschwendetes Crawl-Budget wird identifiziert, indem man die Zugriffe des Googlebots auf URLs analysiert, die keinen SEO-Wert haben. Typische Muster sind:
- →Häufiges Crawling von URLs mit Non-200-Statuscodes: Regelmäßige Zugriffe auf 404-Seiten oder 5xx-Serverfehler.
- →Crawling von weitergeleiteten URLs: Anhaltende Zugriffe auf 301- oder 302-weitergeleitete URLs.
- →Crawling von nicht-kanonischen URLs: Zugriffe auf URLs, die einen Canonical Tag auf eine andere Seite haben.
- →Crawling von parametrisierten URLs: Hohe Crawl-Aktivität auf URLs mit Filtern, Sortierungen oder Tracking-Parametern.
Welche Metriken werden zur Bewertung der Crawl-Effizienz herangezogen?
Antwort: Zur Bewertung der Effizienz werden aus den Logfile-Daten spezifische Metriken abgeleitet:
- →Anteil der "Good Crawls": Der prozentuale Anteil der Bot-Zugriffe auf indexierbare URLs mit Statuscode 200.
- →Anteil der "Wasted Crawls": Der prozentuale Anteil der Zugriffe auf Fehlerseiten, Weiterleitungen oder nicht-kanonische URLs.
- →Crawl-Verteilung nach Seitentyp: Die prozentuale Verteilung der Crawls auf wichtige Seitentypen (z.B. Produktseiten, Blogartikel) im Verhältnis zu unwichtigen Seitentypen.
- →"Crawl-to-Index"-Verhältnis: Der Abgleich von gecrawlten URLs (aus Logfiles) mit den im Index befindlichen URLs (aus der Google Search Console).
Wie beeinflusst die mobile Indexierung die Logfile-Analyse?
Antwort: Seit der Umstellung auf die Mobile-First-Indexierung ist der Googlebot Smartphone der primäre Crawler. Bei der Logfile-Analyse muss daher der User-Agent-String gefiltert werden, um die Aktivitäten des mobilen Crawlers von denen des veralteten Desktop-Crawlers oder anderer Bots (z.B. Googlebot Image) zu trennen. Die Analyse der Crawl-Verteilung zwischen mobilem und Desktop-Bot kann zudem aufzeigen, ob die Umstellung für die Website von Google als vollständig abgeschlossen betrachtet wird.
Wie werden Erkenntnisse aus der Logfile-Analyse in konkrete Maßnahmen überführt?
Antwort: Die identifizierten Probleme werden in technische Optimierungsmaßnahmen übersetzt:
- →Bei Crawling von 404-Seiten: Identifizieren der Quellen der fehlerhaften internen Links und deren Korrektur.
- →Bei Crawling von Weiterleitungen: Aktualisieren der internen Links, sodass sie direkt auf die finalen Ziel-URLs verweisen.
- →Bei Crawling von parametrisierten URLs: Implementierung von
robots.txt-Regeln, um das Crawling dieser URL-Muster zu blockieren, oder konsequente Nutzung des Canonical Tags. - →Bei geringer Crawl-Frequenz auf wichtigen Seiten: Verbesserung der internen Verlinkung von hoch frequentierten Seiten auf diese wichtigen, aber vernachlässigten Seiten.
Wie wird der Erfolg der Optimierungsmaßnahmen gemessen?
Antwort: Der Erfolg wird durch eine erneute Logfile-Analyse nach einem Beobachtungszeitraum gemessen. Zielindikatoren sind:
- →Eine Reduzierung des Anteils der "Wasted Crawls".
- →Eine Erhöhung des Anteils der "Good Crawls" auf SEO-relevanten Seiten.
- →Eine schnellere Entdeckungs- und Crawl-Rate für neu veröffentlichte Inhalte.
- →Eine Verringerung der Anzahl der 404-Fehler im Crawl-Stats-Bericht der Google Search Console.
Was ist die Schlussfolgerung für eine fortgeschrittene technische SEO-Strategie?
Antwort: Die Logfile-Analyse ist für große oder komplexe Websites ein Diagnosewerkzeug. Sie ermöglicht eine datengestützte Optimierung des Crawl-Budgets, die über die Möglichkeiten der Google Search Console hinausgeht. Ziel ist es, die Ressourcen des Googlebots gezielt auf die URLs zu lenken, die für das Geschäft und das Ranking von Bedeutung sind, und so die Effizienz und Geschwindigkeit der Indexierung zu maximieren.
Integration in die fortgeschrittene technische SEO-Strategie
Die Logfile-Analyse ist die datenbasierte Grundlage für die Optimierung der Crawl-Effizienz.
- →Crawling-Optimierung für große Websites - Die hier gewonnenen Erkenntnisse sind die Basis für die in diesem Thema behandelten Skalierungsstrategien.
- →JavaScript-SEO: Rendering-Strategien und ihre Auswirkungen – Logfiles zeigen, ob der Googlebot nur das initiale HTML oder auch die gerenderten Inhalte crawlt.
- →Datengetriebene Analyse der internen Link-Architektur - Die Logfile-Analyse validiert, ob die durch die Link-Architektur beabsichtigte Priorisierung vom Googlebot verstanden wird.
