Porträt von Sandra Krone
Über den Autor: Sandra Krone

Sandra Krone ist Partnerin und Gründerin von OLDSCHOOLSEO. Ihre Arbeit beginnt bei der Analyse der Nutzerintention und der Content-Strategie, um daraus die Anforderungen für die redaktionelle und technische Umsetzung abzuleiten.

Logfile-Analyse zur Crawl-Budget-Optimierung

Definition des Crawl Budget

Das Crawl Budget bezeichnet die Kapazität, die Google für das Crawling einer spezifischen Domain bereitstellt. Es resultiert aus zwei Faktoren:

  1. Crawl Capacity (Limit): Die technische Obergrenze, diktiert durch die Antwortzeit des Servers (Host Load). Schnelle Antwortzeiten erhöhen das Limit.
  2. Crawl Demand (Bedarf): Die algorithmische Notwendigkeit, basierend auf der Popularität und Aktualisierungsfrequenz der URLs.

Die Logfile-Analyse dient der Prüfung, ob dieses Budget für relevante Inhalte genutzt oder durch technische Fehler verbrannt wird.

Identifikation von Ineffizienzen (Wasted Crawl)

Als "Wasted Crawl" gelten Bot-Zugriffe auf URLs, die keinen Indexierungswert besitzen. Die Analyse filtert nach folgenden Mustern:

  • Status Code Fehler: Wiederholte Abrufe von 404 (Not Found) oder 5xx (Server Error).
  • Redirect Chains: Bot-Schleifen durch verkettete 301/302 Weiterleitungen.
  • Non-Canonical URLs: Ressourcen-Verlust durch das Crawling von Dubletten, die per Canonical Tag auf das Original verweisen.
  • Parameter-Friedhöfe: Unkontrollierte Generierung von URLs durch Filter-Kombinationen (Facetten-Navigation).

Metriken der Crawl-Effizienz

Die Bewertung der Architektur erfolgt anhand harter Kennzahlen:

  • Good Crawl Ratio: Das Verhältnis von 200 OK Zugriffen auf primäre Inhalte vs. Gesamtzugriffe.
  • Crawl Frequency per Directory: Verteilung der Bot-Aufmerksamkeit auf verschiedene Website-Bereiche (z.B. /magazin/ vs. /produkt/).
  • Time-to-Index: Die Latenz zwischen der Bereitstellung im Showroom (Deployment) und dem ersten Log-Eintrag des Googlebots.

Fokus: Googlebot Smartphone

Der Googlebot Smartphone ist der exklusive Crawler für die Indexierung. Desktop-Crawler dienen primär Prüfzwecken, nicht dem Ranking. Die Logfile-Analyse filtert daher strikt auf den User-Agent Googlebot Smartphone. Diskrepanzen zwischen Desktop- und Mobile-Zugriffen weisen auf fehlerhafte Vary: User-Agent Header oder Cloaking hin.

Ableitung von Maßnahmen

Die Interpretation der Daten durch die SEO-Strategie führt zu direkten Eingriffen in die Infrastruktur:

  • Bereinigung: Korrektur interner Links, die auf 404-Fehler oder Weiterleitungen zeigen.
  • Steuerung: Einsatz der robots.txt zum Ausschluss irrelevanter Parameter-URLs.
  • Priorisierung: Erhöhung der internen Verlinkung für Seiten mit hohem Demand aber niedriger Crawl-Frequenz.

Erfolgsmessung

Ein erfolgreiches Audit manifestiert sich in der Veränderung der Log-Muster:

  1. Reduktion der Wasted Crawls gegen Null.
  2. Anstieg der Crawl-Frequenz auf Money-Pages.
  3. Synchronisation von Sitemap-Einträgen und tatsächlich gecrawlten URLs.

Fazit zur Ressourcen-Steuerung

Bei großen Domains (10.000+ URLs) ist das Crawl Budget der limitierende Faktor für SEO-Wachstum. Die Logfile-Analyse ist das einzige Instrument, das die Allokation der Google-Ressourcen transparent macht und steuerbar gestaltet.

Weiterführende Artikel