Über den Autor: Michael Kienzler
Michael Kienzler ist Partner und Gründer von OLDSCHOOLSEO. Seine Arbeit beginnt bei der Analyse der technischen Architektur und der Daten, um daraus die Potenziale für die redaktionelle und strategische Weiterentwicklung abzuleiten.
Mehr über die GründerProfil auf LinkedIn

Logfile-Analyse: Das Crawl-Verhalten von Suchmaschinen verstehen

Definition der Logfile-Analyse

Die Logfile-Analyse ist das forensische Audit der Server-Zugriffsprotokolle. Im Gegensatz zu den gesampelten Daten der Google Search Console (GSC) liefert das Server-Log eine lückenlose Aufzeichnung jeder Anfrage. Im Fokus steht die Identifikation des tatsächlichen Verhaltens von Suchmaschinen-Bots (Googlebot, Bingbot) zur Optimierung des Crawl-Budgets.

Zugriff auf Logdaten nach Hosting-Typ

Die Verfügbarkeit der Rohdaten korreliert mit der gewählten Infrastruktur. Die Extraktion der Daten obliegt der technischen Leitung und unterscheidet sich je nach Stack:

→Legacy Server (Apache/Nginx): Zugriff erfolgt via SSH direkt im Dateisystem (meist /var/log/).
→Managed Hosting: Download über proprietäre Dashboards (oft eingeschränkt oder rotiert).
→Jamstack / Serverless (Netlify): Moderne Architekturen bieten keinen direkten Server-Zugriff. Hier kommen Log Drains zum Einsatz, die Request-Daten von der Edge an Analyse-Tools leiten. Netlify Logs protokollieren dabei auch Requests, die im Cache (CDN) bedient wurden.

Relevante Datenpunkte

Eine valide Analyse erfordert die Extraktion folgender Parameter pro Zeile:

→Client IP: Identifikation der Herkunft.
→Timestamp: Zeitstempel für Frequenz-Analysen.
→Request Line: Die angeforderte URL.
→Status Code: Die Antwort des Servers (z.B. 200, 301, 404). Eine saubere Status-Code-Verteilung demonstriert der Showroom.
→User-Agent: Die Selbstauskunft des Clients (Bot-Name).

Verifikation der Bot-Echtheit

Der User-Agent-String ist manipulierbar (Spoofing). Echte Suchmaschinen-Bots verifiziert man ausschließlich via Reverse DNS Lookup:

→Auflösung der IP-Adresse zum Hostnamen (muss auf .googlebot.com oder .google.com enden).
→Gegenprüfung (Forward DNS) des Hostnamens zur IP. Nur Datensätze, die diesen Check bestehen, fließen in die Analyse ein.

Erkenntnisgewinn und Metriken

Die Analyse bereinigter Daten liefert Fakten zu folgenden Bereichen:

→Crawl Frequenz: Identifikation von Verzeichnissen mit hoher oder zu niedriger Besuchsfrequenz.
→Orphan Pages: Auffinden von URLs, die gecrawlt werden, aber nicht in der internen Linkstruktur existieren.
→Status Code Fehler: Häufung von 5xx-Fehlern (Serverausfall) oder 404-Fehlern, die Crawl Budget verbrennen.
→Indexierungs-Verzögerung: Messung der Zeitspanne zwischen Veröffentlichung (Deployment) und erstem Bot-Hit.

Tool-Stack für die Auswertung

Die Verarbeitung großer Log-Dateien (Millionen Zeilen) erfordert spezialisierte Software oder CLI-Tools:

→Screaming Frog Log File Analyser: Standard-Software für den Import und die Visualisierung von Log-Dumps.
→Command Line (grep/awk/sed): Die "Old School" Methode zur schnellen Filterung auf Linux-Systemen.
→ELK Stack (Elasticsearch, Logstash, Kibana): Für Enterprise-Umgebungen mit Echtzeit-Monitoring.

Fazit zur Datenhoheit

Die Logfile-Analyse eliminiert Vermutungen. Sie ist die einzige Methode, um technische Barrieren sichtbar zu machen, die dem Bot den Zugriff verwehren. Wer das Crawling nicht misst, steuert die Indexierung im Blindflug.

Weiterführende Artikel

→Crawling und Indexierung – Steuerung der Bot-Zugriffe
→XML-Sitemaps Best Practices – Abgleich von Sitemap und Realität
→Website-Geschwindigkeit – Zusammenhang von Ladezeit und Crawl-Quote

▋

< Zurück zur Magazin-Hauptseite