Logfile-Analyse: Das Crawl-Verhalten von Suchmaschinen verstehen
Definition der Logfile-Analyse
Die Logfile-Analyse ist das forensische Audit der Server-Zugriffsprotokolle. Im Gegensatz zu den gesampelten Daten der Google Search Console (GSC) liefert das Server-Log eine lückenlose Aufzeichnung jeder Anfrage. Im Fokus steht die Identifikation des tatsächlichen Verhaltens von Suchmaschinen-Bots (Googlebot, Bingbot) zur Optimierung des Crawl-Budgets.
Zugriff auf Logdaten nach Hosting-Typ
Die Verfügbarkeit der Rohdaten korreliert mit der gewählten Infrastruktur. Die Extraktion der Daten obliegt der technischen Leitung und unterscheidet sich je nach Stack:
- →Legacy Server (Apache/Nginx): Zugriff erfolgt via SSH direkt im Dateisystem (meist
/var/log/). - →Managed Hosting: Download über proprietäre Dashboards (oft eingeschränkt oder rotiert).
- →Jamstack / Serverless (Netlify): Moderne Architekturen bieten keinen direkten Server-Zugriff. Hier kommen Log Drains zum Einsatz, die Request-Daten von der Edge an Analyse-Tools leiten. Netlify Logs protokollieren dabei auch Requests, die im Cache (CDN) bedient wurden.
Relevante Datenpunkte
Eine valide Analyse erfordert die Extraktion folgender Parameter pro Zeile:
- →Client IP: Identifikation der Herkunft.
- →Timestamp: Zeitstempel für Frequenz-Analysen.
- →Request Line: Die angeforderte URL.
- →Status Code: Die Antwort des Servers (z.B. 200, 301, 404). Eine saubere Status-Code-Verteilung demonstriert der Showroom.
- →User-Agent: Die Selbstauskunft des Clients (Bot-Name).
Verifikation der Bot-Echtheit
Der User-Agent-String ist manipulierbar (Spoofing). Echte Suchmaschinen-Bots verifiziert man ausschließlich via Reverse DNS Lookup:
- →Auflösung der IP-Adresse zum Hostnamen (muss auf
.googlebot.comoder.google.comenden). - →Gegenprüfung (Forward DNS) des Hostnamens zur IP. Nur Datensätze, die diesen Check bestehen, fließen in die Analyse ein.
Erkenntnisgewinn und Metriken
Die Analyse bereinigter Daten liefert Fakten zu folgenden Bereichen:
- →Crawl Frequenz: Identifikation von Verzeichnissen mit hoher oder zu niedriger Besuchsfrequenz.
- →Orphan Pages: Auffinden von URLs, die gecrawlt werden, aber nicht in der internen Linkstruktur existieren.
- →Status Code Fehler: Häufung von 5xx-Fehlern (Serverausfall) oder 404-Fehlern, die Crawl Budget verbrennen.
- →Indexierungs-Verzögerung: Messung der Zeitspanne zwischen Veröffentlichung (Deployment) und erstem Bot-Hit.
Tool-Stack für die Auswertung
Die Verarbeitung großer Log-Dateien (Millionen Zeilen) erfordert spezialisierte Software oder CLI-Tools:
- →Screaming Frog Log File Analyser: Standard-Software für den Import und die Visualisierung von Log-Dumps.
- →Command Line (grep/awk/sed): Die "Old School" Methode zur schnellen Filterung auf Linux-Systemen.
- →ELK Stack (Elasticsearch, Logstash, Kibana): Für Enterprise-Umgebungen mit Echtzeit-Monitoring.
Fazit zur Datenhoheit
Die Logfile-Analyse eliminiert Vermutungen. Sie ist die einzige Methode, um technische Barrieren sichtbar zu machen, die dem Bot den Zugriff verwehren. Wer das Crawling nicht misst, steuert die Indexierung im Blindflug.
Weiterführende Artikel
- →Crawling und Indexierung – Steuerung der Bot-Zugriffe
- →XML-Sitemaps Best Practices – Abgleich von Sitemap und Realität
- →Website-Geschwindigkeit – Zusammenhang von Ladezeit und Crawl-Quote
