Über den Autor: Michael KienzlerMichael Kienzler ist Partner und Gründer von OLDSCHOOLSEO. Seine Arbeit beginnt bei der Analyse der technischen Architektur und der Daten, um daraus die Potenziale für die redaktionelle und strategische Weiterentwicklung abzuleiten.
Mehr über die GründerProfil auf LinkedIn

Crawling und Indexierung: Steuerung von Suchmaschinen-Bots

Was ist der Unterschied zwischen Crawling und Indexierung?

Antwort:

→Crawling ist der Prozess, bei dem Suchmaschinen-Bots (z.B. der Googlebot) das Internet durchsuchen, um neue und aktualisierte Inhalte zu finden. Die Bots folgen dabei Links von bereits bekannten Seiten zu neuen Seiten.
→Indexierung ist der nachfolgende Prozess, bei dem die gecrawlten Inhalte analysiert und in einer Datenbank, dem Suchindex, gespeichert werden. Nur indexierte Inhalte können in den Suchergebnissen erscheinen.

Wie funktioniert die Steuerung des Crawlings über die `robots.txt`-Datei?

Antwort: Die robots.txt ist eine Textdatei im Hauptverzeichnis einer Domain, die Suchmaschinen-Bots Anweisungen gibt, welche Bereiche einer Website nicht gecrawlt werden dürfen.

→User-agent: Definiert, für welchen Bot eine Regel gilt (z.B. Googlebot).
→Disallow: Verbietet den Zugriff auf einen Pfad (z.B. /warenkorb/).
→Allow: Erlaubt explizit den Zugriff, um Ausnahmen zu definieren. Die robots.txt verhindert nicht die Indexierung einer URL, wenn diese von extern verlinkt ist, sondern nur das Crawling des Inhalts.

Wie wird die Indexierung auf Seitenebene gesteuert?

Antwort: Die Steuerung der Indexierung erfolgt primär über das Robots-Meta-Tag im <head>-Bereich einer HTML-Seite oder über den X-Robots-Tag im HTTP-Header. Die wichtigsten Anweisungen sind:

→index / noindex: Weist den Bot an, die Seite zu indexieren oder aus dem Index auszuschließen. noindex ist das primäre Mittel, um irrelevante Seiten aus dem Index fernzuhalten.
→follow / nofollow: Weist den Bot an, den Links auf der Seite zu folgen oder nicht.

Welche Rolle spielt der Canonical Tag bei der Indexierungssteuerung?

Antwort: Der Canonical Tag (rel="canonical") ist ein HTML-Element, das Suchmaschinen bei Seiten mit sehr ähnlichem oder identischem Inhalt mitteilt, welche URL die bevorzugte (kanonische) Version ist, die indexiert werden soll. Er wird eingesetzt, um Duplicate-Content-Probleme zu lösen, die z.B. durch URL-Parameter entstehen. Im Gegensatz zu einer 301-Weiterleitung, die den Nutzer physisch umleitet, ist der Canonical Tag nur ein Hinweis für Suchmaschinen. Er konsolidiert Ranking-Signale (wie Links) auf die bevorzugte URL.

Welche Funktion hat eine XML-Sitemap?

Antwort: Eine XML-Sitemap ist eine Datei, die alle für die Indexierung relevanten URLs einer Website auflistet. Sie dient den Suchmaschinen als "Wegweiser" und hilft ihnen, alle wichtigen Inhalte zu entdecken. Eine Sitemap garantiert keine Indexierung, aber sie erleichtert und beschleunigt den Entdeckungsprozess. Sie wird typischerweise in der robots.txt referenziert und in der Google Search Console eingereicht.

Was passiert beim Crawling von JavaScript-lastigen Websites?

Antwort: Bei Websites, die stark auf JavaScript zur Darstellung von Inhalten angewiesen sind, führt der Googlebot einen zweistufigen Prozess durch. Zuerst crawlt er das initiale HTML. Die vollständige Darstellung (das "Rendern") des JavaScripts erfolgt in einer zweiten Welle, oft Stunden oder Tage später in der sogenannten Rendering-Warteschlange. Dies kann zu Verzögerungen bei der Indexierung von Inhalten führen. Die Analyse des gerenderten HTML (z.B. mit dem URL-Prüftool der Google Search Console) ist daher entscheidend, um sicherzustellen, dass alle wichtigen Inhalte für Google sichtbar sind.

Was ist das Crawl-Budget und wie wird es optimiert?

Antwort: Das Crawl-Budget ist die Anzahl der URLs, die ein Suchmaschinen-Bot auf einer Website innerhalb eines bestimmten Zeitraums crawlen kann und will. Für große Websites ist es ein limitierender Faktor. Die Optimierung zielt darauf ab, dass die Bots ihre Zeit auf die wichtigsten Seiten konzentrieren. Maßnahmen umfassen das Blockieren irrelevanter Bereiche via robots.txt, die korrekte Verwendung von noindex und Canonical Tags, die Verbesserung der Ladezeit und die Pflege der internen Verlinkung.

Was ist die Schlussfolgerung für eine technische SEO-Strategie?

Antwort: Eine effektive Steuerung von Crawling und Indexierung ist die Grundlage technischer SEO-Arbeit. Ziel ist es, den Suchmaschinen-Bots den Weg zu den qualitativ hochwertigen Inhalten zu erleichtern und sie von irrelevanten oder doppelten Inhalten fernzuhalten. Eine saubere Konfiguration von robots.txt, Meta-Tags, Canonical Tags und XML-Sitemaps stellt sicher, dass das Crawl-Budget effizient genutzt und nur der gewünschte Content indexiert wird.

Integration in die technische SEO-Strategie

Die Steuerung von Bots ist die grundlegende Kommunikation zwischen einer Website und den Suchmaschinen.

→Core Web Vitals: Ladezeit und Nutzererfahrung - Eine gute Performance bei den Core Web Vitals verbessert die Server-Antwortzeiten und ermöglicht eine effizientere Nutzung des Crawl-Budgets.
→Umgang mit Duplicate Content - Die noindex-Anweisung und der Canonical Tag sind die primären Werkzeuge zur Vermeidung von Duplicate-Content-Problemen.
→Grundlagen der Jamstack-Architektur - Architekturen, die auf vorgerendertem HTML basieren, können den zweistufigen Rendering-Prozess umgehen und die Indexierung beschleunigen.

▋

< Zurück zur Magazin-Hauptseite

Über den Autor: Michael Kienzler