Über den Autor: Sandra Krone
Sandra Krone ist Partnerin und Gründerin von OLDSCHOOLSEO. Ihre Arbeit beginnt bei der Analyse der Nutzerintention und der Content-Strategie, um daraus die Anforderungen für die redaktionelle und technische Umsetzung abzuleiten.
Mehr über die GründerProfil auf LinkedIn

Die technische Datenbasis für Generative Engine Optimization (GEO)

Definition: Das Verhältnis zwischen klassischer SEO und GEO

Generative Engine Optimization (GEO) stellt keine Substitution der etablierten Suchmaschinenoptimierung dar, sondern eine technologische Erweiterung. Moderne Suchsysteme (beispielsweise Google AI Overviews) integrieren Large Language Models (LLMs) zur Antwortgenerierung. Diese Modelle aggregieren bestehende Informationen, generieren jedoch kein neues Faktenwissen.

Der technische Prozess basiert auf Retrieval-Augmented Generation (RAG). Hierbei wird deutlich, warum klassische technische SEO (Crawlability & Indexing) die zwingende Voraussetzung für die KI-Verarbeitung ist.

Technisches Diagramm: Der RAG-Prozess

Der RAG-Prozess folgt diesem Schema:

→User Query → Nutzer formuliert eine Suchanfrage
→Retrieval Phase (Klassische Tech-SEO) → Such-Index durchsuchen (Crawling & Indexierung)
→Generation Phase (LLM Verarbeitung) → Augmentation mit Strukturdaten & HTML
→Ausgabe → Ohne erfolgreiches Retrieval (Indexierung) keine Generierung (KI-Antwort)

Fazit: Die technische Infrastruktur der Website bildet die notwendige Datenbasis für die generative Ausgabe.

Relevanz von semantischem HTML für die Datenextraktion

LLMs verarbeiten Textdaten basierend auf deren struktureller Anordnung. Damit das Retrieval-System relevante Textsegmente extrahieren und an das LLM übergeben kann, ist eine semantische Strukturierung erforderlich. HTML5 dient hierbei als Ordnungssystem beim Parsing des DOM (Document Object Model).

→Hierarchie: Die logische Gliederung durch Heading-Tags (h1 bis h6) ermöglicht die Identifikation von Themenclustern und Unterthemen.
→Segmentierung: Semantische Tags wie <main>, <article> oder <aside> definieren den Primärinhalt und grenzen diesen von Boilerplate-Elementen (Navigation, Footer) ab.
→Datenstrukturierung: Listen (<ul>, <ol>) und Tabellen (<table>) ermöglichen eine effiziente Extraktion von Faktenwissen, da diese Elemente eine hohe Informationsdichte aufweisen.

Praxis-Vergleich: Code-Semantik

Die Analyse des Quellcodes verdeutlicht den Unterschied in der Maschinenlesbarkeit:

A. Unstrukturierter Code (Div-Soup): Die Relevanzhierarchie ist für Algorithmen nicht eindeutig interpretierbar.

<div class="header"><h1>Unsere Leistungen</h1></div>
<div class="content-wrapper">
  <div class="sidebar">...</div>
  <div class="text-block">
     <div class="bold-text">Dachsanierung</div>
     <span>Wir sanieren Ihr Dach gemäß DIN-Norm.</span>
  </div>
</div>

B. Optimiert für GEO (Semantisches HTML): Die Tags signalisieren explizit die thematische Relevanz und den Kontext.

<header><h1>Unsere Leistungen</h1></header>
<main>
  <article>
     <h2>Dachsanierung</h2>
     <p>Wir sanieren Ihr Dach gemäß DIN-Norm.</p>
  </article>
</main>
<aside>...</aside>

Funktion strukturierter Daten im KI-Kontext

LLMs operieren probabilistisch. Zur fehlerfreien Zuordnung von Fakten ist eine eindeutige Identifikation von Entitäten (Personen, Orte, Produkte) erforderlich. Strukturierte Daten gemäß Schema.org dienen als deterministische Auszeichnungsebene.

Sie ermöglichen die Disambiguierung (Eindeutigmachung):

→Ein Begriff wie „Mars" ist ohne Kontext semantisch mehrdeutig.
→Die Spezifikation Type: Product oder Type: Place im JSON-LD-Code definiert die Entität eindeutig.

Beispiel: Disambiguierung durch JSON-LD

Der folgende Datensatz definiert für das KI-Modell unmissverständlich den geografischen Kontext (Entity Linking):

<script type="application/ld+json">
{
  "@context": "https://schema.org",
  "@type": "LocalBusiness",
  "name": "Müller Bedachungen",
  "description": "Spezialist für Dachsanierung in Stuttgart.",
  "address": {
    "@type": "PostalAddress",
    "addressLocality": "Stuttgart",
    "addressRegion": "BW"
  },
  "areaServed": {
    "@type": "City",
    "name": "Stuttgart"
  }
}
</script>

Für GEO stellen strukturierte Daten eine technische Notwendigkeit dar, um Informationen valide in den Knowledge Graph zu überführen, welcher als primäre Datenquelle für KI-Modelle dient.

Einfluss des Renderings auf die Verarbeitung

Crawler und LLM-Bots unterliegen Ressourcenbeschränkungen hinsichtlich Zeit und Rechenkapazität. Websites mit Fokus auf Client-Side-Rendering (CSR), bei denen Inhalte erst clientseitig via JavaScript generiert werden, weisen eine erhöhte Latenz bei der Verfügbarkeit der Informationen auf.

Sofern der relevante Inhalt nicht im initialen HTTP-Response (Server-Side HTML) enthalten ist, sinkt die Wahrscheinlichkeit einer Aufnahme in den RAG-Prozess.

Architekturen wie Server-Side-Rendering (SSR) oder Jamstack, welche statisches HTML ausliefern, bieten einen systemischen Vorteil, da die Datenbasis unmittelbar für die Algorithmen verfügbar ist.

Token-Ökonomie und Informationsdichte

LLMs verfügen über ein begrenztes „Context Window" (die maximal verarbeitbare Menge an Input-Daten im RAG-Prozess). Die Verarbeitung erfolgt auf Basis von Token.

Für GEO ist die Informationsdichte (Information Gain) relevant:

→Redundante Inhalte und Füllwörter beanspruchen das Token-Budget ohne inhaltlichen Mehrwert.
→Strukturierte Absätze mit direkter Beantwortung der Suchintention („Answer Target") begünstigen die Extraktion.

Technische Optimierung umfasst in diesem Kontext die Reduktion des Quellcodes (Code-to-Text Ratio), um die Effizienz des Crawlings zu maximieren.

Fazit: Datenqualität als technische Prämisse

Die Integration generativer KI in die Suche bestätigt die Relevanz technischer Standards. Die Qualität des KI-Outputs korreliert mit der Qualität des Inputs (der Website-Struktur). Die klassische technische SEO – bestehend aus Indexierbarkeit, semantischem HTML und strukturierten Daten – bildet die notwendige Infrastruktur für generative Suchsysteme.

Integration in die SEO-Strategie

Technische Optimierung bildet die funktionale Grundlage für die Sichtbarkeit in KI-Systemen.

→Crawling und Indexierung: Die Indexierung ist die Voraussetzung für das Retrieval.
→Strukturierte Daten: Technische Implementierung: Implementierung von Schema.org zur Entitäten-Definition.
→Grundlagen der Jamstack Architektur: Vorgerendertes HTML zur Optimierung der Maschinenlesbarkeit.

Lesetipps

→Crawling und Indexierung: Steuerung Bots - Grundlagen der Crawlability für GEO
→Content Strategie für AI Overviews
→Grundlagen der technischen SEO
→Javascript SEO: Rendering Strategien
→Logfile Analyse: Das Crawl-Verhalten verstehen

▋

< Zurück zur Magazin-Hauptseite