Guide April 2026

KI-Crawler Übersicht 2026: Alle AI-Bots, User-Agents und robots.txt Einstellungen

Welche KI-Crawler gibt es, was machen sie, und wie steuert man sie über robots.txt? Diese Übersicht listet alle relevanten AI-Bots — von GPTBot über ClaudeBot bis Yandex — mit User-Agent, Zweck und konkreten Konfigurationsbeispielen.

Wie funktionieren KI-Crawler?

KI-Crawler funktionieren grundsätzlich wie klassische Web-Crawler: Sie besuchen URLs, laden den Inhalt herunter und speichern ihn für die weitere Verarbeitung. Der Unterschied liegt im Zweck — während Googlebot Seiten für den Suchindex aufbereitet, sammeln KI-Crawler Inhalte für zwei verschiedene Ziele:

Training: Die gecrawlten Inhalte fließen in die Trainingsdaten von Sprachmodellen ein. Das passiert in großen Batches, nicht in Echtzeit.
Live-Suche: Bei KI-Suchmaschinen wie Perplexity werden Seiten in Echtzeit gecrawlt um aktuelle Antworten zu liefern.

Alle seriösen KI-Crawler respektieren die robots.txt — allerdings nur wenn sie korrekt konfiguriert ist. Wichtig: KI-Crawler haben in der Regel kürzere Timeouts als Googlebot und reagieren empfindlicher auf technische Fehler.

Wichtig: Wer KI-Crawler blockiert, wird nicht in KI-generierten Antworten zitiert. Wer sie zulässt, riskiert dass seine Inhalte für KI-Training genutzt werden. Die Entscheidung liegt beim Website-Betreiber — robots.txt gibt die volle Kontrolle.

Hochrelevante KI-Crawler

Diese Crawler haben den größten Einfluss auf die KI-Sichtbarkeit einer Website:

GPTBot Hoch

OpenAI — ChatGPT

Crawlt für Training und Browsing-Funktion von ChatGPT. Einer der wichtigsten KI-Crawler überhaupt — ChatGPT hat über 100 Mio. aktive Nutzer.

User-Agent:

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)

ClaudeBot Hoch

Anthropic — Claude

Crawler von Anthropic für Claude. Analysiert Webinhalte für Kontext und Antwortgenerierung. Anthropic unterstützt aktiv den llms.txt Standard.

User-Agent:

ClaudeBot/1.0; +https://anthropic.com/claudebot

PerplexityBot Hoch

Perplexity AI

Crawlt für die Echtzeit-Suche von Perplexity. Spezialisiert auf faktenbasierte Antworten mit Quellenangaben. Liest llms.txt aktiv aus.

User-Agent:

PerplexityBot/1.0; +https://perplexity.ai/perplexitybot

Google-Extended Hoch

Google — Gemini & AI Overviews

Gesonderter Crawler für Google Gemini und AI Overviews. Kann separat von Googlebot in robots.txt gesteuert werden.

User-Agent:

Google-Extended

OAI-SearchBot Hoch

OpenAI — Search

Neuerer Crawler von OpenAI speziell für die Echtzeit-Suchfunktion in ChatGPT. Ergänzt GPTBot für Live-Suchanfragen.

User-Agent:

OAI-SearchBot/1.0; +https://openai.com/searchbot

Meta-ExternalAgent Hoch

Meta — Llama & Meta AI

Crawler von Meta für die Meta AI Produkte (Facebook, Instagram, WhatsApp AI) und das Llama Modell-Training.

User-Agent:

Meta-ExternalAgent/1.1; +https://llama.meta.com/llama-web-access/

Weitere KI-Crawler

Diese Crawler haben wachsende Relevanz und sollten nicht ignoriert werden:

Applebot-Extended Mittel

Apple — Apple Intelligence

Crawler für Apple Intelligence und Siri. Mit iOS 18 und macOS Sequoia deutlich relevanter geworden. Kann separat von normalem Applebot gesteuert werden.

User-Agent:

Applebot-Extended/1.0; +https://support.apple.com/en-us/111900

Amazonbot Mittel

Amazon — Alexa & AWS AI

Crawler von Amazon für Alexa und Amazon AI Dienste. Sammelt Daten für Sprachassistenten und AWS KI-Produkte.

User-Agent:

Amazonbot/0.1; +https://developer.amazon.com/amazonbot

YouBot Mittel

You.com

Crawler für die KI-Suchmaschine You.com — eine direkte Perplexity-Alternative mit wachsender Nutzerbasis.

User-Agent:

YouBot; +https://about.you.com/youbot/

Bytespider Mittel

ByteDance — TikTok

Crawler von ByteDance (TikTok-Mutterkonzern) für KI-Produkte. Besonders relevant in asiatischen Märkten und durch TikTok-Reichweite.

User-Agent:

Bytespider; +https://zhanzhang.toutiao.com/

cohere-ai Mittel

Cohere

Crawler von Cohere — einem der führenden B2B KI-Anbieter. Besonders relevant für Unternehmen die Cohere Enterprise-Produkte nutzen.

User-Agent:

cohere-ai/1.0

ImagesiftBot Mittel

Microsoft — Bing AI / Copilot

Ergänzender Crawler von Microsoft für Bing AI und Copilot. Arbeitet zusammen mit dem normalen Bingbot.

User-Agent:

ImagesiftBot; +https://www.microsoft.com/en-us/bing/imagesiftbot

Klassische Suchmaschinen-Crawler

Diese Crawler sind primär für klassische Suche zuständig, aber zunehmend auch für KI-Funktionen relevant:

Googlebot Sehr hoch

Google

Der wichtigste Crawler überhaupt — für Google Search und als Grundlage für viele KI-Funktionen. Separate Steuerung via Google-Extended für KI-spezifische Nutzung.

User-Agent:

Googlebot/2.1; +http://www.google.com/bot.html

Bingbot Hoch

Microsoft — Bing & Copilot

Crawler für Bing Search und Microsoft Copilot. Durch die GPT-4 Integration in Copilot sehr relevant für KI-Sichtbarkeit.

User-Agent:

Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)

YandexBot Mittel

Yandex

Russische Suchmaschine mit eigenen KI-Produkten (YandexGPT, Alice). Relevant für russischsprachige Märkte und osteuropäische Zielgruppen.

User-Agent:

Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)

YandexGPT Mittel

Yandex — YandexGPT

Separater Crawler von Yandex speziell für YandexGPT. Kann unabhängig von YandexBot gesteuert werden.

User-Agent:

YandexGPT/1.0

DuckDuckBot Gering

DuckDuckGo

Crawler für DuckDuckGo. Die Suchmaschine nutzt teilweise Bing-Ergebnisse, hat aber eigene KI-Funktionen (DuckAssist).

User-Agent:

DuckDuckBot/1.0; (+http://duckduckgo.com/duckduckbot.html)

Baiduspider Gering (DE)

Baidu

Chinesische Suchmaschine mit eigenen KI-Produkten (ERNIE Bot). Nur relevant für Websites mit chinesischer Zielgruppe.

User-Agent:

Baiduspider/2.0; +http://www.baidu.com/search/spider.html

Vollständige Referenztabelle

Crawler	Betreiber	robots.txt Name	Typ	Relevanz (DE)
GPTBot	OpenAI	`GPTBot`	Training + Live	⭐⭐⭐⭐⭐
OAI-SearchBot	OpenAI	`OAI-SearchBot`	Live-Suche	⭐⭐⭐⭐⭐
ClaudeBot	Anthropic	`ClaudeBot`	Training + Live	⭐⭐⭐⭐⭐
PerplexityBot	Perplexity AI	`PerplexityBot`	Live-Suche	⭐⭐⭐⭐⭐
Google-Extended	Google	`Google-Extended`	Training + Live	⭐⭐⭐⭐⭐
Googlebot	Google	`Googlebot`	Suche + KI-Basis	⭐⭐⭐⭐⭐
Meta-ExternalAgent	Meta	`Meta-ExternalAgent`	Training + Live	⭐⭐⭐⭐
Bingbot	Microsoft	`bingbot`	Suche + Copilot	⭐⭐⭐⭐
Applebot-Extended	Apple	`Applebot-Extended`	Training + Live	⭐⭐⭐⭐
Amazonbot	Amazon	`Amazonbot`	Training	⭐⭐⭐
YouBot	You.com	`YouBot`	Live-Suche	⭐⭐⭐
Bytespider	ByteDance	`Bytespider`	Training	⭐⭐⭐
cohere-ai	Cohere	`cohere-ai`	Training	⭐⭐⭐
YandexBot	Yandex	`YandexBot`	Suche + KI	⭐⭐
YandexGPT	Yandex	`YandexGPT`	Training + Live	⭐⭐
DuckDuckBot	DuckDuckGo	`DuckDuckBot`	Suche	⭐⭐
Baiduspider	Baidu	`Baiduspider`	Suche + KI	⭐

robots.txt Konfiguration

Die robots.txt ermöglicht granulare Steuerung — jeder Crawler kann einzeln erlaubt oder blockiert werden.

Alle KI-Crawler erlauben (empfohlen)

# Alle Bots erlauben
User-agent: *
Allow: /

# KI-Crawler explizit erlauben (empfohlen zur Sicherheit)
User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: Meta-ExternalAgent
Allow: /

Sitemap: https://deinedomain.de/sitemap.xml
LLMs: https://deinedomain.de/llms.txt

Training blockieren, Live-Suche erlauben

Wer nicht möchte dass seine Inhalte für KI-Training genutzt werden, aber trotzdem in Live-Suchergebnissen erscheinen möchte:

# Training blockieren
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

# Live-Suche weiterhin erlauben
User-agent: OAI-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

Alle KI-Crawler blockieren

User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: Amazonbot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: cohere-ai
Disallow: /

# Klassische Suchmaschinen weiterhin erlauben
User-agent: *
Allow: /

Achtung: Wer alle KI-Crawler blockiert, wird nicht in KI-generierten Antworten erscheinen — auch nicht bei Perplexity, ChatGPT oder Claude. Das kann mittelfristig zu einem erheblichen Sichtbarkeitsverlust führen.

Empfehlung

Für die meisten Websites gilt: Alle KI-Crawler erlauben und zusätzlich eine llms.txt erstellen. Das maximiert die KI-Sichtbarkeit und gibt den Crawlern den nötigen Kontext für korrekte Antworten.

Wer Bedenken wegen Training-Daten hat, kann gezielt nur die Training-Crawler blockieren und die Live-Such-Crawler (PerplexityBot, OAI-SearchBot) weiterhin erlauben.

Alle KI-Crawler richtig konfiguriert?

Prüfe mit dem AI-Ready Check kostenlos ob deine robots.txt korrekt konfiguriert ist und alle relevanten KI-Crawler Zugriff haben.

Jetzt kostenlos prüfen →

Weitere Guides

Häufige Fragen zu KI-Crawlern

Muss ich jeden KI-Crawler einzeln in robots.txt angeben? +

Nein — User-agent: * mit Allow: / erlaubt alle Crawler auf einmal. Die explizite Auflistung einzelner KI-Crawler empfiehlt sich nur wenn du bestimmte Crawler gezielt blockieren oder separate Regeln setzen möchtest.

Halten sich alle KI-Crawler an robots.txt? +

Alle seriösen KI-Crawler der großen Anbieter (OpenAI, Anthropic, Google, Meta etc.) respektieren robots.txt. Es gibt jedoch auch weniger seriöse Bots die robots.txt ignorieren — gegen diese hilft nur serverseitiges Blocking per IP oder User-Agent.

Was passiert wenn ich GPTBot blockiere? +

Deine Website wird nicht mehr in ChatGPT-Trainingsdaten aufgenommen und ChatGPT kann deine aktuellen Inhalte nicht mehr für Antworten nutzen. Du verlierst damit potenziell Sichtbarkeit in einer der meistgenutzten KI-Plattformen weltweit.

Wie erkenne ich ob ein KI-Crawler meine Website besucht? +

In den Server-Logfiles — dort ist der User-Agent jedes Besuchers eingetragen. Mit Tools wie GoAccess oder AWStats lassen sich Logs auswerten und nach bestimmten User-Agents filtern.

Kann ich Crawling auf bestimmte Verzeichnisse beschränken? +

Ja — mit Allow und Disallow Regeln lässt sich granular steuern welche Bereiche ein Crawler besuchen darf. Zum Beispiel: KI-Training nur auf Blog-Posts erlauben, aber nicht auf Produkt- oder Preisseiten.