Guide April 2026

KI-Crawler Übersicht 2026: Alle AI-Bots, User-Agents und robots.txt Einstellungen

Welche KI-Crawler gibt es, was machen sie, und wie steuert man sie über robots.txt? Diese Übersicht listet alle relevanten AI-Bots – von GPTBot über ClaudeBot bis Yandex – mit User-Agent, Zweck und konkreten Konfigurationsbeispielen.

Wie funktionieren KI-Crawler?

KI-Crawler funktionieren grundsätzlich wie klassische Web-Crawler: Sie besuchen URLs, laden den Inhalt herunter und speichern ihn für die weitere Verarbeitung. Der Unterschied liegt im Zweck – während Googlebot Seiten für den Suchindex aufbereitet, sammeln KI-Crawler Inhalte für zwei verschiedene Ziele:

Training: Die gecrawlten Inhalte fließen in die Trainingsdaten von Sprachmodellen ein. Das passiert in großen Batches, nicht in Echtzeit.
Live-Suche: Bei KI-Suchmaschinen wie Perplexity werden Seiten in Echtzeit gecrawlt um aktuelle Antworten zu liefern.

Alle seriösen KI-Crawler respektieren die robots.txt – allerdings nur wenn sie korrekt konfiguriert ist. Wichtig: KI-Crawler haben in der Regel kürzere Timeouts als Googlebot und reagieren empfindlicher auf technische Fehler.

Wichtig: Wer KI-Crawler blockiert, wird nicht in KI-generierten Antworten zitiert. Wer sie zulässt, riskiert dass seine Inhalte für KI-Training genutzt werden. Die Entscheidung liegt beim Website-Betreiber – robots.txt gibt die volle Kontrolle.

Hochrelevante KI-Crawler

Diese Crawler haben den größten Einfluss auf die KI-Sichtbarkeit einer Website:

GPTBotHoch

OpenAI – ChatGPT

Crawlt für Training und Browsing-Funktion von ChatGPT. Einer der wichtigsten KI-Crawler – ChatGPT hat über 100 Mio. aktive Nutzer.

User-Agent:

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)

ClaudeBotHoch

Anthropic – Claude

Crawler von Anthropic für Claude. Analysiert Webinhalte für Kontext und Antwortgenerierung. Anthropic hat eine eigene llms.txt auf anthropic.com.

User-Agent:

ClaudeBot/1.0; +https://anthropic.com/claudebot

PerplexityBotHoch

Perplexity AI

Crawlt für die Echtzeit-Suche von Perplexity. Spezialisiert auf faktenbasierte Antworten mit Quellenangaben.

User-Agent:

PerplexityBot/1.0; +https://perplexity.ai/perplexitybot

Google-ExtendedHoch

Google – Gemini & AI Overviews

Gesonderter Crawler für Google Gemini und AI Overviews. Kann separat von Googlebot in robots.txt gesteuert werden.

User-Agent:

Google-Extended

OAI-SearchBotHoch

OpenAI – Search

Neuerer Crawler von OpenAI speziell für die Echtzeit-Suchfunktion in ChatGPT. Ergänzt GPTBot für Live-Suchanfragen.

User-Agent:

OAI-SearchBot/1.0; +https://openai.com/searchbot

Meta-ExternalAgentHoch

Meta – Llama & Meta AI

Crawler von Meta für die Meta AI Produkte (Facebook, Instagram, WhatsApp AI) und das Llama Modell-Training.

User-Agent:

Meta-ExternalAgent/1.1; +https://llama.meta.com/llama-web-access/

Weitere KI-Crawler

Diese Crawler haben wachsende Relevanz und sollten nicht ignoriert werden:

Applebot-ExtendedMittel

Apple – Apple Intelligence

Crawler für Apple Intelligence und Siri. Mit iOS 18 und macOS Sequoia deutlich relevanter geworden.

User-Agent:

Applebot-Extended/1.0; +https://support.apple.com/en-us/111900

AmazonbotMittel

Amazon – Alexa & AWS AI

Crawler von Amazon für Alexa und Amazon AI Dienste.

User-Agent:

Amazonbot/0.1; +https://developer.amazon.com/amazonbot

YouBotMittel

You.com

Crawler für die KI-Suchmaschine You.com – eine direkte Perplexity-Alternative mit wachsender Nutzerbasis.

User-Agent:

YouBot; +https://about.you.com/youbot/

BytespiderMittel

ByteDance – TikTok

Crawler von ByteDance für KI-Produkte. Besonders relevant in asiatischen Märkten.

User-Agent:

Bytespider; +https://zhanzhang.toutiao.com/

cohere-aiMittel

Cohere

Crawler von Cohere – einem der führenden B2B KI-Anbieter.

User-Agent:

cohere-ai/1.0

ImagesiftBotMittel

Microsoft – Bing AI / Copilot

Ergänzender Crawler von Microsoft für Bing AI und Copilot.

User-Agent:

ImagesiftBot; +https://www.microsoft.com/en-us/bing/imagesiftbot

Klassische Suchmaschinen-Crawler

Diese Crawler sind primär für klassische Suche zuständig, aber zunehmend auch für KI-Funktionen relevant:

GooglebotSehr hoch

Google

Der wichtigste Crawler – für Google Search und als Grundlage für viele KI-Funktionen.

User-Agent:

Googlebot/2.1; +http://www.google.com/bot.html

BingbotHoch

Microsoft – Bing & Copilot

Crawler für Bing Search und Microsoft Copilot.

User-Agent:

Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)

YandexBotMittel

Yandex

Russische Suchmaschine mit eigenen KI-Produkten. Relevant für russischsprachige Märkte.

User-Agent:

Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)

DuckDuckBotGering

DuckDuckGo

Crawler für DuckDuckGo mit eigenen KI-Funktionen (DuckAssist).

User-Agent:

DuckDuckBot/1.0; (+http://duckduckgo.com/duckduckbot.html)

Vollständige Referenztabelle

Crawler	Betreiber	robots.txt Name	Typ	Relevanz (DE)
GPTBot	OpenAI	`GPTBot`	Training + Live	⭐⭐⭐⭐⭐
OAI-SearchBot	OpenAI	`OAI-SearchBot`	Live-Suche	⭐⭐⭐⭐⭐
ClaudeBot	Anthropic	`ClaudeBot`	Training + Live	⭐⭐⭐⭐⭐
PerplexityBot	Perplexity AI	`PerplexityBot`	Live-Suche	⭐⭐⭐⭐⭐
Google-Extended	Google	`Google-Extended`	Training + Live	⭐⭐⭐⭐⭐
Googlebot	Google	`Googlebot`	Suche + KI-Basis	⭐⭐⭐⭐⭐
Meta-ExternalAgent	Meta	`Meta-ExternalAgent`	Training + Live	⭐⭐⭐⭐
Bingbot	Microsoft	`bingbot`	Suche + Copilot	⭐⭐⭐⭐
Applebot-Extended	Apple	`Applebot-Extended`	Training + Live	⭐⭐⭐⭐
Amazonbot	Amazon	`Amazonbot`	Training	⭐⭐⭐
YouBot	You.com	`YouBot`	Live-Suche	⭐⭐⭐
Bytespider	ByteDance	`Bytespider`	Training	⭐⭐⭐
cohere-ai	Cohere	`cohere-ai`	Training	⭐⭐⭐
YandexBot	Yandex	`YandexBot`	Suche + KI	⭐⭐
DuckDuckBot	DuckDuckGo	`DuckDuckBot`	Suche	⭐⭐

robots.txt Konfiguration

Die robots.txt ermöglicht granulare Steuerung – jeder Crawler kann einzeln erlaubt oder blockiert werden.

Alle KI-Crawler erlauben (empfohlen)

# Alle Bots erlauben
User-agent: *
Allow: /

# KI-Crawler explizit erlauben (empfohlen zur Sicherheit)
User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: Meta-ExternalAgent
Allow: /

Sitemap: https://deinedomain.de/sitemap.xml

Training blockieren, Live-Suche erlauben

# Training blockieren
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

# Live-Suche weiterhin erlauben
User-agent: OAI-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

Achtung: Wer alle KI-Crawler blockiert, wird nicht in KI-generierten Antworten erscheinen – auch nicht bei Perplexity, ChatGPT oder Claude. Das kann mittelfristig zu einem erheblichen Sichtbarkeitsverlust führen.

Empfehlung

Für die meisten Websites gilt: Alle KI-Crawler erlauben und zusätzlich eine llms.txt erstellen – als optionalen Schritt wenn die technischen Grundlagen bereits stimmen.

Wer Bedenken wegen Training-Daten hat, kann gezielt nur die Training-Crawler blockieren und die Live-Such-Crawler (PerplexityBot, OAI-SearchBot) weiterhin erlauben.

Alle KI-Crawler richtig konfiguriert?

Prüfe mit dem AI-Ready Check kostenlos ob deine robots.txt korrekt konfiguriert ist und alle relevanten KI-Crawler Zugriff haben.

Jetzt kostenlos prüfen →

Weitere Guides

Häufige Fragen zu KI-Crawlern

Muss ich jeden KI-Crawler einzeln in robots.txt angeben? +

Nein – User-agent: * mit Allow: / erlaubt alle Crawler auf einmal. Die explizite Auflistung einzelner KI-Crawler empfiehlt sich nur wenn du bestimmte Crawler gezielt blockieren oder separate Regeln setzen möchtest.

Halten sich alle KI-Crawler an robots.txt? +

Alle seriösen KI-Crawler der großen Anbieter respektieren robots.txt. Es gibt jedoch auch weniger seriöse Bots die robots.txt ignorieren – gegen diese hilft nur serverseitiges Blocking per IP oder User-Agent.

Was passiert wenn ich GPTBot blockiere? +

Deine Website wird nicht mehr in ChatGPT-Trainingsdaten aufgenommen und ChatGPT kann deine aktuellen Inhalte nicht mehr für Antworten nutzen. Du verlierst damit potenziell Sichtbarkeit bei einer der meistgenutzten KI-Plattformen.

Wie erkenne ich ob ein KI-Crawler meine Website besucht? +

In den Server-Logfiles – dort ist der User-Agent jedes Besuchers eingetragen. Mit Tools wie GoAccess oder AWStats lassen sich Logs auswerten und nach bestimmten User-Agents filtern.

Kann ich Crawling auf bestimmte Verzeichnisse beschränken? +

Ja – mit Allow und Disallow Regeln lässt sich granular steuern welche Bereiche ein Crawler besuchen darf. Zum Beispiel: KI-Training nur auf Blog-Posts erlauben, aber nicht auf Produkt- oder Preisseiten.