KI-Crawler Übersicht 2026: Alle AI-Bots, User-Agents und robots.txt Einstellungen

Welche KI-Crawler gibt es, was machen sie, und wie steuert man sie über robots.txt? Diese Übersicht listet alle relevanten AI-Bots – von GPTBot über ClaudeBot bis Yandex – mit User-Agent, Zweck und konkreten Konfigurationsbeispielen.

Wie funktionieren KI-Crawler?

KI-Crawler funktionieren grundsätzlich wie klassische Web-Crawler: Sie besuchen URLs, laden den Inhalt herunter und speichern ihn für die weitere Verarbeitung. Der Unterschied liegt im Zweck – während Googlebot Seiten für den Suchindex aufbereitet, sammeln KI-Crawler Inhalte für zwei verschiedene Ziele:

  • Training: Die gecrawlten Inhalte fließen in die Trainingsdaten von Sprachmodellen ein. Das passiert in großen Batches, nicht in Echtzeit.
  • Live-Suche: Bei KI-Suchmaschinen wie Perplexity werden Seiten in Echtzeit gecrawlt um aktuelle Antworten zu liefern.

Alle seriösen KI-Crawler respektieren die robots.txt – allerdings nur wenn sie korrekt konfiguriert ist. Wichtig: KI-Crawler haben in der Regel kürzere Timeouts als Googlebot und reagieren empfindlicher auf technische Fehler.

Wichtig: Wer KI-Crawler blockiert, wird nicht in KI-generierten Antworten zitiert. Wer sie zulässt, riskiert dass seine Inhalte für KI-Training genutzt werden. Die Entscheidung liegt beim Website-Betreiber – robots.txt gibt die volle Kontrolle.

Hochrelevante KI-Crawler

Diese Crawler haben den größten Einfluss auf die KI-Sichtbarkeit einer Website:

GPTBotHoch
OpenAI – ChatGPT
Crawlt für Training und Browsing-Funktion von ChatGPT. Einer der wichtigsten KI-Crawler – ChatGPT hat über 100 Mio. aktive Nutzer.
User-Agent:
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)
ClaudeBotHoch
Anthropic – Claude
Crawler von Anthropic für Claude. Analysiert Webinhalte für Kontext und Antwortgenerierung. Anthropic hat eine eigene llms.txt auf anthropic.com.
User-Agent:
ClaudeBot/1.0; +https://anthropic.com/claudebot
PerplexityBotHoch
Perplexity AI
Crawlt für die Echtzeit-Suche von Perplexity. Spezialisiert auf faktenbasierte Antworten mit Quellenangaben.
User-Agent:
PerplexityBot/1.0; +https://perplexity.ai/perplexitybot
Google-ExtendedHoch
Google – Gemini & AI Overviews
Gesonderter Crawler für Google Gemini und AI Overviews. Kann separat von Googlebot in robots.txt gesteuert werden.
User-Agent:
Google-Extended
OAI-SearchBotHoch
OpenAI – Search
Neuerer Crawler von OpenAI speziell für die Echtzeit-Suchfunktion in ChatGPT. Ergänzt GPTBot für Live-Suchanfragen.
User-Agent:
OAI-SearchBot/1.0; +https://openai.com/searchbot
Meta-ExternalAgentHoch
Meta – Llama & Meta AI
Crawler von Meta für die Meta AI Produkte (Facebook, Instagram, WhatsApp AI) und das Llama Modell-Training.
User-Agent:
Meta-ExternalAgent/1.1; +https://llama.meta.com/llama-web-access/

Weitere KI-Crawler

Diese Crawler haben wachsende Relevanz und sollten nicht ignoriert werden:

Applebot-ExtendedMittel
Apple – Apple Intelligence
Crawler für Apple Intelligence und Siri. Mit iOS 18 und macOS Sequoia deutlich relevanter geworden.
User-Agent:
Applebot-Extended/1.0; +https://support.apple.com/en-us/111900
AmazonbotMittel
Amazon – Alexa & AWS AI
Crawler von Amazon für Alexa und Amazon AI Dienste.
User-Agent:
Amazonbot/0.1; +https://developer.amazon.com/amazonbot
YouBotMittel
You.com
Crawler für die KI-Suchmaschine You.com – eine direkte Perplexity-Alternative mit wachsender Nutzerbasis.
User-Agent:
YouBot; +https://about.you.com/youbot/
BytespiderMittel
ByteDance – TikTok
Crawler von ByteDance für KI-Produkte. Besonders relevant in asiatischen Märkten.
User-Agent:
Bytespider; +https://zhanzhang.toutiao.com/
cohere-aiMittel
Cohere
Crawler von Cohere – einem der führenden B2B KI-Anbieter.
User-Agent:
cohere-ai/1.0
ImagesiftBotMittel
Microsoft – Bing AI / Copilot
Ergänzender Crawler von Microsoft für Bing AI und Copilot.
User-Agent:
ImagesiftBot; +https://www.microsoft.com/en-us/bing/imagesiftbot

Klassische Suchmaschinen-Crawler

Diese Crawler sind primär für klassische Suche zuständig, aber zunehmend auch für KI-Funktionen relevant:

GooglebotSehr hoch
Google
Der wichtigste Crawler – für Google Search und als Grundlage für viele KI-Funktionen.
User-Agent:
Googlebot/2.1; +http://www.google.com/bot.html
BingbotHoch
Microsoft – Bing & Copilot
Crawler für Bing Search und Microsoft Copilot.
User-Agent:
Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
YandexBotMittel
Yandex
Russische Suchmaschine mit eigenen KI-Produkten. Relevant für russischsprachige Märkte.
User-Agent:
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
DuckDuckBotGering
DuckDuckGo
Crawler für DuckDuckGo mit eigenen KI-Funktionen (DuckAssist).
User-Agent:
DuckDuckBot/1.0; (+http://duckduckgo.com/duckduckbot.html)

Vollständige Referenztabelle

CrawlerBetreiberrobots.txt NameTypRelevanz (DE)
GPTBotOpenAIGPTBotTraining + Live⭐⭐⭐⭐⭐
OAI-SearchBotOpenAIOAI-SearchBotLive-Suche⭐⭐⭐⭐⭐
ClaudeBotAnthropicClaudeBotTraining + Live⭐⭐⭐⭐⭐
PerplexityBotPerplexity AIPerplexityBotLive-Suche⭐⭐⭐⭐⭐
Google-ExtendedGoogleGoogle-ExtendedTraining + Live⭐⭐⭐⭐⭐
GooglebotGoogleGooglebotSuche + KI-Basis⭐⭐⭐⭐⭐
Meta-ExternalAgentMetaMeta-ExternalAgentTraining + Live⭐⭐⭐⭐
BingbotMicrosoftbingbotSuche + Copilot⭐⭐⭐⭐
Applebot-ExtendedAppleApplebot-ExtendedTraining + Live⭐⭐⭐⭐
AmazonbotAmazonAmazonbotTraining⭐⭐⭐
YouBotYou.comYouBotLive-Suche⭐⭐⭐
BytespiderByteDanceBytespiderTraining⭐⭐⭐
cohere-aiCoherecohere-aiTraining⭐⭐⭐
YandexBotYandexYandexBotSuche + KI⭐⭐
DuckDuckBotDuckDuckGoDuckDuckBotSuche⭐⭐

robots.txt Konfiguration

Die robots.txt ermöglicht granulare Steuerung – jeder Crawler kann einzeln erlaubt oder blockiert werden.

Alle KI-Crawler erlauben (empfohlen)

# Alle Bots erlauben User-agent: * Allow: / # KI-Crawler explizit erlauben (empfohlen zur Sicherheit) User-agent: GPTBot Allow: / User-agent: OAI-SearchBot Allow: / User-agent: ClaudeBot Allow: / User-agent: PerplexityBot Allow: / User-agent: Google-Extended Allow: / User-agent: Meta-ExternalAgent Allow: / Sitemap: https://deinedomain.de/sitemap.xml

Training blockieren, Live-Suche erlauben

# Training blockieren User-agent: GPTBot Disallow: / User-agent: ClaudeBot Disallow: / User-agent: Google-Extended Disallow: / User-agent: Meta-ExternalAgent Disallow: / # Live-Suche weiterhin erlauben User-agent: OAI-SearchBot Allow: / User-agent: PerplexityBot Allow: /

Achtung: Wer alle KI-Crawler blockiert, wird nicht in KI-generierten Antworten erscheinen – auch nicht bei Perplexity, ChatGPT oder Claude. Das kann mittelfristig zu einem erheblichen Sichtbarkeitsverlust führen.

Empfehlung

Für die meisten Websites gilt: Alle KI-Crawler erlauben und zusätzlich eine llms.txt erstellen – als optionalen Schritt wenn die technischen Grundlagen bereits stimmen.

Wer Bedenken wegen Training-Daten hat, kann gezielt nur die Training-Crawler blockieren und die Live-Such-Crawler (PerplexityBot, OAI-SearchBot) weiterhin erlauben.

Alle KI-Crawler richtig konfiguriert?

Prüfe mit dem AI-Ready Check kostenlos ob deine robots.txt korrekt konfiguriert ist und alle relevanten KI-Crawler Zugriff haben.

Jetzt kostenlos prüfen →

Häufige Fragen zu KI-Crawlern

Muss ich jeden KI-Crawler einzeln in robots.txt angeben? +

Nein – User-agent: * mit Allow: / erlaubt alle Crawler auf einmal. Die explizite Auflistung einzelner KI-Crawler empfiehlt sich nur wenn du bestimmte Crawler gezielt blockieren oder separate Regeln setzen möchtest.

Halten sich alle KI-Crawler an robots.txt? +

Alle seriösen KI-Crawler der großen Anbieter respektieren robots.txt. Es gibt jedoch auch weniger seriöse Bots die robots.txt ignorieren – gegen diese hilft nur serverseitiges Blocking per IP oder User-Agent.

Was passiert wenn ich GPTBot blockiere? +

Deine Website wird nicht mehr in ChatGPT-Trainingsdaten aufgenommen und ChatGPT kann deine aktuellen Inhalte nicht mehr für Antworten nutzen. Du verlierst damit potenziell Sichtbarkeit bei einer der meistgenutzten KI-Plattformen.

Wie erkenne ich ob ein KI-Crawler meine Website besucht? +

In den Server-Logfiles – dort ist der User-Agent jedes Besuchers eingetragen. Mit Tools wie GoAccess oder AWStats lassen sich Logs auswerten und nach bestimmten User-Agents filtern.

Kann ich Crawling auf bestimmte Verzeichnisse beschränken? +

Ja – mit Allow und Disallow Regeln lässt sich granular steuern welche Bereiche ein Crawler besuchen darf. Zum Beispiel: KI-Training nur auf Blog-Posts erlauben, aber nicht auf Produkt- oder Preisseiten.