KI-Crawler Übersicht 2026: Alle AI-Bots, User-Agents und robots.txt Einstellungen

Welche KI-Crawler gibt es, was machen sie, und wie steuert man sie über robots.txt? Diese Übersicht listet alle relevanten AI-Bots — von GPTBot über ClaudeBot bis Yandex — mit User-Agent, Zweck und konkreten Konfigurationsbeispielen.

Wie funktionieren KI-Crawler?

KI-Crawler funktionieren grundsätzlich wie klassische Web-Crawler: Sie besuchen URLs, laden den Inhalt herunter und speichern ihn für die weitere Verarbeitung. Der Unterschied liegt im Zweck — während Googlebot Seiten für den Suchindex aufbereitet, sammeln KI-Crawler Inhalte für zwei verschiedene Ziele:

  • Training: Die gecrawlten Inhalte fließen in die Trainingsdaten von Sprachmodellen ein. Das passiert in großen Batches, nicht in Echtzeit.
  • Live-Suche: Bei KI-Suchmaschinen wie Perplexity werden Seiten in Echtzeit gecrawlt um aktuelle Antworten zu liefern.

Alle seriösen KI-Crawler respektieren die robots.txt — allerdings nur wenn sie korrekt konfiguriert ist. Wichtig: KI-Crawler haben in der Regel kürzere Timeouts als Googlebot und reagieren empfindlicher auf technische Fehler.

Wichtig: Wer KI-Crawler blockiert, wird nicht in KI-generierten Antworten zitiert. Wer sie zulässt, riskiert dass seine Inhalte für KI-Training genutzt werden. Die Entscheidung liegt beim Website-Betreiber — robots.txt gibt die volle Kontrolle.

Hochrelevante KI-Crawler

Diese Crawler haben den größten Einfluss auf die KI-Sichtbarkeit einer Website:

GPTBot Hoch
OpenAI — ChatGPT
Crawlt für Training und Browsing-Funktion von ChatGPT. Einer der wichtigsten KI-Crawler überhaupt — ChatGPT hat über 100 Mio. aktive Nutzer.
User-Agent:
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)
ClaudeBot Hoch
Anthropic — Claude
Crawler von Anthropic für Claude. Analysiert Webinhalte für Kontext und Antwortgenerierung. Anthropic unterstützt aktiv den llms.txt Standard.
User-Agent:
ClaudeBot/1.0; +https://anthropic.com/claudebot
PerplexityBot Hoch
Perplexity AI
Crawlt für die Echtzeit-Suche von Perplexity. Spezialisiert auf faktenbasierte Antworten mit Quellenangaben. Liest llms.txt aktiv aus.
User-Agent:
PerplexityBot/1.0; +https://perplexity.ai/perplexitybot
Google-Extended Hoch
Google — Gemini & AI Overviews
Gesonderter Crawler für Google Gemini und AI Overviews. Kann separat von Googlebot in robots.txt gesteuert werden.
User-Agent:
Google-Extended
OAI-SearchBot Hoch
OpenAI — Search
Neuerer Crawler von OpenAI speziell für die Echtzeit-Suchfunktion in ChatGPT. Ergänzt GPTBot für Live-Suchanfragen.
User-Agent:
OAI-SearchBot/1.0; +https://openai.com/searchbot
Meta-ExternalAgent Hoch
Meta — Llama & Meta AI
Crawler von Meta für die Meta AI Produkte (Facebook, Instagram, WhatsApp AI) und das Llama Modell-Training.
User-Agent:
Meta-ExternalAgent/1.1; +https://llama.meta.com/llama-web-access/

Weitere KI-Crawler

Diese Crawler haben wachsende Relevanz und sollten nicht ignoriert werden:

Applebot-Extended Mittel
Apple — Apple Intelligence
Crawler für Apple Intelligence und Siri. Mit iOS 18 und macOS Sequoia deutlich relevanter geworden. Kann separat von normalem Applebot gesteuert werden.
User-Agent:
Applebot-Extended/1.0; +https://support.apple.com/en-us/111900
Amazonbot Mittel
Amazon — Alexa & AWS AI
Crawler von Amazon für Alexa und Amazon AI Dienste. Sammelt Daten für Sprachassistenten und AWS KI-Produkte.
User-Agent:
Amazonbot/0.1; +https://developer.amazon.com/amazonbot
YouBot Mittel
You.com
Crawler für die KI-Suchmaschine You.com — eine direkte Perplexity-Alternative mit wachsender Nutzerbasis.
User-Agent:
YouBot; +https://about.you.com/youbot/
Bytespider Mittel
ByteDance — TikTok
Crawler von ByteDance (TikTok-Mutterkonzern) für KI-Produkte. Besonders relevant in asiatischen Märkten und durch TikTok-Reichweite.
User-Agent:
Bytespider; +https://zhanzhang.toutiao.com/
cohere-ai Mittel
Cohere
Crawler von Cohere — einem der führenden B2B KI-Anbieter. Besonders relevant für Unternehmen die Cohere Enterprise-Produkte nutzen.
User-Agent:
cohere-ai/1.0
ImagesiftBot Mittel
Microsoft — Bing AI / Copilot
Ergänzender Crawler von Microsoft für Bing AI und Copilot. Arbeitet zusammen mit dem normalen Bingbot.
User-Agent:
ImagesiftBot; +https://www.microsoft.com/en-us/bing/imagesiftbot

Klassische Suchmaschinen-Crawler

Diese Crawler sind primär für klassische Suche zuständig, aber zunehmend auch für KI-Funktionen relevant:

Googlebot Sehr hoch
Google
Der wichtigste Crawler überhaupt — für Google Search und als Grundlage für viele KI-Funktionen. Separate Steuerung via Google-Extended für KI-spezifische Nutzung.
User-Agent:
Googlebot/2.1; +http://www.google.com/bot.html
Bingbot Hoch
Microsoft — Bing & Copilot
Crawler für Bing Search und Microsoft Copilot. Durch die GPT-4 Integration in Copilot sehr relevant für KI-Sichtbarkeit.
User-Agent:
Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
YandexBot Mittel
Yandex
Russische Suchmaschine mit eigenen KI-Produkten (YandexGPT, Alice). Relevant für russischsprachige Märkte und osteuropäische Zielgruppen.
User-Agent:
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
YandexGPT Mittel
Yandex — YandexGPT
Separater Crawler von Yandex speziell für YandexGPT. Kann unabhängig von YandexBot gesteuert werden.
User-Agent:
YandexGPT/1.0
DuckDuckBot Gering
DuckDuckGo
Crawler für DuckDuckGo. Die Suchmaschine nutzt teilweise Bing-Ergebnisse, hat aber eigene KI-Funktionen (DuckAssist).
User-Agent:
DuckDuckBot/1.0; (+http://duckduckgo.com/duckduckbot.html)
Baiduspider Gering (DE)
Baidu
Chinesische Suchmaschine mit eigenen KI-Produkten (ERNIE Bot). Nur relevant für Websites mit chinesischer Zielgruppe.
User-Agent:
Baiduspider/2.0; +http://www.baidu.com/search/spider.html

Vollständige Referenztabelle

Crawler Betreiber robots.txt Name Typ Relevanz (DE)
GPTBotOpenAIGPTBotTraining + Live⭐⭐⭐⭐⭐
OAI-SearchBotOpenAIOAI-SearchBotLive-Suche⭐⭐⭐⭐⭐
ClaudeBotAnthropicClaudeBotTraining + Live⭐⭐⭐⭐⭐
PerplexityBotPerplexity AIPerplexityBotLive-Suche⭐⭐⭐⭐⭐
Google-ExtendedGoogleGoogle-ExtendedTraining + Live⭐⭐⭐⭐⭐
GooglebotGoogleGooglebotSuche + KI-Basis⭐⭐⭐⭐⭐
Meta-ExternalAgentMetaMeta-ExternalAgentTraining + Live⭐⭐⭐⭐
BingbotMicrosoftbingbotSuche + Copilot⭐⭐⭐⭐
Applebot-ExtendedAppleApplebot-ExtendedTraining + Live⭐⭐⭐⭐
AmazonbotAmazonAmazonbotTraining⭐⭐⭐
YouBotYou.comYouBotLive-Suche⭐⭐⭐
BytespiderByteDanceBytespiderTraining⭐⭐⭐
cohere-aiCoherecohere-aiTraining⭐⭐⭐
YandexBotYandexYandexBotSuche + KI⭐⭐
YandexGPTYandexYandexGPTTraining + Live⭐⭐
DuckDuckBotDuckDuckGoDuckDuckBotSuche⭐⭐
BaiduspiderBaiduBaiduspiderSuche + KI

robots.txt Konfiguration

Die robots.txt ermöglicht granulare Steuerung — jeder Crawler kann einzeln erlaubt oder blockiert werden.

Alle KI-Crawler erlauben (empfohlen)

# Alle Bots erlauben User-agent: * Allow: / # KI-Crawler explizit erlauben (empfohlen zur Sicherheit) User-agent: GPTBot Allow: / User-agent: OAI-SearchBot Allow: / User-agent: ClaudeBot Allow: / User-agent: PerplexityBot Allow: / User-agent: Google-Extended Allow: / User-agent: Meta-ExternalAgent Allow: / Sitemap: https://deinedomain.de/sitemap.xml LLMs: https://deinedomain.de/llms.txt

Training blockieren, Live-Suche erlauben

Wer nicht möchte dass seine Inhalte für KI-Training genutzt werden, aber trotzdem in Live-Suchergebnissen erscheinen möchte:

# Training blockieren User-agent: GPTBot Disallow: / User-agent: ClaudeBot Disallow: / User-agent: Google-Extended Disallow: / User-agent: Meta-ExternalAgent Disallow: / # Live-Suche weiterhin erlauben User-agent: OAI-SearchBot Allow: / User-agent: PerplexityBot Allow: /

Alle KI-Crawler blockieren

User-agent: GPTBot Disallow: / User-agent: OAI-SearchBot Disallow: / User-agent: ClaudeBot Disallow: / User-agent: PerplexityBot Disallow: / User-agent: Google-Extended Disallow: / User-agent: Meta-ExternalAgent Disallow: / User-agent: Applebot-Extended Disallow: / User-agent: Amazonbot Disallow: / User-agent: Bytespider Disallow: / User-agent: cohere-ai Disallow: / # Klassische Suchmaschinen weiterhin erlauben User-agent: * Allow: /

Achtung: Wer alle KI-Crawler blockiert, wird nicht in KI-generierten Antworten erscheinen — auch nicht bei Perplexity, ChatGPT oder Claude. Das kann mittelfristig zu einem erheblichen Sichtbarkeitsverlust führen.

Empfehlung

Für die meisten Websites gilt: Alle KI-Crawler erlauben und zusätzlich eine llms.txt erstellen. Das maximiert die KI-Sichtbarkeit und gibt den Crawlern den nötigen Kontext für korrekte Antworten.

Wer Bedenken wegen Training-Daten hat, kann gezielt nur die Training-Crawler blockieren und die Live-Such-Crawler (PerplexityBot, OAI-SearchBot) weiterhin erlauben.

Alle KI-Crawler richtig konfiguriert?

Prüfe mit dem AI-Ready Check kostenlos ob deine robots.txt korrekt konfiguriert ist und alle relevanten KI-Crawler Zugriff haben.

Jetzt kostenlos prüfen →

Häufige Fragen zu KI-Crawlern

Muss ich jeden KI-Crawler einzeln in robots.txt angeben? +

Nein — User-agent: * mit Allow: / erlaubt alle Crawler auf einmal. Die explizite Auflistung einzelner KI-Crawler empfiehlt sich nur wenn du bestimmte Crawler gezielt blockieren oder separate Regeln setzen möchtest.

Halten sich alle KI-Crawler an robots.txt? +

Alle seriösen KI-Crawler der großen Anbieter (OpenAI, Anthropic, Google, Meta etc.) respektieren robots.txt. Es gibt jedoch auch weniger seriöse Bots die robots.txt ignorieren — gegen diese hilft nur serverseitiges Blocking per IP oder User-Agent.

Was passiert wenn ich GPTBot blockiere? +

Deine Website wird nicht mehr in ChatGPT-Trainingsdaten aufgenommen und ChatGPT kann deine aktuellen Inhalte nicht mehr für Antworten nutzen. Du verlierst damit potenziell Sichtbarkeit in einer der meistgenutzten KI-Plattformen weltweit.

Wie erkenne ich ob ein KI-Crawler meine Website besucht? +

In den Server-Logfiles — dort ist der User-Agent jedes Besuchers eingetragen. Mit Tools wie GoAccess oder AWStats lassen sich Logs auswerten und nach bestimmten User-Agents filtern.

Kann ich Crawling auf bestimmte Verzeichnisse beschränken? +

Ja — mit Allow und Disallow Regeln lässt sich granular steuern welche Bereiche ein Crawler besuchen darf. Zum Beispiel: KI-Training nur auf Blog-Posts erlauben, aber nicht auf Produkt- oder Preisseiten.