# audit-web.ai — robots.txt
# Position assumée : site vitrine public, indexable et ingerable par les LLMs.
# On préfère la visibilité IA à la protection du corpus — le contenu est fait pour être cité.

User-agent: *
Allow: /

# --- Moteurs IA génératifs (crawl de réponses) ---
User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: anthropic-ai
Allow: /

User-agent: Claude-Web
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Perplexity-User
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: Applebot-Extended
Allow: /

# --- Crawlers de corpus d'entraînement (ingestion massive) ---
User-agent: CCBot
Allow: /

User-agent: Bytespider
Allow: /

User-agent: cohere-ai
Allow: /

User-agent: Amazonbot
Allow: /

User-agent: Meta-ExternalAgent
Allow: /

User-agent: DuckAssistBot
Allow: /

# --- Découverte ---
Sitemap: https://audit-web.ai/sitemap.xml

# Pointeur vers la description destinée aux LLMs (convention émergente)
LLM: https://audit-web.ai/llms.txt