爬虫参考
AI 爬虫 User-Agent 清单
AI 可见性不再是“一个爬虫开关”。不同 token 代表搜索发现、训练抓取、用户触发检索等不同用途,策略必须分开写。
常见 token 及含义
OAI-SearchBot:OpenAI 搜索发现相关。GPTBot:OpenAI 训练策略相关爬虫。ChatGPT-User:用户触发检索行为。Claude-SearchBot:Anthropic 搜索质量相关爬虫。ClaudeBot:Anthropic 训练策略相关爬虫。Claude-User:Anthropic 用户触发检索行为。PerplexityBot:Perplexity 搜索索引相关爬虫。
可见性优先 robots 模板(示例)
User-agent: *
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: Claude-User
Allow: /
User-agent: PerplexityBot
Allow: /
Sitemap: https://example.com/links-map.txt
是否放行 GPTBot/ClaudeBot 属于训练策略问题,应与搜索可见性分开决策。
策略上线后建议验证页面
若 robots 已放行但仍出现 403,优先排查 Cloudflare 边缘策略:Bot Fight Mode 是否误拦。