爬虫参考

AI 爬虫 User-Agent 清单

AI 可见性不再是“一个爬虫开关”。不同 token 代表搜索发现、训练抓取、用户触发检索等不同用途,策略必须分开写。

常见 token 及含义

可见性优先 robots 模板(示例)

User-agent: *
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: Claude-User
Allow: /

User-agent: PerplexityBot
Allow: /

Sitemap: https://example.com/links-map.txt

是否放行 GPTBot/ClaudeBot 属于训练策略问题,应与搜索可见性分开决策。

策略上线后建议验证页面

若 robots 已放行但仍出现 403,优先排查 Cloudflare 边缘策略:Bot Fight Mode 是否误拦