中文问答

如何验证 AI 爬虫是否真实?

只看 User-Agent 容易被伪装流量误导。做策略调整前,先看“访问行为”而不是只看名字。

实操流程(按日志排查)

  1. 先看 24-72 小时窗口,确认是持续出现,不是偶发一两条。
  2. 看路径顺序:真实爬虫常见路径是 /robots.txt、sitemap、核心内容页。
  3. 看状态码分布:被允许页面应以 200 为主,而不是大量 403/404。
  4. 有条件时结合云防火墙/WAF 的源信息做二次确认。

哪些情况大概率是伪装

如果 UA 写着知名爬虫,但路径主要是 /wp-admin/.env、探测漏洞 URL,这类通常是扫描流量,不要按真实收录流量处理。

快速命令模板

grep -Ei 'OAI-SearchBot|Claude-SearchBot|PerplexityBot' access.log | tail -n 200
grep -Ei 'OAI-SearchBot|Claude-SearchBot|PerplexityBot' access.log | grep -E 'robots.txt|sitemap|llms.txt'

常见误判

“UA 里有爬虫名”只能算线索,不是结论。行为证据比字符串本身更可靠。

生成验证命令