自定义 robots.txt
自定义 robots.txt
自定义 robots.txt
默认情况下,Fern 在您的文档站点根目录提供一个自动生成的 robots.txt,允许所有爬虫并指向您的 sitemap.xml。使用 docs.yml 中的 agents.robots-txt 键 来提供您自己的文件——这对于选择接受或拒绝特定的 AI 爬虫、限制敏感部分或使用 Cloudflare 内容信号策略 表明偏好非常有用。
robots.txt 只是建议性的:合规的爬虫会遵循您的 Disallow 和 Allow 指令,但忽略协议的机器人仍然可以访问这些路径。对于必须保持私有的内容,请使用身份验证。
robots.txt 决定哪些爬虫可以访问您的站点以及您广播什么 AI 训练信号。它的配套文件 llms.txt 和 llms-full.txt 则影响 AI 代理爬取后接收到的内容。