自定义 robots.txt

默认情况下，Fern 在您的文档站点根目录提供一个自动生成的 robots.txt，允许所有爬虫并指向您的 sitemap.xml。使用 docs.yml 中的 agents.robots-txt 键来提供您自己的文件——这对于选择接受或拒绝特定的 AI 爬虫、限制敏感部分或使用 Cloudflare 内容信号策略表明偏好非常有用。

robots.txt 只是建议性的：合规的爬虫会遵循您的 Disallow 和 Allow 指令，但忽略协议的机器人仍然可以访问这些路径。对于必须保持私有的内容，请使用身份验证。

robots.txt 决定哪些爬虫可以访问您的站点以及您广播什么 AI 训练信号。它的配套文件 llms.txt 则影响 AI 代理爬取后接收到的内容。

配置

在 `docs.yml` 中将 `agents.robots-txt` 指向您的文件

docs.yml

1 agents:
2   robots-txt: ./robots.txt

路径是相对于 docs.yml 的。

编写您的自定义 `robots.txt`

robots.txt

# 允许搜索引擎
User-Agent: Googlebot
Allow: /
# 限制 AI 爬虫访问私有路径
User-Agent: GPTBot
Disallow: /private
# 通过 Cloudflare 内容信号声明 AI 使用偏好
Content-Signal: ai-train=yes, search=yes, ai-input=yes
# 为爬虫指向您的站点地图——Fern 的默认 robots.txt 包含此项，
# 所以在用自定义文件替换默认文件时需要添加回来
Sitemap: https://docs.example.com/sitemap.xml

将命名的机器人（如 GPTBot、Googlebot）放在文件中任何通配符组之前——Fern 在提供文件时会附加自己的 User-Agent: * 块。

Fern 提供您的文件

您的文件会在 /robots.txt 原样提供。Fern 会在末尾附加一个托管块，禁止内部 API 路由：

# Fern 托管的路由——自动禁止
User-Agent: *
Disallow: /api/fern-docs/

配置

在 docs.yml 中将 agents.robots-txt 指向您的文件

编写您的自定义 robots.txt

Fern 提供您的文件

在 `docs.yml` 中将 `agents.robots-txt` 指向您的文件

编写您的自定义 `robots.txt`