/robots.txt是什么？robots协议2025最新完整指南

很多新手站长在网站上线后，会遇到这些情况：日志里老是看到搜索引擎访问 /robots.txt 提示 404，
SEO 工具又提醒“未检测到 robots 协议文件”，一搜“robots.txt 怎么写”，出来一堆规则、示例，看完更懵。

在「赚客出海」做站的这几年，我基本给每一个新项目都会单独写一份 robots 协议文件。
原因很简单：写得好，它能帮你更好地“管理搜索引擎”；写错了，轻则影响抓取，重则直接把整站拦在门外。

这篇文章就把 robots 协议从零讲清楚：robots.txt 是什么、放在哪里、怎么写、对 SEO 有什么影响、常见坑有哪些。
内容会结合我在「赚客出海」实战建站时的经验，新手可以直接按步骤操作，不用再一边查英文资料一边瞎试。

本文目录

1 robots.txt 是什么
2 robots.txt 示例模板
3 robots.txt 有什么作用
4 robots.txt 对 SEO 有影响吗
5 robots 协议文件如何生成
6 robots.txt 写法图解及规则解读
7 robots.txt 使用技巧
8 robots 协议文件常见误区
9 robots 协议文件总结

robots.txt 是什么

robots 协议的基本概念

robots 协议（Robots Exclusion Protocol），是一套约定俗成的“抓取礼貌规则”：
用一个名为 robots.txt 的文本文件，告诉搜索引擎爬虫哪些目录可以抓、哪些目录不要抓。

几个关键点先说清楚：

文件名固定：必须叫 robots.txt，不能改成别的名字。
位置固定：必须放在网站根目录，例如：https://zhuankechuhai.com/robots.txt。
对象是“爬虫”而不是“用户”：它不会限制普通用户访问，只是给搜索引擎抓取时参考。

当搜索引擎（比如百度、Google）访问你的网站时，第一件事往往就是先请求一下 /robots.txt，
看看哪些目录、页面可以抓取（Allow），哪些目录、页面暂时不希望被抓取（Disallow），再决定是否继续“爬”你的网站。

为什么叫“robots” 协议？

这里的 robots 指的是搜索引擎的“机器人”（爬虫程序），比如 Googlebot、Baiduspider。
robots.txt 就像是你挂在网站门口的一块牌子，用很简短的几行文字告诉这些机器人：
“欢迎来，但是某些地方是员工区，请不要进”。

robots.txt 示例模板

最通用的 robots.txt 模板

先给你一个新站通用 robots协议模板，不容易踩坑、也比较符合正常 SEO 需求：

# 允许所有搜索引擎抓取站点大部分内容
User-agent: *
Disallow: /wp-admin/
Disallow: /login/
Disallow: /cart/
Disallow: /search
Allow: /wp-admin/admin-ajax.php

# 网站地图（如有）
Sitemap: https://www.example.com/sitemap.xml

这份 robots.txt 的意思是：

对所有爬虫（User-agent: *）生效；
禁止抓取登录页、后台、搜索页等价值不大的页面；
允许搜索引擎访问必要的后台接口文件；
告诉爬虫你的网站地图（sitemap）在哪里。

后面在讲 robots.txt 写法图解 时，还会有更多实战例子，你可以根据自己的网站类型做微调。

robots.txt 有什么作用

很多人会把 /robots.txt 想象成一个“SEO 开关”，这其实有点夸张，但它确实有几个关键作用：

控制爬虫抓取范围：把无意义、低价值、重复的页面挡在爬虫视野之外。
节省服务器资源：爬虫频繁抓取一些动态页面、搜索结果页，会浪费服务器带宽。
配合网站地图：通过 Sitemap: 声明，让搜索引擎更快找到你的网站地图。
给特殊目录加“保护”：比如后台、统计脚本目录，只让用户访问，不希望被频繁爬取。

你可以把 robots.txt 理解成“给搜索引擎的门卫说明书”：什么地方欢迎进、什么地方请别来打扰。
它不是防火墙，也不是安全系统，更不是隐私解决方案，只负责“建议爬虫怎么抓”。

robots.txt 对 SEO 有影响吗

正向影响：帮搜索引擎“省力气”

从 SEO 的角度看，robots.txt 对“抓取”和“收录”有影响，对“排名权重”是间接影响。

合理利用 robots 协议，可以把爬虫更多“引导”到有价值的内容页面；
避免爬虫把时间耗在“搜索页、重复页、登录页、空白页上”；
抓取更高效，收录的“有效页面”占比更高，自然有利于长期 SEO 表现。

「赚客出海」做站的经验是：当站点 URL 超过几百、几千级别时，robots 协议配合 sitemap 使用，收录和抓取效率会明显更稳定，robots 和 sitemap 之间的关系我在【网站地图 sitemap 是什么？2025最新制作使用完整指南】一文中有写到过，感兴趣的朋友可以去查看。

错误配置：可能直接“自废武功”

但如果 robots.txt 写错了，对 SEO 就是“毁灭性”的：

一行 Disallow: /，就能把整个网站都禁止抓取；
误把包含 /wp-content/ 的 CSS、JS 统统禁掉，会导致搜索引擎无法正常渲染页面；
用 robots 协议禁止某些已收录页面后，抓取会停止，但已收录内容并不会立刻消失。

所以，新手在学习 “robots.txt 怎么写” 的时候，最重要的是先理解每一条规则的含义，再去复制模板，而不是看到一段代码就直接粘上。

robots 协议文件如何生成

零基础 3 步生成 robots.txt

用任意文本编辑器新建文件：例如记事本、新建文本文档，文件名改为 robots.txt（注意扩展名必须是 .txt）。
写入规则内容：可以先用上面给的“通用模板”，再根据站点情况微调。
上传到网站根目录：通过 FTP、宝塔面板、主机文件管理器等，把 robots.txt 传到网站根目录（和 index.php、wp-config.php 同一层）。

完成后，在浏览器地址栏访问：

https://你的域名/robots.txt

如果能看到刚才写的内容，就说明 robots 协议文件已经生效。

不同建站系统如何生成 robots.txt

WordPress 站点：

某些主机或一键安装环境，会自动生成 robots.txt；
也可以用 SEO 插件（如 Rank Math、Yoast SEO）直接在后台编辑 robots 文件；
或者自己上传一个新的 robots.txt，会覆盖默认规则。

其他自建系统 / 框架：原则一样，都是在站点根目录创建并上传一个 robots.txt 即可。

网上也有不少“robots.txt 在线生成器”，输入域名、勾选需要屏蔽的目录，自动给你生成一份文件内容。

robots.txt 写法图解及规则解读

很多人觉得 robots.txt 写法很“玄学”，其实掌握几个核心字段就够了：

基本结构：User-agent + Allow / Disallow

User-agent: 爬虫名称或*
Disallow: 不允许抓取的路径
Allow: 允许抓取的路径

逐条拆一下：

User-agent：指定规则给谁用

User-agent: * 表示对所有搜索引擎爬虫生效；
也可以指定具体爬虫，比如 User-agent: Googlebot、User-agent: Baiduspider。

Disallow：不允许抓取的目录 / 页面

Disallow: /admin/ 禁止抓取以 /admin/ 开头的所有 URL；
Disallow: /login 禁止抓取 /login 开头的路径；
Disallow: / 表示整个站点都不允许抓取（新手千万别乱写）。

Allow：在禁止规则里的“开一个口子”

有时候你想禁止大部分目录，但放行其中一小部分，就可以用 Allow：

User-agent: *
Disallow: /img/
Allow: /img/public/

这表示禁止整个 /img/ 目录，但允许抓取 /img/public/。

Sitemap：声明网站地图地址

很多 SEO 教程都会建议：在 robots.txt 里顺便声明 sitemap 地址，比如：

Sitemap: https://www.example.com/sitemap.xml

这有助于搜索引擎更快发现并抓取你的网站地图。

通配符：* 和 $ 的用法（了解即可）

* 表示任意字符，例如：Disallow: /*?replytocom 可以屏蔽带某种参数的 URL；
$ 表示结尾，例如：Disallow: /*.pdf$ 表示禁止抓取以 .pdf 结尾的文件。

新手阶段不必过度玩花活，先用最基础的目录级规则就足够，让 robots 协议保持简单、清晰，有时候反而更安全。

robots.txt 使用技巧

结合「赚客出海」实际做站过程，这里总结几条robots协议实用技巧，新手可以重点参考：

和 sitemap 搭配使用：在 robots.txt 中声明 Sitemap:，能让爬虫更快发现你的网站地图。
不要用 robots.txt 隐藏敏感信息：真正机密的信息应该通过权限控制，而不是简单 Disallow。
禁止无意义的搜索页和重复内容：例如 /search、/tag/、大量筛选页，能减少抓取浪费。
变更规则前先备份：改 robots 协议前，把旧规则先保存一份，出现异常可以随时回滚。
用搜索引擎提供的 robots 测试工具：百度和 Google 都提供“robots 测试工具”，可以模拟某个 URL 是否会被当前规则拦截。

robots 协议文件常见误区

在「赚客出海」这几年里，见过不少站长被 robots.txt 坑过，总结下来，几个高频误区你可以提前避一避：

误以为 robots = 不收录
Disallow 的是“抓取行为”，并不是“从搜索结果删除”。已经被抓取并收录过的页面，即使你后来写了 Disallow，也不一定马上消失。
随手复制别人网站的 robots 文件
每个网站的结构、目录规划、SEO 策略都不一样，直接复制可能导致你把对方的“黑名单”也搬过来，让自己的一些重要页面被误拦。
用 robots.txt 代替所有 SEO 设置
robots 协议只是抓取控制的一小部分，真正的 SEO 还包括内容质量、站内结构、外链、用户体验等。
一上来就大面积禁止目录
很多人“怕重复内容”，就直接禁止 /category/、/tag/，甚至 /archives/ 这类归档页，结果反而让爬虫难以理解站点结构。
修改完 robots.txt 不去复查抓取状态
规则一改就不管了，半年后发现网站收录断崖式下滑，才想起 robots 协议改过。这类问题完全可以通过定期查看百度/Google 后台的抓取报告提前发现。

robots 协议文件总结

最后，用几句话帮你把这篇 robots 协议 2025 完整指南串起来：

robots.txt 是挂在根目录的一份“爬虫抓取说明书”，控制搜索引擎能不能抓某些路径。
合理的 robots 协议可以帮你省下抓取资源，让爬虫更专注高价值页面，但本身不是“提排名按钮”。
生成 robots 文件很简单，难点在于“理解规则 + 避免误伤”，不要盲目复制别人复杂的写法。
写法与技巧就是掌握 User-agent、Disallow、Allow、Sitemap 等基础指令，robots.txt + sitemap.xml 搭配使用，是现在主流搜索引擎都推荐的底层配置。
真正影响 SEO 的，还是内容质量、站点结构和整体运营节奏，robots 协议只是其中一块基础设置。

在「赚客出海」做站的这几年，我的习惯是：任何一个新项目上线 checklist 里，都会有两项必做——配置好 /robots.txt 和 /sitemap.xml。
它们都不复杂，但会在接下来的很长一段时间里，默默帮网站减负、帮爬虫提速。

如果你刚开始学 robots.txt 怎么写，可以先用文中的通用模板跑起来，
等网站慢慢有了流量和数据，再根据实际情况做微调。一步步来，比一上来写得花里胡哨却埋坑，要靠谱得多。

/robots.txt是什么？robots协议2025最新完整指南

robots.txt 是什么

robots 协议的基本概念

为什么叫“robots” 协议？

robots.txt 示例模板

最通用的 robots.txt 模板

robots.txt 有什么作用

robots.txt 对 SEO 有影响吗

正向影响：帮搜索引擎“省力气”

错误配置：可能直接“自废武功”

robots 协议文件如何生成

零基础 3 步生成 robots.txt

不同建站系统如何生成 robots.txt

robots.txt 写法图解及规则解读

基本结构：User-agent + Allow / Disallow

User-agent：指定规则给谁用

Disallow：不允许抓取的目录 / 页面

Allow：在禁止规则里的“开一个口子”

Sitemap：声明网站地图地址

通配符：* 和 $ 的用法（了解即可）

robots.txt 使用技巧

robots 协议文件常见误区

robots 协议文件总结

发表评论

发表回复取消回复

robots.txt 是什么

robots 协议的基本概念

为什么叫“robots” 协议？

robots.txt 示例模板

最通用的 robots.txt 模板

robots.txt 有什么作用

robots.txt 对 SEO 有影响吗

正向影响：帮搜索引擎“省力气”

错误配置：可能直接“自废武功”

robots 协议文件如何生成

零基础 3 步生成 robots.txt

不同建站系统如何生成 robots.txt

robots.txt 写法图解及规则解读

基本结构：User-agent + Allow / Disallow

User-agent：指定规则给谁用

Disallow：不允许抓取的目录 / 页面

Allow：在禁止规则里的“开一个口子”

Sitemap：声明网站地图地址

通配符：* 和 $ 的用法（了解即可）

robots.txt 使用技巧

robots 协议文件常见误区

robots 协议文件总结

相关文章

发表评论

发表回复 取消回复

发表回复取消回复