很多新手站长在网站上线后,会遇到这些情况:日志里老是看到搜索引擎访问 /robots.txt 提示 404,SEO 工具又提醒“未检测到 robots 协议文件”,一搜“robots.txt 怎么写”,出来一堆规则、示例,看完更懵。
在「赚客出海」做站的这几年,我基本给每一个新项目都会单独写一份 robots 协议文件。
原因很简单:写得好,它能帮你更好地“管理搜索引擎”;写错了,轻则影响抓取,重则直接把整站拦在门外。
这篇文章就把 robots 协议从零讲清楚:robots.txt 是什么、放在哪里、怎么写、对 SEO 有什么影响、常见坑有哪些。
内容会结合我在「赚客出海」实战建站时的经验,新手可以直接按步骤操作,不用再一边查英文资料一边瞎试。
本文目录
robots.txt 是什么
robots 协议的基本概念
robots 协议(Robots Exclusion Protocol),是一套约定俗成的“抓取礼貌规则”:
用一个名为 robots.txt 的文本文件,告诉搜索引擎爬虫哪些目录可以抓、哪些目录不要抓。
几个关键点先说清楚:
- 文件名固定:必须叫
robots.txt,不能改成别的名字。 - 位置固定:必须放在网站根目录,例如:
https://zhuankechuhai.com/robots.txt。 - 对象是“爬虫”而不是“用户”:它不会限制普通用户访问,只是给搜索引擎抓取时参考。
当搜索引擎(比如百度、Google)访问你的网站时,第一件事往往就是先请求一下 /robots.txt,
看看哪些目录、页面可以抓取(Allow),哪些目录、页面暂时不希望被抓取(Disallow),再决定是否继续“爬”你的网站。
为什么叫“robots” 协议?
这里的 robots 指的是搜索引擎的“机器人”(爬虫程序),比如 Googlebot、Baiduspider。
robots.txt 就像是你挂在网站门口的一块牌子,用很简短的几行文字告诉这些机器人:
“欢迎来,但是某些地方是员工区,请不要进”。
robots.txt 示例模板
最通用的 robots.txt 模板
先给你一个新站通用 robots协议模板,不容易踩坑、也比较符合正常 SEO 需求:
# 允许所有搜索引擎抓取站点大部分内容
User-agent: *
Disallow: /wp-admin/
Disallow: /login/
Disallow: /cart/
Disallow: /search
Allow: /wp-admin/admin-ajax.php
# 网站地图(如有)
Sitemap: https://www.example.com/sitemap.xml
这份 robots.txt 的意思是:
- 对所有爬虫(
User-agent: *)生效; - 禁止抓取登录页、后台、搜索页等价值不大的页面;
- 允许搜索引擎访问必要的后台接口文件;
- 告诉爬虫你的网站地图(sitemap)在哪里。
后面在讲 robots.txt 写法图解 时,还会有更多实战例子,你可以根据自己的网站类型做微调。
robots.txt 有什么作用
很多人会把 /robots.txt 想象成一个“SEO 开关”,这其实有点夸张,但它确实有几个关键作用:
- 控制爬虫抓取范围:把无意义、低价值、重复的页面挡在爬虫视野之外。
- 节省服务器资源:爬虫频繁抓取一些动态页面、搜索结果页,会浪费服务器带宽。
- 配合网站地图:通过
Sitemap:声明,让搜索引擎更快找到你的网站地图。 - 给特殊目录加“保护”:比如后台、统计脚本目录,只让用户访问,不希望被频繁爬取。
你可以把 robots.txt 理解成“给搜索引擎的门卫说明书”:什么地方欢迎进、什么地方请别来打扰。
它不是防火墙,也不是安全系统,更不是隐私解决方案,只负责“建议爬虫怎么抓”。
robots.txt 对 SEO 有影响吗
正向影响:帮搜索引擎“省力气”
从 SEO 的角度看,robots.txt 对“抓取”和“收录”有影响,对“排名权重”是间接影响。
- 合理利用 robots 协议,可以把爬虫更多“引导”到有价值的内容页面;
- 避免爬虫把时间耗在“搜索页、重复页、登录页、空白页上”;
- 抓取更高效,收录的“有效页面”占比更高,自然有利于长期 SEO 表现。
「赚客出海」做站的经验是:当站点 URL 超过几百、几千级别时,robots 协议配合 sitemap 使用,收录和抓取效率会明显更稳定,robots 和 sitemap 之间的关系我在【网站地图 sitemap 是什么?2025最新制作使用完整指南】一文中有写到过,感兴趣的朋友可以去查看。
错误配置:可能直接“自废武功”
但如果 robots.txt 写错了,对 SEO 就是“毁灭性”的:
- 一行
Disallow: /,就能把整个网站都禁止抓取; - 误把包含
/wp-content/的 CSS、JS 统统禁掉,会导致搜索引擎无法正常渲染页面; - 用 robots 协议禁止某些已收录页面后,抓取会停止,但已收录内容并不会立刻消失。
所以,新手在学习 “robots.txt 怎么写” 的时候,最重要的是先理解每一条规则的含义,再去复制模板,而不是看到一段代码就直接粘上。
robots 协议文件如何生成
零基础 3 步生成 robots.txt
- 用任意文本编辑器新建文件:例如记事本、新建文本文档,文件名改为
robots.txt(注意扩展名必须是.txt)。 - 写入规则内容:可以先用上面给的“通用模板”,再根据站点情况微调。
- 上传到网站根目录:通过 FTP、宝塔面板、主机文件管理器等,把
robots.txt传到网站根目录(和index.php、wp-config.php同一层)。
完成后,在浏览器地址栏访问:
https://你的域名/robots.txt
如果能看到刚才写的内容,就说明 robots 协议文件已经生效。
不同建站系统如何生成 robots.txt
WordPress 站点:
- 某些主机或一键安装环境,会自动生成 robots.txt;
- 也可以用 SEO 插件(如 Rank Math、Yoast SEO)直接在后台编辑 robots 文件;
- 或者自己上传一个新的 robots.txt,会覆盖默认规则。
其他自建系统 / 框架:原则一样,都是在站点根目录创建并上传一个 robots.txt 即可。
网上也有不少“robots.txt 在线生成器”,输入域名、勾选需要屏蔽的目录,自动给你生成一份文件内容。
robots.txt 写法图解及规则解读
很多人觉得 robots.txt 写法很“玄学”,其实掌握几个核心字段就够了:
基本结构:User-agent + Allow / Disallow
User-agent: 爬虫名称或*
Disallow: 不允许抓取的路径
Allow: 允许抓取的路径
逐条拆一下:
User-agent:指定规则给谁用
User-agent: *表示对所有搜索引擎爬虫生效;- 也可以指定具体爬虫,比如
User-agent: Googlebot、User-agent: Baiduspider。
Disallow:不允许抓取的目录 / 页面
Disallow: /admin/禁止抓取以/admin/开头的所有 URL;Disallow: /login禁止抓取/login开头的路径;Disallow: /表示整个站点都不允许抓取(新手千万别乱写)。
Allow:在禁止规则里的“开一个口子”
有时候你想禁止大部分目录,但放行其中一小部分,就可以用 Allow:
User-agent: *
Disallow: /img/
Allow: /img/public/
这表示禁止整个 /img/ 目录,但允许抓取 /img/public/。
Sitemap:声明网站地图地址
很多 SEO 教程都会建议:在 robots.txt 里顺便声明 sitemap 地址,比如:
Sitemap: https://www.example.com/sitemap.xml
这有助于搜索引擎更快发现并抓取你的网站地图。
通配符:* 和 $ 的用法(了解即可)
*表示任意字符,例如:Disallow: /*?replytocom可以屏蔽带某种参数的 URL;$表示结尾,例如:Disallow: /*.pdf$表示禁止抓取以.pdf结尾的文件。
新手阶段不必过度玩花活,先用最基础的目录级规则就足够,让 robots 协议保持简单、清晰,有时候反而更安全。
robots.txt 使用技巧
结合「赚客出海」实际做站过程,这里总结几条robots协议实用技巧,新手可以重点参考:
- 和 sitemap 搭配使用:在 robots.txt 中声明
Sitemap:,能让爬虫更快发现你的网站地图。 - 不要用 robots.txt 隐藏敏感信息:真正机密的信息应该通过权限控制,而不是简单
Disallow。 - 禁止无意义的搜索页和重复内容:例如
/search、/tag/、大量筛选页,能减少抓取浪费。 - 变更规则前先备份:改 robots 协议前,把旧规则先保存一份,出现异常可以随时回滚。
- 用搜索引擎提供的 robots 测试工具:百度和 Google 都提供“robots 测试工具”,可以模拟某个 URL 是否会被当前规则拦截。
robots 协议文件常见误区
在「赚客出海」这几年里,见过不少站长被 robots.txt 坑过,总结下来,几个高频误区你可以提前避一避:
- 误以为 robots = 不收录
Disallow的是“抓取行为”,并不是“从搜索结果删除”。已经被抓取并收录过的页面,即使你后来写了Disallow,也不一定马上消失。 - 随手复制别人网站的 robots 文件
每个网站的结构、目录规划、SEO 策略都不一样,直接复制可能导致你把对方的“黑名单”也搬过来,让自己的一些重要页面被误拦。 - 用 robots.txt 代替所有 SEO 设置
robots 协议只是抓取控制的一小部分,真正的 SEO 还包括内容质量、站内结构、外链、用户体验等。 - 一上来就大面积禁止目录
很多人“怕重复内容”,就直接禁止/category/、/tag/,甚至/archives/这类归档页,结果反而让爬虫难以理解站点结构。 - 修改完 robots.txt 不去复查抓取状态
规则一改就不管了,半年后发现网站收录断崖式下滑,才想起 robots 协议改过。这类问题完全可以通过定期查看百度/Google 后台的抓取报告提前发现。
robots 协议文件总结
最后,用几句话帮你把这篇 robots 协议 2025 完整指南串起来:
- robots.txt 是挂在根目录的一份“爬虫抓取说明书”,控制搜索引擎能不能抓某些路径。
- 合理的 robots 协议可以帮你省下抓取资源,让爬虫更专注高价值页面,但本身不是“提排名按钮”。
- 生成 robots 文件很简单,难点在于“理解规则 + 避免误伤”,不要盲目复制别人复杂的写法。
- 写法与技巧就是掌握
User-agent、Disallow、Allow、Sitemap等基础指令,robots.txt + sitemap.xml 搭配使用,是现在主流搜索引擎都推荐的底层配置。 - 真正影响 SEO 的,还是内容质量、站点结构和整体运营节奏,robots 协议只是其中一块基础设置。
在「赚客出海」做站的这几年,我的习惯是:任何一个新项目上线 checklist 里,都会有两项必做——配置好 /robots.txt 和 /sitemap.xml。
它们都不复杂,但会在接下来的很长一段时间里,默默帮网站减负、帮爬虫提速。
如果你刚开始学 robots.txt 怎么写,可以先用文中的通用模板跑起来,
等网站慢慢有了流量和数据,再根据实际情况做微调。一步步来,比一上来写得花里胡哨却埋坑,要靠谱得多。
发表评论