/robots.txt是什么?robots协议2025最新完整指南

/robots.txt是什么?robots协议2025最新完整指南很多新手站长在网站上线后,会遇到这些情况:日志里老是看到搜索引擎访问 /robots.txt 提示 404,
SEO 工具又提醒“未检测到 robots 协议文件”,一搜“robots.txt 怎么写”,出来一堆规则、示例,看完更懵。

在「赚客出海」做站的这几年,我基本给每一个新项目都会单独写一份 robots 协议文件。
原因很简单:写得好,它能帮你更好地“管理搜索引擎”;写错了,轻则影响抓取,重则直接把整站拦在门外。

这篇文章就把 robots 协议从零讲清楚:robots.txt 是什么、放在哪里、怎么写、对 SEO 有什么影响、常见坑有哪些。
内容会结合我在「赚客出海」实战建站时的经验,新手可以直接按步骤操作,不用再一边查英文资料一边瞎试。

robots.txt 是什么

robots 协议的基本概念

robots 协议(Robots Exclusion Protocol),是一套约定俗成的“抓取礼貌规则”:
用一个名为 robots.txt 的文本文件,告诉搜索引擎爬虫哪些目录可以抓、哪些目录不要抓。

几个关键点先说清楚:

  • 文件名固定:必须叫 robots.txt,不能改成别的名字。
  • 位置固定:必须放在网站根目录,例如:https://zhuankechuhai.com/robots.txt
  • 对象是“爬虫”而不是“用户”:它不会限制普通用户访问,只是给搜索引擎抓取时参考。

当搜索引擎(比如百度、Google)访问你的网站时,第一件事往往就是先请求一下 /robots.txt
看看哪些目录、页面可以抓取(Allow),哪些目录、页面暂时不希望被抓取(Disallow),再决定是否继续“爬”你的网站。

为什么叫“robots” 协议?

这里的 robots 指的是搜索引擎的“机器人”(爬虫程序),比如 Googlebot、Baiduspider。
robots.txt 就像是你挂在网站门口的一块牌子,用很简短的几行文字告诉这些机器人:
“欢迎来,但是某些地方是员工区,请不要进”。

robots.txt 示例模板

最通用的 robots.txt 模板

先给你一个新站通用 robots协议模板,不容易踩坑、也比较符合正常 SEO 需求:

# 允许所有搜索引擎抓取站点大部分内容
User-agent: *
Disallow: /wp-admin/
Disallow: /login/
Disallow: /cart/
Disallow: /search
Allow: /wp-admin/admin-ajax.php

# 网站地图(如有)
Sitemap: https://www.example.com/sitemap.xml
  

这份 robots.txt 的意思是:

  • 对所有爬虫(User-agent: *)生效;
  • 禁止抓取登录页、后台、搜索页等价值不大的页面;
  • 允许搜索引擎访问必要的后台接口文件;
  • 告诉爬虫你的网站地图(sitemap)在哪里。

后面在讲 robots.txt 写法图解 时,还会有更多实战例子,你可以根据自己的网站类型做微调。

robots.txt 有什么作用

很多人会把 /robots.txt 想象成一个“SEO 开关”,这其实有点夸张,但它确实有几个关键作用:

  • 控制爬虫抓取范围:把无意义、低价值、重复的页面挡在爬虫视野之外。
  • 节省服务器资源:爬虫频繁抓取一些动态页面、搜索结果页,会浪费服务器带宽。
  • 配合网站地图:通过 Sitemap: 声明,让搜索引擎更快找到你的网站地图。
  • 给特殊目录加“保护”:比如后台、统计脚本目录,只让用户访问,不希望被频繁爬取。

你可以把 robots.txt 理解成“给搜索引擎的门卫说明书”:什么地方欢迎进、什么地方请别来打扰。
它不是防火墙,也不是安全系统,更不是隐私解决方案,只负责“建议爬虫怎么抓”

robots.txt 对 SEO 有影响吗

正向影响:帮搜索引擎“省力气”

从 SEO 的角度看,robots.txt 对“抓取”和“收录”有影响,对“排名权重”是间接影响。

  • 合理利用 robots 协议,可以把爬虫更多“引导”到有价值的内容页面;
  • 避免爬虫把时间耗在“搜索页、重复页、登录页、空白页上”;
  • 抓取更高效,收录的“有效页面”占比更高,自然有利于长期 SEO 表现。

「赚客出海」做站的经验是:当站点 URL 超过几百、几千级别时,robots 协议配合 sitemap 使用,收录和抓取效率会明显更稳定,robots 和 sitemap 之间的关系我在【网站地图 sitemap 是什么?2025最新制作使用完整指南一文中有写到过,感兴趣的朋友可以去查看

错误配置:可能直接“自废武功”

但如果 robots.txt 写错了,对 SEO 就是“毁灭性”的:

  • 一行 Disallow: /,就能把整个网站都禁止抓取;
  • 误把包含 /wp-content/ 的 CSS、JS 统统禁掉,会导致搜索引擎无法正常渲染页面;
  • 用 robots 协议禁止某些已收录页面后,抓取会停止,但已收录内容并不会立刻消失。

所以,新手在学习 robots.txt 怎么写 的时候,最重要的是先理解每一条规则的含义,再去复制模板,而不是看到一段代码就直接粘上。

robots 协议文件如何生成

零基础 3 步生成 robots.txt

  1. 用任意文本编辑器新建文件:例如记事本、新建文本文档,文件名改为 robots.txt(注意扩展名必须是 .txt)。
  2. 写入规则内容:可以先用上面给的“通用模板”,再根据站点情况微调。
  3. 上传到网站根目录:通过 FTP、宝塔面板、主机文件管理器等,把 robots.txt 传到网站根目录(和 index.phpwp-config.php 同一层)。

完成后,在浏览器地址栏访问:

https://你的域名/robots.txt

如果能看到刚才写的内容,就说明 robots 协议文件已经生效。

不同建站系统如何生成 robots.txt

WordPress 站点:

  • 某些主机或一键安装环境,会自动生成 robots.txt;
  • 也可以用 SEO 插件(如 Rank Math、Yoast SEO)直接在后台编辑 robots 文件;
  • 或者自己上传一个新的 robots.txt,会覆盖默认规则。

其他自建系统 / 框架:原则一样,都是在站点根目录创建并上传一个 robots.txt 即可。

网上也有不少“robots.txt 在线生成器”,输入域名、勾选需要屏蔽的目录,自动给你生成一份文件内容。

robots.txt 写法图解及规则解读

很多人觉得 robots.txt 写法很“玄学”,其实掌握几个核心字段就够了:

基本结构:User-agent + Allow / Disallow

User-agent: 爬虫名称或*
Disallow: 不允许抓取的路径
Allow: 允许抓取的路径
  

逐条拆一下:

User-agent:指定规则给谁用

  • User-agent: * 表示对所有搜索引擎爬虫生效;
  • 也可以指定具体爬虫,比如 User-agent: GooglebotUser-agent: Baiduspider

Disallow:不允许抓取的目录 / 页面

  • Disallow: /admin/ 禁止抓取以 /admin/ 开头的所有 URL;
  • Disallow: /login 禁止抓取 /login 开头的路径;
  • Disallow: / 表示整个站点都不允许抓取(新手千万别乱写)。

Allow:在禁止规则里的“开一个口子”

有时候你想禁止大部分目录,但放行其中一小部分,就可以用 Allow:

User-agent: *
Disallow: /img/
Allow: /img/public/
  

这表示禁止整个 /img/ 目录,但允许抓取 /img/public/

Sitemap:声明网站地图地址

很多 SEO 教程都会建议:在 robots.txt 里顺便声明 sitemap 地址,比如:

Sitemap: https://www.example.com/sitemap.xml
  

这有助于搜索引擎更快发现并抓取你的网站地图。

通配符:* 和 $ 的用法(了解即可)

  • * 表示任意字符,例如:Disallow: /*?replytocom 可以屏蔽带某种参数的 URL;
  • $ 表示结尾,例如:Disallow: /*.pdf$ 表示禁止抓取以 .pdf 结尾的文件。

新手阶段不必过度玩花活,先用最基础的目录级规则就足够,让 robots 协议保持简单、清晰,有时候反而更安全。

robots.txt 使用技巧

结合「赚客出海」实际做站过程,这里总结几条robots协议实用技巧,新手可以重点参考:

  • 和 sitemap 搭配使用:在 robots.txt 中声明 Sitemap:,能让爬虫更快发现你的网站地图。
  • 不要用 robots.txt 隐藏敏感信息:真正机密的信息应该通过权限控制,而不是简单 Disallow
  • 禁止无意义的搜索页和重复内容:例如 /search/tag/、大量筛选页,能减少抓取浪费。
  • 变更规则前先备份:改 robots 协议前,把旧规则先保存一份,出现异常可以随时回滚。
  • 用搜索引擎提供的 robots 测试工具:百度和 Google 都提供“robots 测试工具”,可以模拟某个 URL 是否会被当前规则拦截。

robots 协议文件常见误区

在「赚客出海」这几年里,见过不少站长被 robots.txt 坑过,总结下来,几个高频误区你可以提前避一避:

  • 误以为 robots = 不收录
    Disallow 的是“抓取行为”,并不是“从搜索结果删除”。已经被抓取并收录过的页面,即使你后来写了 Disallow,也不一定马上消失。
  • 随手复制别人网站的 robots 文件
    每个网站的结构、目录规划、SEO 策略都不一样,直接复制可能导致你把对方的“黑名单”也搬过来,让自己的一些重要页面被误拦。
  • 用 robots.txt 代替所有 SEO 设置
    robots 协议只是抓取控制的一小部分,真正的 SEO 还包括内容质量、站内结构、外链、用户体验等。
  • 一上来就大面积禁止目录
    很多人“怕重复内容”,就直接禁止 /category//tag/,甚至 /archives/ 这类归档页,结果反而让爬虫难以理解站点结构。
  • 修改完 robots.txt 不去复查抓取状态
    规则一改就不管了,半年后发现网站收录断崖式下滑,才想起 robots 协议改过。这类问题完全可以通过定期查看百度/Google 后台的抓取报告提前发现。

robots 协议文件总结

最后,用几句话帮你把这篇 robots 协议 2025 完整指南串起来:

  • robots.txt 是挂在根目录的一份“爬虫抓取说明书”,控制搜索引擎能不能抓某些路径。
  • 合理的 robots 协议可以帮你省下抓取资源,让爬虫更专注高价值页面,但本身不是“提排名按钮”。
  • 生成 robots 文件很简单,难点在于“理解规则 + 避免误伤”,不要盲目复制别人复杂的写法。
  • 写法与技巧就是掌握 User-agentDisallowAllowSitemap 等基础指令,robots.txt + sitemap.xml 搭配使用,是现在主流搜索引擎都推荐的底层配置。
  • 真正影响 SEO 的,还是内容质量、站点结构和整体运营节奏,robots 协议只是其中一块基础设置。

在「赚客出海」做站的这几年,我的习惯是:任何一个新项目上线 checklist 里,都会有两项必做——配置好 /robots.txt 和 /sitemap.xml。
它们都不复杂,但会在接下来的很长一段时间里,默默帮网站减负、帮爬虫提速。

如果你刚开始学 robots.txt 怎么写,可以先用文中的通用模板跑起来,
等网站慢慢有了流量和数据,再根据实际情况做微调。一步步来,比一上来写得花里胡哨却埋坑,要靠谱得多。

声明:本文为原创,作者为 赚客出海,转载时请保留本声明及附带文章链接:https://zhuankechuhai.com/robotsxieyi/

最后编辑于:2025/12/1作者:赚客出海

赚客出海

赚客出海-专注于网站赚钱与国外网赚项目,为你提供从入门到变现的全链路支持。这里有真实可落地的国外联盟营销玩法、从零搭建独立站赚钱的实操指南,以及专业的网站建设与网站SEO运营技巧。同时,精选高性价比VPS 主机资源,解决海外业务的服务器需求,助力你的网赚事业高效启动、稳定盈利。

发表评论

发表回复

返回顶部