小心！Disallow: / 等于给你的网站判了“隐形刑”

1,114

2026-05-09 17:29

一个菜鸟站长血泪教训：为什么我的网站死活搜不到？

前两天，我搭了一个技术社区，认认真真写文章、配 SSR、搞响应式设计……结果上线两周，连百度、Google 的影子都搜不到。
折腾了一整天，最后发现罪魁祸首就是根目录下那个 robots.txt 文件，里面只有两行：

User-agent: *
Disallow: /

我当场石化——这不就是我亲手给搜索引擎关上的大门吗？

这两行代码到底说了什么？

robots.txt 是搜索引擎爬虫访问你网站时第一个读取的文件，相当于贴在门口的一张“访客须知”。

User-agent: * —— 对所有搜索引擎的爬虫（Googlebot、Baiduspider、Bingbot……）生效。
Disallow: / —— 禁止爬取的路径是根目录及所有子目录，也就是全站。

合在一起就是：“嘿，所有爬虫，我这个网站你们一下都别碰。”

效果立竿见影：爬虫乖乖掉头走人，你的页面永远不会出现在搜索结果里。已经收录的部分也会被慢慢清理干净。

为什么你会写出这两行？

别笑，90% 的个人站长都干过这种事。常见场景：

网站还在本地开发，复制了一份默认的 Disallow: / 上去，上线后忘了改。
某些框架或模板自动生成的 robots.txt 默认就是禁止抓取，怕你还没准备好。
自己随手加了几行，以为 Disallow: 是要填“允许的路径”，结果填成了 /。

只要页面内容不是高度敏感的内网系统，绝大多数网站都不应该用 Disallow: /。

正确写法长什么样？

想让爬虫畅行无阻，把 Disallow: / 改成空值就行：

User-agent: *
Disallow:

或者干脆删掉 robots.txt 文件 —— 大部分搜索引擎默认允许全站抓取。保留文件但写对规则，主要是为了以后可以主动声明 Sitemap 位置。

如果你只想禁止某个目录（比如后台 /admin）：

User-agent: *
Disallow: /admin/

改完 `robots.txt` 就高枕无忧了吗？

当然不是。打开门只是第一步，爬虫还要能走进来、看懂你的内容、觉得有价值，才会真正收录。

一份简易的 SEO 自检清单送给你：

1. 检查爬虫实际看到的内容

在浏览器里右键 → “查看网页源代码”。如果核心正文、标题全都是空的 <div> 或者加载脚本 —— 说明你的 SSR 没做好，爬虫拿到的是空壳。必须保证源码里直接输出你希望被搜索到的文字。

2. 提交 Sitemap（站点地图）

爬虫需要一张“地图”才知道你有哪些页面。用在线生成器（比如 xml-sitemaps.com）生成 sitemap.xml，上传到网站根目录，然后在 robots.txt 里加上：

Sitemap: https://你的域名/sitemap.xml

最后去 百度搜索资源平台 和 Google Search Console 手动提交这张地图。

3. 内链 + 外链

内链：文章之间互相引用，让爬虫有路可走。
外链：从其他已经被收录的网站获得链接（比如在技术社区、知乎、博客留链接），加速搜索引擎发现你。

4. 持续输出原创、有价值的内容

搜索引擎不傻，垃圾内容、拼凑文章、套话连篇的 AI 文，即使被抓到也不会给排名。

写在最后

回过头看，那个让我蹲了半个月的 “Disallow: /” 还真是值得——一次犯错，一辈子记住。

如果你现在也发现自己的网站怎么也搜不到，赶紧去看看根目录下的 robots.txt。如果里面写着 Disallow: /，别犹豫，改掉它。

改完之后，按上面的清单再走一遍，通常 1~4 周就能看到收录效果。届时你的网站就会堂堂正正地出现在搜索结果里，而不是被锁在爬虫的黑名单中。

题外话：知乎、掘金等大型社区为什么用 CSR 也能被收录？因为它们早就不是纯 CSR 了——同构渲染、动态预渲染、高权重，外加 Google 对 JS 的强力支持。但那是另一个故事了，我们改天再聊。

希望这篇文章能帮到所有被 Disallow: / 坑过的站长。😭呜呜呜~~

/1000

最热