一个菜鸟站长血泪教训:为什么我的网站死活搜不到?
前两天,我搭了一个技术社区,认认真真写文章、配 SSR、搞响应式设计……结果上线两周,连百度、Google 的影子都搜不到。
折腾了一整天,最后发现罪魁祸首就是根目录下那个 robots.txt 文件,里面只有两行:
User-agent: *
Disallow: /我当场石化——这不就是我亲手给搜索引擎关上的大门吗?
robots.txt 是搜索引擎爬虫访问你网站时第一个读取的文件,相当于贴在门口的一张“访客须知”。
合在一起就是:“嘿,所有爬虫,我这个网站你们一下都别碰。”
效果立竿见影:爬虫乖乖掉头走人,你的页面永远不会出现在搜索结果里。已经收录的部分也会被慢慢清理干净。
别笑,90% 的个人站长都干过这种事。常见场景:
只要页面内容不是高度敏感的内网系统,绝大多数网站都不应该用 Disallow: /。
想让爬虫畅行无阻,把 Disallow: / 改成空值就行:
User-agent: *
Disallow:或者干脆删掉 robots.txt 文件 —— 大部分搜索引擎默认允许全站抓取。保留文件但写对规则,主要是为了以后可以主动声明 Sitemap 位置。
如果你只想禁止某个目录(比如后台 /admin):
User-agent: *
Disallow: /admin/robots.txt 就高枕无忧了吗?当然不是。打开门只是第一步,爬虫还要能走进来、看懂你的内容、觉得有价值,才会真正收录。
一份简易的 SEO 自检清单送给你:
在浏览器里右键 → “查看网页源代码”。如果核心正文、标题全都是空的 <div> 或者加载脚本 —— 说明你的 SSR 没做好,爬虫拿到的是空壳。必须保证源码里直接输出你希望被搜索到的文字。
爬虫需要一张“地图”才知道你有哪些页面。用在线生成器(比如 xml-sitemaps.com)生成 sitemap.xml,上传到网站根目录,然后在 robots.txt 里加上:
Sitemap: https://你的域名/sitemap.xml最后去 百度搜索资源平台 和 Google Search Console 手动提交这张地图。
搜索引擎不傻,垃圾内容、拼凑文章、套话连篇的 AI 文,即使被抓到也不会给排名。
回过头看,那个让我蹲了半个月的 “Disallow: /” 还真是值得——一次犯错,一辈子记住。
如果你现在也发现自己的网站怎么也搜不到,赶紧去看看根目录下的 robots.txt。如果里面写着 Disallow: /,别犹豫,改掉它。
改完之后,按上面的清单再走一遍,通常 1~4 周就能看到收录效果。届时你的网站就会堂堂正正地出现在搜索结果里,而不是被锁在爬虫的黑名单中。
题外话:知乎、掘金等大型社区为什么用 CSR 也能被收录?因为它们早就不是纯 CSR 了——同构渲染、动态预渲染、高权重,外加 Google 对 JS 的强力支持。但那是另一个故事了,我们改天再聊。
希望这篇文章能帮到所有被 Disallow: / 坑过的站长。😭呜呜呜~~