SEO优化中robots.txt是什么,怎么写,以及注意事项大全
robots是什么?
robots是一个协议,禁止百度爬虫爬取某些目录、页面的协议,因为我们网站除了希望被爬虫抓取的页面,还有一些登录注册后台等内容,这些和SEO没啥关系,可以不让爬虫爬,因为爬虫在我们网站停留总时间是固定的,若把时间浪费在对SEO无效的页面,真正需要爬虫爬需要爬虫收录的页面压根没找到,这不是得不偿失吗,所以该封就封。
robots如何写?
这是百度百科给的写法:
User-agent: 这里的代表的所有的搜索引擎种类,是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。
Disallow: /? 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以”.htm”为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图 告诉爬虫这个页面是网站地图
robots案例:
知乎的robots写法:
User-agent:
Crawl-delay: 10
Disallow: /login
Disallow: /logout
Disallow: /resetpassword
Disallow: /terms
Disallow: /search
Disallow: /notifications
Disallow: /settings
Disallow: /inbox
Disallow: /admin_inbox
Disallow: /?guide
Disallow: /people/––-*
美团的robots写法:
User-agent:
allow: /ztmap/?page=
Disallow: /static/
Disallow: /deal/buy/
Disallow: /deal/exchanges/
Disallow: /s/?w=
Disallow: /?
Disallow: /?
Disallow: /deal/consultations/
Disallow: /deal/myconsultation/
Disallow: /deal/dynamic/
Disallow: /deal/sidedeallist/
Disallow: /deal/feedbacklist/
Disallow: /api/v2/
Disallow: /order*
Sitemap: http://zhao.meituan.com/attached/sitemap/all.xml
西安seo的经验:
看到百科的说明和知乎美团的两个案例,基本上也会写了,但这里还有几个要点需要注意。
(1)
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /admin 这里定义是禁止爬寻url前有admin单词的,比如/admin.html同样访问不了,/adminList/a.html页访问不了
(2)
网站内有很多不需要的目录,那怎么能知道哪些不需要呢?这时候可以分析网站日志,小型网站推荐光年日志分析软件。可以看到百度爬虫爬了哪些目录,可以轻松知道哪个目录该屏蔽。
(3)
你会发现有些人连自己的首页都屏蔽,这个原理是这样的,通过日志发现,爬虫抓取次数太多给了首页,但首页又没啥大更新,需要引导爬虫抓取其他页面,所以屏蔽了首页。