robots协议如何书写

发表日期:2018-07-07 文章编辑:飞鸟网络 浏览次数:

Robots协议用来告知搜索引擎哪些页面能被抓取,哪些页面不能被抓取;可以屏蔽一些网站中不想被蜘蛛爬行的文件,或者是比较大的文件,如:图片,音乐,视频等,节省服务器带宽;可以屏蔽站点的一些死链接。方便搜索引擎抓取网站内容;设置网站地图连接,方便引导蜘蛛爬取页面。

robots协议如何书写

文件写法

User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符

Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录

Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录

Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录

Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)

Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址

Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片

Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。

Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录

Allow: /tmp 这里定义是允许爬寻tmp的整个目录

Allow: .htm$ 仅允许访问以".htm"为后缀的URL

Allow: .gif$ 允许抓取网页和gif格式图片

Sitemap: 网站地图 告诉爬虫这个页面是网站地图

相关新闻
  • 我们能做什么

    我们不仅仅提供网站建设、网站优化推广、小程序、微信公众号,还提供一站式的网站解决方案,让您超越竞争对手,获得销量倍增!

  • 更多 +我们的优势







  • 更多 +关于飞鸟

    江苏飞鸟网络科技有限公司是专业从事互联网应用开发,网络营销推广和互动多媒体制作的科技公司.针对企业网站建设、网站设计以及网络营销有着丰富的从业实战经验 公司热情、真诚、耐心的服务每一位客户,为客户创造价值!欢迎来电咨询!

  • 江苏飞鸟网络科技有限公司
  • 徐州网站制作高端品牌
  • Q Q:2539312345
  • 手机:18651349555
  • 电话:4000-996-858
  • © 2016-2019 All Rights Reserved 江苏飞鸟网络科技有限公司 版权所有
  • 地址:徐州市云龙区绿地瀛海写字楼B座426-425-424-423室
  • 备案号:苏ICP备17034603号