营销推广

当前位置:

如何设置让网站禁止被爬虫收录

浏览量:

       网站建设好了,当然是希望网页被搜索引擎收录的越多越好,但有时候我们也会碰到网站不需要被搜索引擎收录的情况。要启用一个新的域名做镜像网站,主要用于PPC 的推广,这个时候就要想办法屏蔽搜索引擎蜘蛛抓取和索引我们镜像网站的所有网页。因为如果镜像网站也被搜索引擎收录的话,很有可能会影响官网在搜索引擎的权重。
seo
  以下列举了屏蔽主流搜索引擎爬虫(蜘蛛)抓取/索引/收录网页的几种思路。注意:是整站屏蔽,而且是尽可能的屏蔽掉所有主流搜索引擎的爬虫(蜘蛛)。
 
  1、通过 robotstxt 文件屏蔽
 
  可以说 robotstxt 文件是最重要的一种渠道(能和搜索引擎建立直接对话),给出以下建议:
 
  Useragent Baiduspider
 
  Disallow /
 
  Useragent Googlebot
 
  Disallow /
 
  Useragent GooglebotMobile
 
  Disallow /
 
  Useragent GooglebotImage
 
  Disallow/
 
  Useragent MediapartnersGoogle
 
  Disallow /
 
  Useragent AdsbotGoogle
 
  Disallow /
 
  UseragentFeedfetcherGoogle
 
  Disallow /
 
  Useragent Yahoo Slurp
 
  Disallow /
 
  Useragent Yahoo Slurp China
 
  Disallow /
 
  Useragent YahooAdCrawler
 
  Disallow /
 
  Useragent YoudaoBot
 
  Disallow /
 
  Useragent Sosospider
 
  Disallow /
 
  Useragent Sogou spider
 
  Disallow /
 
  Useragent Sogou web spider
 
  Disallow /
 
  Useragent MSNBot
 
  Disallow /
 
  Useragent iaarchiver
 
  Disallow /
 
  Useragent Tomato Bot
 
  Disallow /
 
  Useragent
 
  Disallow /
 
  2、通过 meta tag 屏蔽
 
  在所有的网页头部文件添加,添加如下语句:
 
       <meta name='robots' content='index,follow' />:可以抓取本页,也可以顺着本页继续索引别的链接
 
       <meta name='robots' content='noindex,follow' />:禁止抓取本页,但可以抓取跟踪本页的其它链接
 
       <meta name='robots' content='index,nofollow'/>:可以抓取本页,禁止抓取和跟踪本页的其它链接
 
       <meta name='robots' content='noindex,nofollow' />:禁止抓取本页,禁止抓取和跟踪本页的其它链接
 
       <meta name='robots' content='noarchive' />:禁止搜索引擎建立快照
 
  3、通过服务器(如:Linux/nginx )配置文件设置
 
  直接过滤 spider/robots 的IP 段。
 
  以上就是《SEO优化之如何设置让网站禁止被爬虫收录》的全部内容,仅供站长朋友们互动交流学习,SEO优化是一个需要坚持的过程,希望大家一起共同进步。
 

[声明]本网转载网络媒体稿件是为了传播更多的信息,此类稿件不代表本网观点,本网不承担此类稿件侵权行为的连带责任。故此,如果您发现本网站的内容侵犯了您的版权,请您的相关内容发至此邮箱【306630596@qq.com】,我们在确认后,会立即删除,保证您的版权。