robots.txt怎么写,robots.txt正确的写法和存放路径

2021-11-10 11:45:56 来源:本站
  我们如何让搜索引擎应该抓取内容、或者让搜索引擎不能抓取指定的内容呢?
  让搜索引擎抓取内容或者禁止抓取内容是可以通过robots.txt文件进行设定的,如何正确的设置robots文件,请跟着商夏通的操作步骤进行阅读了解。
  robots.txt文件网站正确的存放路径,有很多新手不知道robots应该放在网站上面位置,我们做一个简单的解答。
  robots.txt需要放在网站跟目录下、根目录指的就是网站搭建时的存放文件夹(一般都默认为www和web)。
  注意:robots.txt必须命名为robots.txt,不能更改格式和命名。Robots文件必须放在网站根目录下,不能放在其他目录下、放在其他目录属无效,是错误的操作手法。
  搜索引擎蜘蛛,在访问网站链接时,首先会遵守用户协议(用户是否愿意公开内容、或者有的内容比较隐私、你可以选择不公开那些内容)去访问你网站根目录的robots.txt文件,看你网站允许抓取的范围。到底如何设置正确的robots.txt呢?一起来了解下、希望能帮助到您。
  一、什么是robots.txt
  robots.txt是一个用户协议文件,用户可以选择对内容进行公开,或者选择不开公开内容。如果设置错了,就会影响到蜘蛛抓取。
  二、robots.txt含义所在
  Robots.txt是搜索引擎首要的第一个抓取文件,通过设置告诉搜索引擎本站点那些内容可以抓取,那些不可以抓取,可以自定义设置允许或不允许某蜘蛛抓取该网站内容。
  可能有人会问,如果我不设置robots文件有关系吗?这并没有问题,如果网站不设robots文件,意味着你的网站内容可以任意抓取。刚说到了robots是一个用户协议文件。希望对你有所帮助。
  搜索引擎具体由哪些蜘蛛,点击进去查看到底有哪些蜘蛛程序。希望这篇文章能解决你的问题。
  三、robots.txt文件正确的写法
  允许搜索引擎访问所有的页面的写法(允许收录所有的页面)
  User-agent: *?
  Disallow:
  禁止搜索引擎抓取网站所有内容写法(不允许抓取网站内容、不允许收录网站内容)
  User-agent: *?
  Disallow: /
  禁止指定搜索引擎蜘蛛访问(比如禁止百度蜘蛛抓取,写法如下)
  User-agent: baiduspider?
  Disallow: /
  允许百度搜索引擎蜘蛛访问(比如允许百度蜘蛛抓取,写法如下)
  User-agent: baiduspider
  Disallow:?
  User-agent: *?
  禁止搜索引擎抓取访指定目录?(写法如下)
  User-agent: *
  Disallow: /cgi-bin/
  Disallow: /amidn/
  Disallow: /images/
  禁止搜索引擎抓取带字符的链接?(写法如下)
  User-agent: *
  Disallow:/*?*(禁止抓取带?号的链接)
  Disallow:/**(禁止抓取带的链接)
  Disallow: /news/09232.html (禁止抓取指定页面)
  四、需要注意的细节:
  1、一定不要写绝对路径,就是不要带我们网站域名。用/代替就可以。
  2、注意robots文件中的所有符号都是在英文状态下写的,比如:Disallow: /wp-admin/ 中":"是英文状态下的。
  3、注意空格;例如:Disallow: /wp-admin/ 中":"后面紧跟着是一个空格;
  4、注意大小写;例如:Disallow: /wp-admin/中Disallow的"D"是大写的。
  5、robots是有生效时间的,是由百度决定的,几天或者两个月以内,所以,一定不要随便屏蔽整站。
  6、还有一点要弄清楚的就是:
  Disallow: /help 意思是禁止蜘蛛访问/help.html、/helpabc.html、/help/index.html所有的带help的文件及文件夹。
  Disallow: /help/则是禁止蜘蛛访问/help/index.html这种形式的路径,允许访问/help.html、/helpabc.html,这两个是不一样的,大家要记清楚。
  其实方法都很简答,通过txt文件编辑为robots.txt,然后上传到网站根目录就实现抓取权限了。注意:所有语句都是单规则的,即每行仅声明一条规则,比如例五中三个目录必须分三行列出来。
  文由商夏通提供的robots.txt怎么写,robots.txt正确的写法和存放路径