新宝6注册《Q3249-1383》 网站或多或少都存在一些对排行没意义甚至有害的页面。关于站长来说是不希望被查找引擎检索的。而robots.txt文件则承当了站长这个自愿的表达功用。当蜘蛛访问网站会优先抓取robots.txt,新宝6招商 遵照站长配备的规则不再抓取不利于SEO的内容。
robots.txt?
robots.txt文件方位
robots文件一般放置于根目录下
robots.txt文件格式
Disallow:该项的值用于描绘不希望被访问的一组URL
Allow:该项的值用于描绘希望被访问的一组URL
User-agent:该项的值用于描绘查找引擎robot的姓名
例如:
User-Agent:YisouSpider // 配备YisouSpider
Disallow: / // 不容许YisouSpider抓取网站任何内容
User-Agent:* // 配备全部查找引擎
Allow: / // 容许抓取网站任何内容
更多
Disallow: /abc //阻止抓取含abc目录及子目录的全部页面
留心:有些当地注释为“阻止抓取abc目录及子目录中的内容”baidu官方有举例,"Disallow:/help"阻止robot访问/help.html、/helpabc.html、/help/index.html
Disallow: /abc/ //阻止抓取含abc目录的全部页面
baidu官方有举例,"Disallow:/help/"则容许robot访问/help.html、/helpabc.html,不能访问/help/index.html。
robots.txt通配符的运用
"" 匹配0或多个恣意字符 "$" 匹配行结束符。 举例: Disallow: /?* //阻止抓取网站中全部的动态页面
Disallow: /.htm$ // 阻止抓取全部以。htm为后缀的URL页面 /abc.htm/index 不匹配 差异于Disallow: /.htm // /abc.htm/index 也匹配
更多robots.txt,可以参照baidu站长站长途径关于robots.txt
网站哪些内容不建议被抓取
关于这个思想这个小白也懂的不多,一般取决于内容是不是利于SEO的原则。例如,我博客的查找效果页,新宝6注册 没做好优化的tags页都阻止抓取了。而关于公司站来说,新宝6代理 假设不方案可以优化公司名称的关键字,关于、联络、公司新闻等一些内容都可以考虑阻止