新宝6注册: robots.txt正确写法

新宝6注册《Q3249-1383》网站或多或少都存在一些对排行没意义甚至有害的页面。关于站长来说是不希望被查找引擎检索的。而robots.txt文件则承当了站长这个自愿的表达功用。当蜘蛛访问网站会优先抓取robots.txt，新宝6招商 遵照站长配备的规则不再抓取不利于SEO的内容。

　　robots.txt?
　　robots.txt文件方位
　　robots文件一般放置于根目录下
　　robots.txt文件格式
　　Disallow:该项的值用于描绘不希望被访问的一组URL
　　Allow:该项的值用于描绘希望被访问的一组URL
　　User-agent:该项的值用于描绘查找引擎robot的姓名
　　例如：
　　User-Agent:YisouSpider // 配备YisouSpider
　　Disallow: / // 不容许YisouSpider抓取网站任何内容
　　User-Agent:* // 配备全部查找引擎
　　Allow: / // 容许抓取网站任何内容
　　更多
　　Disallow: /abc //阻止抓取含abc目录及子目录的全部页面
　　留心：有些当地注释为“阻止抓取abc目录及子目录中的内容”baidu官方有举例，"Disallow:/help"阻止robot访问/help.html、/helpabc.html、/help/index.html
　　Disallow: /abc/ //阻止抓取含abc目录的全部页面
　　baidu官方有举例，"Disallow:/help/"则容许robot访问/help.html、/helpabc.html，不能访问/help/index.html。
　　robots.txt通配符的运用
　　"" 匹配0或多个恣意字符　　"$" 匹配行结束符。　　举例：　　Disallow: /?* //阻止抓取网站中全部的动态页面
　　Disallow: /.htm$ // 阻止抓取全部以。htm为后缀的URL页面 /abc.htm/index 不匹配　　差异于Disallow: /.htm // /abc.htm/index 也匹配
　　更多robots.txt，可以参照baidu站长站长途径关于robots.txt
　　网站哪些内容不建议被抓取
　　关于这个思想这个小白也懂的不多，一般取决于内容是不是利于SEO的原则。例如，我博客的查找效果页，新宝6注册 没做好优化的tags页都阻止抓取了。而关于公司站来说，新宝6代理 假设不方案可以优化公司名称的关键字，关于、联络、公司新闻等一些内容都可以考虑阻止

Recent Posts

Tags

Recent Comments