以目录形式生成的url二级域名形式robots.txt怎么写

有什么办法让蜘蛛不抓取二级域名,让主域名抓取正常?... 有什么办法让蜘蛛不抓取二级域名,让主域名抓取正常?

可选中1个或多个下面的关键词,搜索相关资料。也可直接点“搜索资料”搜索整个问题。

分情况来看,如果二级域名有独的内容,可在二级域名网站中单独设置robots ;如果二级域名和主域名的内容是一样的,则可301转向到主域名,这样主站权重集中,不分散,也有利于排名。

搜索引擎蜘蛛会把二级域名和主域名算做两个域名,分开计算权重,因此可以单独设置两个域名的robots.txt文件即可~~~

  • Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

搜索引擎机器人访问网站时,首先会寻找站点根目录有没有 robots.txt文件,如果有这个文件就根据文件的内容确定收录范围,如果没有就按默认访问以及收录所有页面。另外,当搜索蜘蛛发现不存在robots.txt文件时,会产生一个404错误日志在服务器上,从而增加服务器的负担,因此为站点添加一个robots.txt文件还是很重要的。

这是由WordPress自动生成的,意思是告诉搜索引擎不要抓取后台程序文件。

但这是远远不够的,比较完整的WordPress站点robots.txt文件内容如下:

使用方法:新建一个名称为robots.txt文本文件,将上面的内容放进去,然后上传到网站根目录即可。

下面分别解释一下各项的作用:

用于告诉搜索引擎不要抓取后台程序文件页面。

禁止搜索引擎抓取评论分页等相关链接。

禁止搜索引擎抓取收录分类和标签的分页。

禁止搜索引擎抓取收录trackback等垃圾信息

禁止搜索引擎抓取收录feed链接,feed只用于订阅本站,与搜索引擎无关。

禁止搜索引擎抓取站内搜索结果

禁止搜索引擎抓取附件页面,比如毫无意义的图片附件页面。

  • 百度关于robots的说明

最后需要说明的是:百度会严格遵守robots的相关协议,请注意区分您不想被抓取或收录的目录的大小写,百度会对robots中所写的文件和您不想被抓取和收录的目录做精确匹配,否则robots协议无法生效。

我要回帖

更多关于 url二级域名形式 的文章

 

随机推荐