求解SEO高手: 我想在wordpress robots.txtt 里面填写网站地图 应该怎么写呢?

网站地图链接放在robots.txt文件里的用处
稿源:中国站长站
各大搜索引擎都发布了对网站地图的新的支持方式,就是在robots.txt文件里直接包括sitemap文件的链接。目前对此表示支持的搜索引擎公司有Google, Yahoo,而中文搜索引擎公司,显然不在这个圈子内。
这样做的好处就是,站长不用到每个搜索引擎的站长工具或者相似的站长部分,去提交自己的sitemap文件,搜索引擎的蜘蛛自己就会抓取robots.txt文件,读取其中的sitemap路径,接着抓取其中相链接的网页。
这里基于一个假设,robots.txt已然是一个标准,所有的网站至少都有一个,而sitemap还正在建立标准中,这样的做法,可以让站长减轻工作,而且如果他们不需要更为详细的索引和搜索的资料的话,那么就只需要包括sitemap到robots.txt就可以了。
让我们现在就开始动手,修改robots.txt文件。
# robots.txt
User-agent: *
Disallow: /function/
Disallow: /FCKeditor/
Disallow: /CACHE/
Disallow: /SCRIPT/
Disallow: /ADMIN/
Disallow: /wap.asp
Disallow: /cmd.asp
Sitemap: /sitemap.xml
有好的文章希望站长之家帮助分享推广,猛戳这里
本网页浏览已超过3分钟,点击关闭或灰色背景,即可回到网页robots.txt怎么写,robots.txt文件的写法!
编辑:冯耀宗 -
看到很多网站都没有文件,那么一个常规的robots.txt文件应该要这么写呢,小编今天给大家来说说robots.txt怎么写,robots文件常规的写法。
上图是小编的robots文件,我的个人博客是织梦的系统,织梦默认是有部分robots文件的,小编先给大家解释一下其中的写法。
1、允许所有搜索引擎访问 User-agent: * Allow:
2、禁止所有搜索引擎访问 User-agent: * Disallow: /
3、网站地图:Sitemap:
哪些页面要用robots.txt屏蔽
知道怎么写了,但很多朋友还是不知道哪些页面需要屏蔽,让搜索引擎不被访问,其实很简单,不想被的页面就屏蔽,那么哪些页面是我们不想被搜索引擎抓取的呢。
空白页面:什么是空白页面,比如注册页面、联系我们、关于我们等页面属于空白页面,因为这种页面在搜索引擎看来是没有意义的,没有人会搜索注册来到你的网站。
后台页面:后台是不被搜索引擎的,所以我们需要robots屏蔽后台登陆页面。
动态页面:通常情况下,我们网站都会做伪静态,那么动态页面我们会屏蔽掉。
总结:robots文件有必要写,一来给搜索引擎做个更好的,其次是给搜索引擎做一个网站地图。
99%的人还阅读了:
来源:(QQ/微信号:),欢迎分享本文,转载请保留出处!
你会喜欢下面的文章? You'll like the following article.
冯耀宗博客
关注搜索引擎和站长的那点事儿!问题对人有帮助,内容完整,我也想知道答案
问题没有实际价值,缺少关键内容,没有改进余地
User-Agent: *
Disallow: /
Allow: /article
比如我这样写,他会爬取article目录下的网页,但是我还想蜘蛛爬取首页怎么办?除此以外的链接我不想让蜘蛛爬取到
答案对人有帮助,有参考价值
答案没帮助,是错误的答案,答非所问
User-Agent: *
Disallow: /*
Allow: /test.html
测试结果:
同步到新浪微博
分享到微博?
你好!看起来你挺喜欢这个内容,但是你还没有注册帐号。 当你创建了帐号,我们能准确地追踪你关注的问题,在有新答案或内容的时候收到网页和邮件通知。还能直接向作者咨询更多细节。如果上面的内容有帮助,记得点赞 (????)? 表示感谢。
明天提醒我
关闭理由:
删除理由:
忽略理由:
推广(招聘、广告、SEO 等)方面的内容
与已有问题重复(请编辑该提问指向已有相同问题)
答非所问,不符合答题要求
宜作评论而非答案
带有人身攻击、辱骂、仇恨等违反条款的内容
无法获得确切结果的问题
非开发直接相关的问题
非技术提问的讨论型问题
其他原因(请补充说明)
我要该,理由是:如何通过浏览器查看网站是否支持移动端访问?
欢迎您关注我们robots是什么?robots.txt应该怎么写才正确?
对于很多新入门的SEOer来说,robots可能是一个新的名词,完全不知道robots是什么,具有什么作用。在这里,安徒生来给大家说说,robots是什么以及robots.txt应该怎么写才正确。
首先,我们先来了解一下,robots是什么?
robots是robots.txt的缩写,被称为蜘蛛协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots
Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。,一般都是放在网站根目录下.
那么,我们知道了什么叫做robots,有什么作用,那么,robots.txt应该怎么写才正确呢?
我们在书写robots的时候,细心很重要,因为这关乎着一个网站的抓取情况,很有可能因为我们多写一个字母或者多了一个空格,就使robots失效。以下是常见的robots写法,大家可以参考下:
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/*.htm
禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图 告诉爬虫这个页面是网站地图
一个网站的robots是极为重要的,简单点说,robots就相当于你在去旅行的时候,那些路标。当你新到一个地方的时候,这些路标或者招牌会告诉你,该怎么走,在这里有哪些规矩,哪些地方是不能去的,而哪些地方是非常欢迎你去的。
对于网站来说,也是一样,蜘蛛来到你这个网站,第一件事就是会先看你的robots,看看里面写了些什么,有哪些地方是你不希望让蜘蛛抓取的,然后蜘蛛在爬行的时候就会避开这些路径。其实就是我们在自己的网站,给蜘蛛写一个规定,就如同女厕所不让男生进一样!
然后,江西SEO安徒生再给大家分享个如何检验robots是否生效的办法:
首先:登入百度站长平台,在页面找到robots,如图:
然后点击检测并更新,如图:
第一次可能需要点时间,几分钟后,前来查看,就知道自己的robots是否生效了。
已投稿到:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

我要回帖

更多关于 wordpress robots.txt 的文章

 

随机推荐