扫二维码与项目经理沟通
我们在微信上24小时期待你的声音
解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流
大家都知道,robots协议是主流搜索引擎共同遵守的一个协议,它主要作用是约定网站内容那些事可以被抓取那些是不可以被抓取的,而且可以针对指定搜索引擎来进行设置,一般情况下搜索引擎是严格按照该文件进行网页抓取的。因此,绝大多数网站中都存在一个robots.txt文件,那么在里面描述文件目录的时候是否能够使用中文字符呢?下面是百度官方发布的信息:
有同学问百度站长学院一个关于robots的问题:我们有个站点的目录结构使用的是中文,这样式儿的:www.a.com/冒险岛/123.html,那在制作robots文件和sitemap文件的时候,可以直接使用中文吗?百度能获取到吗?在实际操作中我们发现,sitemap中有文件是可以生效的,但robots封禁貌似没有反应,所以想确认一下:robots文件是否支持中文?
工程师解答:Baiduspider目前(2016年10月)在robots里是不支持中文的。
同学追问:那我们进行UrlEncode编码会不会支持呢?比如这种:http://www.a.cn/%E7%89%B9%E6%AE%8A:%E6%B5%8F%E8%A7%88/%E7%94%9F%E6%AD%BB%E7%8B%99%E5%87%BB:%E7%99%BD%E9%93%B6%E5%8A%A0%E7%89%B9%E6%9E%97
工程师解答:robots文件支持这种写法。但是否生效,还要取决于当时BaiduSpider抓取的是哪种形式结构的链接,如果是UrlEncode编码就可以生效,如果是中文就非常不幸了。
简单的说,一般情况下robots里是不支持中文的,就算是进行UrlEncode编码如果连接是中文的还是不可以的。
我们在微信上24小时期待你的声音
解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流