扫二维码与项目经理沟通
我们在微信上24小时期待你的声音
解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流
近日我们上线了“微构网络项目管理与客户服务管理系统”,得到众多老客户的一致好评。我们是红网论坛的技术服务商,因此也在系统中把红网论坛也纳入网站状态巡查计划中,一般情况下即便是普通网站也不太会出现网站访问异常问题,最多可能是各类预警级别的信息。然而就在今天收到了系统自动推送的异常信息,发现异常的项目还是红网论坛。
当时就很诧异,怎么刚加入巡查网站就出现异常了,怎么回这么巧呢,而且红网作为较大的媒体网站,不太可能轻易就出现这种异常呀。但细看系统反馈的结果是403异常返回码,而不是直接不能访问或者50x错误。
然后用浏览器打开红网论坛,发现是可以完全正常访问的。那么系统为啥会反馈这条异常信息的,难道我们的巡查系统误报了么(客观上,会存在误报可能,只是几率很低)。这个403异常返回码的预警信息,在巡查系统中其实是为了识别某些挂马代码会单独为了识别百度蜘蛛进行恶意跳转的,因此在巡查系统中加入了Baiduspider等识别字符。
通过单元测试后发现,红网论坛之所以被巡查系统发送异常提示,就是因为当访问请求中包含了部分百度蜘蛛特征时,系统就会返回异常。
返回异常返回码403,在返回body内容中出现了这样的:
也就是被网站使用的防火墙工具(创宇盾)拦截了这种请求,因此网站系统会返回403状态码(即禁止访问)。
凭借笔者有不少seo方面的经验,于是就有两个猜想:
1、防火墙会拦截所有来自百度蜘蛛的请求,不管是真实的百度蜘蛛,还是用于测试来模拟百度蜘蛛访问。
2、防火墙比较高级,会识别真实的百度蜘蛛请求(真的蜘蛛)和模拟测试的蜘蛛请求(假的蜘蛛),如果是真实的不拦截,如果是假的拦截。
为了进一步分析,笔者查看了红网论坛在百度搜索引擎上的表现,发现收录的内容基本是之前创建的。尝试了很多条新发布的内容,百度均没有收录。测试了数十条一个月以内发布的论坛主题,发现均不被百度收录。
但是红网这种影响力的网站,再者这种网站内容更新频率和内容质量都比较高,而且网站搜索引擎权重也比较高。理应不会有这么差的收录表现,即便是微构网络这种企业官网小网站,几乎能够做到95%以上的收录率,绝大多数时间都是100%的收录率。所以,这显然不正常。
再看下红网www主站这种模拟请求,返回状态是没有问题(返回200)。
随便在主站首页找一篇内容,基本都是全部收录,而且通过百度快照时间判断,收录时间很是非常快(可以认为是秒收)。
通过以上的信息,基本上可以评估认为,只要是带有百度等搜索引擎蜘蛛的请求标识,都会被防火墙拦截。这样一来,百度蜘蛛都被禁止访问网站了,自然相关网站页面也就不会被百度蜘蛛抓取到,抓取不到自然就不会被收录了。
所以我们日常需要关注自己网站的一些状态,比如通过分析网站分析日志,也可以利用一些工具模拟搜索引擎访问网站,查看返回的信息是否达到预期。
如上图就是某网站访问日志的部分节选,这段节选日志标志着百度、谷歌、必应等搜索引擎的蜘蛛到访记录,且网站返回结果是200(正常返回码)。如果这些请求都是异常的,那么显然网站在搜索引擎的表现不会太好。
我们在微信上24小时期待你的声音
解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流