一、查看UA信息
如果UA信息不对,可以直接判断该蜘蛛为非百度搜索的蜘蛛。
目前UA分为移动、PC、和小程序三个应用场景,分别如下:
【移动UA】
1、Mozilla/5.0(Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko)Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)
2、Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;+http://www.baidu.com/search/spider.html)
【PC UA】
1、Mozilla/5.0(compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
2、Mozilla/5.0(compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
【小程序UA】
Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;Smartapp; +http://www.baidu.com/search/spider.html)
二。通过 IP 判断爬虫,双向DNS解析认证
在这密密麻麻的日志里面,我们不仅要分辨出真正的爬虫 IP ,同时也要分辨出伪造的爬虫 IP,实属不易。
如果查看服务器日志,我们可以先通过 User-agent 大致判断出是爬虫还是正常用户,例如:
Mozilla/5.0 (compatible; SemrushBot/7~bl; +http://www.semrush.com/bot.html) 这个是 SemrushBot 的爬虫
Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) 这个是 bing 搜索引擎的爬虫
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.97 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 这个是 Google 搜索引擎的爬虫
……
这些都是爬虫的 User-agent,只要是开发过爬虫的小伙伴都知道,User-agent 可以伪造的,仅仅通过 User-agent 来判断爬虫是不准确的,我们还要通过 IP 地址判断是否是爬虫。
66.249.71.19 – – [19/May/2021:06:25:52 +0800] “GET /history/16521060410/2019 HTTP/1.1” 302 257 “-” “Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.97 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
上面这条日志,第一个是爬虫的 IP ,你确定它是 Google 搜索引擎的爬虫(蜘蛛)IP 吗?
第一步:DNS反查IP
开发者可以对日志中访问服务器的IP地址进行反向DNS查找,判断某只spider是否来自百度搜索引擎,Baiduspider的hostname以.http://baidu.com或.http://baidu.jp 的格式命名,非.http://baidu.com或.http://baidu.jp即为冒充。
在Linux/Windows/OS三种平台下,验证方法分别如下:
1) 在Linux平台下,可以使用host IP命令反解IP来判断该抓取是否来自Baiduspider。
2) 在Windows平台或者IBM OS/2平台下,可以使用nslookup IP命令反解IP:打开命令处理器,输入nslookup IP地址 就能解析IP,判断该抓取是否来自Baiduspider。
比如我从宝塔日志正常蜘蛛和封锁蜘蛛各拿出一个来分析:
ua都显示是
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Mobile Safari/537.36 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
3) 在macOS平台下,可以使用dig命令反解IP:打开命令处理器输入dig -x http://xxx.xxx.xxx.xxx(IP地址)就能解析IP,判断该抓取是否来自Baiduspider。
第二步:对域名运行正向DNS查找
对第一步中通过命令检索到的域名运行正向DNS查找,验证该域名与日志中访问服务器的原始IP地址是否一致,IP地址一致可确认spider来自百度搜索引擎,IP地址不一致即为冒充。
【示例】
host 111.206.198.69
69.198.206.111. in-addr.arpa domain name pointer baiduspider-111-206-198-69.crawl.baidu.com.
http://baiduspider-111-206-198-69.crawl.baidu.com has address 111.206.198.69
已知搜索引擎蜘蛛ip库地址:
👉360蜘蛛ip_360搜索使用帮助 (so.com) 360搜索蜘蛛暂时不支持nslookup命令的查询
👉必应官方蜘蛛IP https://www.bing.com/toolbox/bingbot.json
👉谷歌官方蜘蛛IP https://developers.google.com/static/search/apis/ipranges/googlebot.json
👉cloudflare官方蜘蛛IP
https://www.cloudflare.com/ips-v4
https://www.cloudflare.com/ips-v6
四、怎么屏蔽
1.如果有宝塔的防火墙,他们有真假蜘蛛屏蔽,可用在防火墙里面设置
①全局配置:同步蜘蛛池 宝塔官方是每周更新蜘蛛库还是很全面的
②如不需要蜘蛛爬取的网站,在站点配置——相应站点设置——取消蜘蛛池
2.屏蔽除常用搜索引擎以外的常见爬虫👉浏览器ua介绍和常见爬虫屏蔽
③配置robots.txt限制蜘蛛抓取目录和频率👉robots.txt笔记
五、网站有很多东西不合适蜘蛛爬
1。屏蔽图像目录
网站中图像是首要元素,许多网站中的图像素材都是从其他网站找来的,搜索引擎是能够分辨出真假的,所以这十分影响网站录入,所以对网站中图像目录“images”进行屏蔽仍是有必要的,这样也节省了不少流量。
2。屏蔽模板目录
网站程序运用模板是很常见的,直接套用模板也是一种重复性十分高的操作,在搜索引擎看来是剩余的,所以要用Robots。txt将模板目录屏蔽掉,这对网站没有任何影响。
3。屏蔽缓存目录
内蒙古网站制作中缓存目录是网站建设程序中常常存在的,缓存目录会让搜索引擎对网站同一内容进行多次索引,影响网站优化。因而要对缓存目录进行屏蔽,这样才干确保网站正常录入。
4。屏蔽CSS目录
搜索引擎通常是不会抓取CSS目录的,由于没有任何含义,即便将它屏蔽也不会对网站形成任何影响。因而能够用Robots。txt文件屏蔽掉CSS目录,有利于搜索引擎索引的质量。