一号优惠经验分享网
51福利网的各种薅羊毛福利经验笔记

如何判断一个 IP 是爬虫

一、查看UA信息

如果UA信息不对,可以直接判断该蜘蛛为非百度搜索的蜘蛛。

目前UA分为移动、PC、和小程序三个应用场景,分别如下:

51福利网

【移动UA】

1、Mozilla/5.0(Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko)Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)

2、Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;+http://www.baidu.com/search/spider.html)

【PC UA】

1、Mozilla/5.0(compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

2、Mozilla/5.0(compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

【小程序UA】

Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;Smartapp; +http://www.baidu.com/search/spider.html)

二。通过 IP 判断爬虫,双向DNS解析认证

在这密密麻麻的日志里面,我们不仅要分辨出真正的爬虫 IP ,同时也要分辨出伪造的爬虫 IP,实属不易。

如果查看服务器日志,我们可以先通过 User-agent 大致判断出是爬虫还是正常用户,例如:

Mozilla/5.0 (compatible; SemrushBot/7~bl; +http://www.semrush.com/bot.html) 这个是 SemrushBot 的爬虫

Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) 这个是 bing 搜索引擎的爬虫

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.97 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 这个是 Google 搜索引擎的爬虫

……

这些都是爬虫的 User-agent,只要是开发过爬虫的小伙伴都知道,User-agent 可以伪造的,仅仅通过 User-agent 来判断爬虫是不准确的,我们还要通过 IP 地址判断是否是爬虫。

66.249.71.19 – – [19/May/2021:06:25:52 +0800] “GET /history/16521060410/2019 HTTP/1.1” 302 257 “-” “Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.97 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”

上面这条日志,第一个是爬虫的 IP ,你确定它是 Google 搜索引擎的爬虫(蜘蛛)IP 吗?

第一步:DNS反查IP

开发者可以对日志中访问服务器的IP地址进行反向DNS查找,判断某只spider是否来自百度搜索引擎,Baiduspider的hostname以.http://baidu.com或.http://baidu.jp 的格式命名,非.http://baidu.com或.http://baidu.jp即为冒充。

在Linux/Windows/OS三种平台下,验证方法分别如下:

1) 在Linux平台下,可以使用host IP命令反解IP来判断该抓取是否来自Baiduspider。

2) 在Windows平台或者IBM OS/2平台下,可以使用nslookup IP命令反解IP:打开命令处理器,输入nslookup IP地址 就能解析IP,判断该抓取是否来自Baiduspider。

比如我从宝塔日志正常蜘蛛和封锁蜘蛛各拿出一个来分析:

ua都显示是
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Mobile Safari/537.36 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
如上图第一个是真的必应搜索引擎蜘蛛,第二个是假的

3) 在macOS平台下,可以使用dig命令反解IP:打开命令处理器输入dig -x http://xxx.xxx.xxx.xxx(IP地址)就能解析IP,判断该抓取是否来自Baiduspider。

第二步:对域名运行正向DNS查找

对第一步中通过命令检索到的域名运行正向DNS查找,验证该域名与日志中访问服务器的原始IP地址是否一致,IP地址一致可确认spider来自百度搜索引擎,IP地址不一致即为冒充。

【示例】

host 111.206.198.69

69.198.206.111. in-addr.arpa domain name pointer baiduspider-111-206-198-69.crawl.baidu.com.

http://hostbaiduspider-111-206-198-69.crawl.baidu.com

http://baiduspider-111-206-198-69.crawl.baidu.com has address 111.206.198.69

已知搜索引擎蜘蛛ip库地址

👉Baiduspider常见问题解答

👉360蜘蛛ip_360搜索使用帮助 (so.com) 360搜索蜘蛛暂时不支持nslookup命令的查询

👉必应官方蜘蛛IP https://www.bing.com/toolbox/bingbot.json

验证地址:必应 Bing – 验证 Bingbot 工具

👉谷歌官方蜘蛛IP https://developers.google.com/static/search/apis/ipranges/googlebot.json

👉cloudflare官方蜘蛛IP
https://www.cloudflare.com/ips-v4
https://www.cloudflare.com/ips-v6

四、怎么屏蔽

1.如果有宝塔的防火墙,他们有真假蜘蛛屏蔽,可用在防火墙里面设置

①全局配置:同步蜘蛛池 宝塔官方是每周更新蜘蛛库还是很全面的

②如不需要蜘蛛爬取的网站,在站点配置——相应站点设置——取消蜘蛛池

2.屏蔽除常用搜索引擎以外的常见爬虫👉浏览器ua介绍和常见爬虫屏蔽

③配置robots.txt限制蜘蛛抓取目录和频率👉robots.txt笔记

五、网站有很多东西不合适蜘蛛爬

 1。屏蔽图像目录

  网站中图像是首要元素,许多网站中的图像素材都是从其他网站找来的,搜索引擎是能够分辨出真假的,所以这十分影响网站录入,所以对网站中图像目录“images”进行屏蔽仍是有必要的,这样也节省了不少流量。

  2。屏蔽模板目录

  网站程序运用模板是很常见的,直接套用模板也是一种重复性十分高的操作,在搜索引擎看来是剩余的,所以要用Robots。txt将模板目录屏蔽掉,这对网站没有任何影响。

  3。屏蔽缓存目录

  内蒙古网站制作中缓存目录是网站建设程序中常常存在的,缓存目录会让搜索引擎对网站同一内容进行多次索引,影响网站优化。因而要对缓存目录进行屏蔽,这样才干确保网站正常录入。

  4。屏蔽CSS目录

  搜索引擎通常是不会抓取CSS目录的,由于没有任何含义,即便将它屏蔽也不会对网站形成任何影响。因而能够用Robots。txt文件屏蔽掉CSS目录,有利于搜索引擎索引的质量。

打赏
一号优惠 · 51福利网薅羊毛福利具有时效性,如已失效,请留言
文章名称:《如何判断一个 IP 是爬虫》-一号优惠 · 51福利网
免责申明:本站所有活动信息均来自网络,如有失效,不实或侵权,请联系我们删除。谢谢

评论 抢沙发

一号优惠经验分享网最新最全薅羊毛,现金红包线报网

一号优惠经验分享网提供每日最新内部优惠,薅羊毛活动,现金红包领取,免费福利和网赚福利手机赚钱线报,打造中国最受欢迎的网赚信息发布平台!51福利网

51联盟线报群赚钱·合作·帮助

觉得文章有用就打赏一下文章作者

非常感谢你的打赏,我们将继续给力更多优质内容,让我们一起创建更加美好的网络世界!

支付宝扫一扫

微信扫一扫

登录

找回密码

注册