有趣与否我不清楚反爬虫,但常见的反爬手段还是很多的
1:复杂的登陆流程,以前是验证码登陆,现在是滑动条登陆反爬虫。
2:而现在往往采用实名制或手机验证登陆反爬虫,等你登陆了,每天限制爬3条..
3:基础的等等就不说了
4:国家企业信息系统
5:JavaScript反爬反爬虫。端口压根就是8783,而需要从GEICE解密。
另外反爬虫,有爬过携程的举个手呗
6:数据是ajax异步加载的反爬虫,而返回来的数据还是加密的
7:数据用图片显示,增加识别难度反爬虫。
8:仅提供部分数据反爬虫。
比如豆瓣读书反爬虫,标签显示互联网(216614)
可是互联网第1000本后的压根不给你查询反爬虫。
9:蜜罐反爬虫,在网页上故意放一些不存在的普通用户一般不会点击的链接,而爬虫却会,这样通过一定时间内访问这些链接的频率就认定是爬虫
10:ip限制反爬虫。
对于反爬反爬虫,可以通过技术过滤普通爬虫,更关键的还是提高爬虫的成本,如果爬虫付出的成本高于获取的数据,那么谁也不愿意去爬取数据
加微信好友, 获取更多信息
复制微信号
声明
一、本站原创内容,其版权属于本网站所有。其他媒体、网站或个人转载使用时不得进行商业性的原版原式的转载,也不得歪曲和篡改本网站所发布的内容。如转载须注明文章来源。
二、本网站转载其它媒体作品的目的在于传递更多信息,并不代表本网站赞同其观点和对其真实性负责;如侵犯你的权益请告诉我们立即删除;其他媒体、网站或个人转载使用自负法律责任。
发表评论