很多人在网上看到过这样的文章:代理IP能突破访问限制,提高访问速度,隐藏真实IP,等等一大堆的优点,颇有点无所不能的感觉。等到自己使用代理IP时,却发现这不行,那不行,感觉自己使用的是假代理IP,这是怎么回事呢?
一、代理IP也怕反爬
当您使用本机IP访问某网站时,本机IP受到了访问限制。您想到了使用代理IP来解决,但使用代理IP不一会,同样受到了访问限制。这是为什么呢,可能原因有哪些呢?
1、没有伪装User-Agent,在目标网站的眼中,你就是一个自动程序访问,并非真实用户访问,哪怕你使用了质量再高的代理IP,依然被识别,同样受到限制。
2、Referer防盗链。有些图片或视频网站经常会有这样的防盗链机制,如果你是直接访问某个URL,不管使用质量多高的代理IP,怎么访问都会失败,header里需要带上Referer(上一个URL)才能成功。
3、访问频率过快。网站管理员为了减轻服务器的压力,通常会设置访问频率的阈值,比如一分钟可以访问多少次,超过这个阈值就会限制IP访问,使用代理IP也有遵循这个规则,否则也会受到限制。
4、其他原因,比如访问网页间隔有规律,不管访问什么url,都是1秒时间,这样很容易被识别,受到限制,还有cookie,验证码等等方面因素。
二、代理IP以量取胜
如果你的本机IP在10秒内访问某网站100次受到了限制,那么使用代理IP访问了100次,同样会受到限制。解决方案可以是这样:使用5个代理IP,在10秒内每个代理IP访问该网站20次,采取这样的策略,代理IP就不会受到限制了。
代理IP的优点是量多,可以购买成千上万个代理IP来完成任务,而本机IP往往只有1个,受到限制后就没办法访问了,代理IP则不怕,一个代理IP受到限制了,可以切换另一个代理IP来继续工作,当然,最有效率的方法是不触发反爬策略,不受限制,稳定持续的工作。