国外在线代理服务器免费 可用的在线网页代理( 二 )


def get_https_proxy(): proxy_ip = random.choice(https_proxy_pool) return proxy_ipdef get_http_proxy(): proxy_ip = random.choice(http_proxy_pool) return proxy_ip为了保证代理的可用,当检测到一个代理不可用时,要及时的清理掉 。就是从http_proxy_pool和https_proxy_pool列表中删除 。
一个简单的爬虫代理池已经搭建好,总结下爬虫代理池搭建的过程:

  • 从免费的代理网站上爬取代理信息,存放在列表中 。
  • 提供从代理池中随机获取代理的方法 。http类型的网站要使用http类型的代理,https类型的网站要使用https类型的代理,因此分别提供获取http和https类型代理的方法 。
  • 提供检测代理是否可用的方法,代理可用返回True,不可用返回False 。
  • 提供删除代理的方法 。
这个代理池其实相当的简单,有一个弊端就是在检测代理是否可用时,如果返回的不是200代码就认为代理不可用,返回其他代码的情况有很多,例如网络不可用、测试网站不可访问等 。比较好的做法是给每个代理设置一个分值,例如10分,如果检测到不可用就减1,当分数为0时,就确定该代理不可用,直接从代理池中移除 。检测到代理可用,就将分数设为10分 。这种做法给每个检测到不可用代理一个改邪归正的机会,不至于一刀切的抛弃掉 。
作者:Summer哥
【国外在线代理服务器免费 可用的在线网页代理】 出处:www.bigdata17.com


特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。