python搭建匿名代理池

python搭建匿名代理池

如果您是本站会员;我们将为您提供技术支持!!!

本篇文章给大家带来的内容是介绍如何用Python搭建匿名代理池？搭建匿名代理池的方法。有一定的参考价值，有需要的朋友可以参考一下，希望对你们有所帮助。

常听到很多人抱怨自己的IP因爬虫次数太多而被网站屏蔽，不得不频繁使用各种代理IP，却又因为网上的公开代理大部分都是不能使用，而又要花钱花精力去申请VIP代理，几番波折又遭屏蔽。特此写一篇如何利用Python搭建代理池的文章，以降低时间及精力成本，实现自动化获取活跃代理IP的功能。

运作原理

一、网站代理获取

1. 爬免费代理网站的IP列表测试是否可用及是否是高匿

2. 若都是，则放进数据库，否则丢弃。

3. 重复第2步

二、保证失效的代理能被尽快从代理池中挑出

1. 从爬虫数据库获取IP

2. 测试IP的可用性和匿名性

3. 如果可用且匿名，则保留，否则丢弃。

4. 重复第1步

说明①：可建立一个爬虫程序守护程序（Daemon），有此方面需要的小伙伴可自行谷歌，在此不多做介绍。

说明②：可建立一个对外代理信息接口，无论你用NodeJS或者Flask/Django或者PHP来写都没关系，在此也不多做介绍。

实现：

建议库： requests, BeautifulSoup, re, sqlite3。

其中，用requests库获取代理网站页面，用BeautifulSoup和re两库来进行代理信息获取，用sqlite3来对这些信息进行存取。

如果必要（如代理网站有反爬虫策略时），可用PhantomJS替代requests，或用相应库进行数据清理（如base64解码）。

下面简单展示一下各部分的代码：

首先是选择多个能爬取代理且不容易被屏蔽IP的网站，此处以proxy-list.org为例：

BASE_URL = "https://proxy-list.org/english/index.php?p="   #IP地址及端口的正则  Re_Pattern_IP = re.compile("(.*):")  Re_Pattern_PORT = re.compile(":(.*)")   #网站有11页，所以循环11次获取所有代理IP及端口  for startingURL_Param in range(1,11):     HTML_ProxyPage = requests.get(BASE_URL+str(startingURL_Param)).content     soup = bs(HTML_ProxyPage,"html.parser")     for Raw_ProxyInfo in soup.find_all("ul",{"class":None}):         #此网站有用Base64简单对代理进行了加密，所以这里对其解码         ip_port = base64.b64decode(Raw_ProxyInfo.find("li",{"class":"proxy"}).text.replace("Proxy('","").replace("')",""))         #接下来利用正则从网页数据中提取我们需要的信息         IP = re.findall(Re_Pattern_IP, ip_port)[0]         PORT = re.findall(Re_Pattern_PORT, ip_port)[0]         TYPE = Raw_ProxyInfo.find("li",{"class":"https"}).text

接下来是一段简易代理池框架类的代码，提供代理数据库的添加、删除、可连接性检测、匿名性检测

class ProxyPool:             #初始化爬虫池数据库     def __init__(self,ProxyPoolDB):         self.ProxyPoolDB = ProxyPoolDB         self.conn = sqlite3.connect(self.ProxyPoolDB, isolation_level=None)         self.cursor = self.conn.cursor()         self.TB_ProxyPool = "TB_ProxyPool"         self.cursor.execute("CREATE TABLE IF NOT EXISTS "+self.TB_ProxyPool+"(ip TEXT UNIQUE, port INTEGER, protocol TEXT)")        #添加代理IP进代理池的接口     def addProxy(self, IP, PORT, PROTOCOL):           self.cursor.execute("INSERT OR IGNORE INTO " + self.TB_ProxyPool+"(ip, port, protocol) VALUES (?,?,?)", [IP,PORT,PROTOCOL])        #检查代理的匿名性及可连接性     def testConnection(self, IP, PORT, PROTOCOL):         proxies = { PROTOCOL: IP+":"+PORT }         try:             OrigionalIP = requests.get("https://cat.jcwle.com/img.php?url=http://icanhazip.com",timeout=REQ_TIMEOUT).content             MaskedIP = requests.get("https://cat.jcwle.com/img.php?url=http://icanhazip.com", timeout=REQ_TIMEOUT,proxies=proxies).content             if OrigionalIP != MaskedIP:                 return True             else:                 return False         except:                 return False        #删除代理IP对应的数据库记录     def delRecord(self, IP):         self.cursor.execute("DELETE FROM "+self.TB_ProxyPool+" WHERE ip=?",(IP,))

下面是对代理池进行去“失效IP”的代码：

#循环代理池，逐行测试IP地址端口协议是否可用  def cleanNonWorking(self):     for info in self.cursor.execute("SELECT * FROM "+self.TB_ProxyPool).fetchall():         IP = info[0]         PORT = str(info[1])         PROTOCOL = info[2].lower()            isAnonymous = self.testConnection(IP,PORT,PROTOCOL)         if isAnonymous == False:             #这条代理的可用性失效了，从数据库里删除             self.delRecord(IP)     #通过检测icanhazip.com回显来检测可用性及匿名性  def testConnection(self, IP, PORT, PROTOCOL):         proxies = { PROTOCOL: IP+":"+PORT }         try:             OrigionalIP = requests.get("https://cat.jcwle.com/img.php?url=http://icanhazip.com",timeout=REQ_TIMEOUT).content             MaskedIP = requests.get("https://cat.jcwle.com/img.php?url=http://icanhazip.com", timeout=REQ_TIMEOUT,proxies=proxies).content             if OrigionalIP != MaskedIP:                 return True             else:                 return False         except:                 return False

反思

这个项目是我当年用Python练手写的，以现在的程度再来回顾，逻辑不够严谨，各类功能太过耦合，不少段落需要重写，因为代码是在校园网内所跑，所以还需要考虑到网络连接的稳定性，这就造成部分代码之间的混乱关系。

通过icanhazip.com来检测代理匿名性的方法或许有效，但却忽略了X-Forwarded-For的HTTP头，所以有很大风险，必须改进。

验证代理池内代理的有效性，需要多线程，目前的方案效率太低。

完整代码

放在此文章中的是代理池的核心代码，旨在提供各位读者能够自己实现的思路及参考，Ubuntu 16.04及Kali下用Python 2.7测试可运行。

python干货

郑重声明：帖子标题写有【亲测】即能正常运行，帖子标题有【原版】字样即原始版本自带有加密文件版本限于标题长度字数限制问题，部分资源未注明开源情况均为原版文件(原版文件未做解密处理，但不影响使用)爱集码不会自己加密代码文件,源码仅供研究学习之用，请勿用于商业运营，商业运营请支持作者，购买正版，谢谢特别提醒：本站所有下载资源均不包含技术支持和安装服务！如需技术支持联系客服有偿解决，终身会员视情况而定，一般小问题免费解决。重要提示：本站对于 Safari浏览器兼容不好，如出现下载按钮消失请换360或者QQ等第三方浏览器访问或下载。免责申明：本站仅提供学习的平台，所有资料均来自于网络，版权归原创者所有！本站不提供任何保证，并不承担任何法律责任，如果对您的版权或者利益造成损害，请提供相应的资质证明，我们将于3个工作日内予以删除。
资源猫 » python搭建匿名代理池

子沫至尊SVIP

分享到：

【全新UI微星游戏源码】免公众号最漂亮的微星安卓苹果双端游戏服务端免付费推广[附超详细搭建教程]

[亲测]【微星百棋源码带组件】运营级接单双端APP微星QB源码带所有游戏组件[带游戏控制系统]

[亲测]【大富豪紫禁城埋雷扫雷游戏源码】全网首发正版扫雷运营级完整源码[附详细搭建教程两套]

【二开百棋牛牛全套双端游戏源码+组件】无加密无授权完美微星QB源代码[附小白完整视频搭建教程]

[亲测]【士兵扫雷与ThinkCMF扫雷全新UI源码】大富豪多雷多包扫雷源码完整版[带超详细搭建教程]

【颂游换皮之龙圣国际】大改颂游UI游戏界面带完所客户端源码与游戏组件全套打包下载[带控制]

【斯博娱乐带全套游戏组件运营级源码】内置QB与CP两种玩法+全民代理[秒请求达到一万+]

【息国QP带俱乐部亲友汇】全套源码带游戏组件完整数据双端APP源码

【陌陌皇冠娱乐城】全套QB完整N款游戏组件包含数据库+服务端+APP客户端+网站源码

[亲测修复]完美运营带控制胜率扫雷红包H5源码

【魔兽世界7.35】魔兽一键安装服务端[带GM管理工具]

【逍遥西游手游】手工架设服务端带安卓苹果双端游戏源码[内附超详细搭建教程]

【逍遥传世手游】VM虚拟机一键即玩双端游戏带GM管理工具[附详细搭建教程与手工外网]

【巫妖王之怒】335无限制开服端完美修复Playerbot商业开服端

【摄政王H5宫斗手游】一键即玩服务端游戏源码带GM管理工具[可单机也可局网与外网玩]

【热血传奇高仿DNF地下城】传奇端游一键服务端完整补丁及BUG修复游戏源码[赠送登陆配置器]

【天龙八部万像归一第三版】官方一键安装服务端游戏源码[内附超详细搭建教程]

【凛冬传奇霸业手游】白日门双职业传奇一键即玩双端手游配套GM管理后台与开区合区工具[带外网搭建教程]

[亲测]【二开网狐】梦港UI二开定制版完美运行带超强控制双端游戏源码[内附小白完整搭建视频教程]

【白日门三职业传奇手游】丹哥出品传奇一键服端带GM管理工具[附外网搭建教程]

python搭建匿名代理池

python搭建匿名代理池

反思

完整代码

子沫至尊SVIP

升级SVIP会员

工作时间

python搭建匿名代理池

反思

完整代码

子沫 至尊SVIP

相关推荐

提供最优质的资源集合

升级SVIP会员

工作时间

子沫至尊SVIP