拨号VPS搭建代理IP池

流氓凡 技术分享 2022-03-13 4.86 K 0

实现原理

一、客户端(动态vps)

  • 通过Python执行断开连接&拨号的操作,成功后匹配获取公网IP,通过requests库将IP发送至服务端

  • 为了避免恶意干扰,可以加上一个传输秘钥,服务器验证传输秘钥,验证失败的不进行IP更新

  • 设置定时任务来实现IP的更换

  • 传送的数据中,包含IP、秘钥、name(区分vps服务器)

二、服务端(固定ip服务器)

使用tornado启动服务,提供两个接口

  • post接口:接收客户端发送的IP,验证秘钥成功后,以name为key,ip&port为val,存入redis

  • get接口:从redis中取出ip&port并返回

代理检测程序:可用于检测IP的可用性,剔除失效IP


准备工具

  • 动态vps: 推荐使用云立方的动态vps,0.5G内存,11G硬盘,100M宽带,动态vps主要是运行代理服务,比较耗宽带,通过拨号来更换IP,实现动态代理的效果

  • 固定IP服务器:用的阿里云服务器,1核1G内存,40G云盘,一年836元,该服务器主要是实时获取动态vps的IP,并对外提供接口,这些服务不怎么耗资源,该服务器还可以用来跑爬虫或者搭网站

这里特别说明下云立方动态vps,一开始用的芝麻VPS,到这一步后,在vps上用局域网IP可以通过代理服务器访问,但在本地通过公网IP就无法访问,最后发现是由于外网无法访问该服务器,试过开放端口等操作,无果,云立方的是直接可以通过公网IP使用代理,目前看来好像只有云立方是可以的


系统环境

动态VPS

  • 功能:搭建代理服务,并通过在vps上拨号切换IP,将切换后的IP传到固定IP的服务器上

  • 工具:代理服务-tinyproxy, 发送IP-pythonrequests

  • 系统:云立方的可以预装系统,我选的是CentOS7.1系统,在管理后台进行操作

  • 连接服务器:ssh user@ip -p port

  • 拨号操作:断开网络:adsl-stop, 拨号:adsl-start

  • 查看公网IP:ifconfig

  • 加代理查看IP:curl -x 'ip:port’ -v icanhazip.com

  • 判断IP是否变化:先查看公网IP,然后断开连接,重新拨号,再看下公网IP,如果发现没有变化,可以多试几次,有几率重播后公网IP依旧没变

1、代理服务搭建:tinyproxy

安装命令:

# 添加EPEL仓库,然后更新yum源:
sudo yum install epel-release
sudo yum update
# 安装
sudo yum install -y tinyproxy

踩坑:yum安装时,报错:yum doesn’t have enough cached data to continue, 解决办法:

  • /etc/resolv.conf文件中增加 nameserver 144.144.144.144

  • 将(如果有)/etc/yum.repos.d/epel.repo中的mirrorlist改为baseurl

  • 在断开重播时,有时adsl-start会执行失败,报错:“/usr/sbin/adsl-start: line 217: 5749 Terminated C O N N E C T " CONNECT " CONNECT"@" > /dev/null 2>&1”,最后发现可能是断开连接的不干净,多执行几次adsl-stop,在执行adsl-start就会成功了


修改配置:

vim /etc/tinyproxy/tinyproxy.conf
修改 Port 端口,默认为 8888
Port 8888
注释掉 Allow 127.0.0.1,表示允许所有人访问代理

启动并检查

# 启动服务
service tinyproxy start
# 查看日志
tail -f /var/log/tinyproxy/tinyproxy.log
# 本地测试,注意这里的ip是 ifconfig中的外网ip,不是ssh连接服务器的ip
curl -x ‘ip:port’ -v icanhazip.com

踩坑:在代理服务tinyproxy运行期间,报过这个错:Waiting servers (0) is less than MinSpareServers (5). Creating new child.,原因是达到最大连接数,无法创建新的连接处理请求,代理服务也就挂了,重启代理服务即可,解决办法:

vim /etc/tinyproxy/tinyproxy.conf

MaxClients 100 -> 500  # 最大连接数
Timeout 600 -> 20  # 超时时间

到此为止代理ip已经搭建好了,后面主要是实现代码控制和ip信息传输问题


2、搭建Python环境

安装Python Python依赖

sudo yum install yum-utils
sudo yum-builddep python

安装虚拟环境

cd ~
mkdir venv
cd venv
python3 -m venv python3-forcrawl
source ~/venv/python3-forcrawl/bin/activate

安装相应的python库

pip install requests
# 安装其他环境导出的库
pip install -r requirements.txt

固定ip服务器

  • 功能:接受动态VPS发送的IP,并提供接口,返回动态VPS实时的IP&端口

  • 工具:web服务-tornado

搭建python环境,跟上方一样

然后安装tornado

pip install tornado

安装redis

sudo yum install -y redis
# 启动服务
redis-server >> /dev/null 2>&1 &
# 连接redis
redis-cli

mongo数据库(可以不进行安装,实现基本的代理功能不需要该库)

# yum中没有mongo的下载源,需要手动添加
vi /etc/yum.repos.d/mongodb-org-3.4.repo
# 写入以下信息,针对centos7
[mongodb-org-3.4]
name=MongoDB Repository
baseurl=https://repo.mongodb.org/yum/redhat/7/mongodb-org/3.4/x86_64/
gpgcheck=1
enabled=1
gpgkey=https://www.mongodb.org/static/pgp/server-3.4.asc
# 安装
sudo yum install -y mongodb-org
启动:
systemctl start mongod.service


总结

  • 相对直接购买代理,价格更便宜,且速度不受限制,但是缺点是,在vps拨号,到传输到服务器,再到爬虫使用代理,这个过程存在延迟,可能在切换IP时,会导致代理不可用,解决方案是设置超时时间并休眠几秒后进行重试

  • 不适用于对IP切换速度要求很快的服务,拨号太频繁了,一个是IP有时不变,另一个容易拨号失败

  • 如果在线上环境中使用,可以多买几台动态vps,搞一个IP池

评论