壹万VPS

拨号vps常见问题解答和经验分享

使用 Tornado+Redis 维护 ADSL 拨号服务器代理池

小万    2022-02-04    264

我们尝试维护过一个免费的代理池,但是代理池效果用过就知道了,毕竟里面有大量免费代理,虽然这些代理是可用的,但是既然我们能刷到这个免费代理,别人也能呀,所以就导致这个代理同时被很多人使用来抓取网站,所以当我们兴致勃勃地拿他来抓取某个网站的时候,会发现它还是被网站封禁的状态,所以在某些情况下免费代理池的成功率还是比较低的。 当然我们也可以去购买一些代理,比如几块钱提取几百几千个的代理,然而经过测试后质量也是很一般,也可以去购买专线代理,不过价格也是不菲的。那么目前最稳定而且又保证可用的代理方法就是设置 ADSL 拨号代理了。 本篇来讲解一下 ADSL 拨号代理服务器的相关设置。

什么是 ADSL

大家可能对 ADSL 比较陌生,ADSL 全称叫做 Asymmetric Digital Subscriber Line,非对称数字用户环路,因为它的上行和下行带宽不对称。它采用频分复用技术把普通的电话线分成了电话、上行和下行三个相对独立的信道,从而避免了相互之间的干扰。 有种主机叫做动态拨号 VPS 主机,这种主机在连接上网的时候是需要拨号的,只有拨号成功后才可以上网,每拨一次号,主机就会获取一个新的 IP,也就是它的 IP 并不是固定的,而且 IP 量特别大,几乎不会拨到相同的 IP,如果我们用它来搭建代理,既能保证高度可用,又可以自由控制拨号切换。 经测试发现这也是最稳定最有效的代理方式,本节详细介绍一下 ADSL 拨号代理服务器的搭建方法。

购买动态拨号 VPS 主机

所以在开始之前,我们需要先购买一台动态拨号 VPS 主机,这样的主机在百度搜索一下,服务商还是相当多的 配置的话可以自行选择,看下带宽是否可以满足需求就好了。 购买完成之后,就需要安装操作系统了,进入拨号主机的后台,首先预装一个操作系统。

使用 Tornado+Redis 维护 ADSL 拨号服务器代理池

在这里推荐安装 CentOS7 系统。 然后找到远程管理面板找到远程连接的用户名和密码,也就是 SSH 远程连接服务器的信息。 比如我这边的 IP 端口分别是 153.36.65.214:20063,用户名是 root。 命令行下输入:

1
ssh root@153.36.65.214 -p 20063

然后输入管理密码,就可以连接上远程服务器了。 进入之后,可以发现有一个可用的脚本文件,叫做 ppp.sh,这是拨号初始化的脚本,运行它会让我们输入拨号的用户名和密码,然后它就会开始各种拨号配置,一次配置成功,后面的拨号就不需要重复输入用户名和密码了。 运行 ppp.sh 脚本,输入用户名密码等待它的配置完成。

使用 Tornado+Redis 维护 ADSL 拨号服务器代理池

都提示成功之后就可以进行拨号了。 在拨号之前如果我们测试 ping 任何网站都是不通的,因为当前网络还没联通,输入拨号命令:

1
adsl-start

可以发现拨号命令成功运行,没有任何报错信息,这就证明拨号成功完成了,耗时约几秒钟。接下来如果再去 ping 外网就可以通了。 如果要停止拨号可以输入:

1
adsl-stop

停止之后,可以发现又连不通网络了。

所以只有拨号之后才可以建立网络连接。

使用 Tornado+Redis 维护 ADSL 拨号服务器代理池

所以断线重播的命令就是二者组合起来,先执行 adsl-stop 再执行 adsl-start,每拨一次号,ifocnfig 命令观察一下主机的 IP,发现主机的 IP 一直是在变化的,网卡名称叫做 ppp0。

使用 Tornado+Redis 维护 ADSL 拨号服务器代理池

所以,到这里我们就可以知道它作为代理服务器的巨大优势了,如果将这台主机作为代理服务器,如果我们一直拨号换 IP,就不怕遇到 IP 被封的情况了,即使某个 IP 被封了,重新拨一次号就好了。 所以接下来我们要做的就有两件事,一是怎样将主机设置为代理服务器,二是怎样实时获取拨号主机的 IP。

设置代理服务器

之前我们经常听说代理服务器,也设置过不少代理了,但是可能没有自己设置吧,自己有一台主机怎样设置为代理服务器呢?接下来我们就亲自试验下怎样搭建 HTTP 代理服务器。 在 Linux 下搭建 HTTP 代理服务器,推荐 TinyProxy 和 Squid,配置都非常简单,在这里我们以 TinyProxy 为例来讲解一下怎样搭建代理服务器。

安装 TinyProxy

当然第一步就是安装 TinyProxy 这个软件了,在这里我使用的系统是 CentOS,所以使用 yum 来安装,如果是其他系统如 Ubuntu 可以选择 apt-get 等命令安装,都是类似的。 命令行执行 yum 安装指令:

1
2
3
yum install -y epel-release
yum update -y
yum install -y tinyproxy

运行完成之后就可以完成 tinyproxy 的安装了。

配置 TinyProxy

安装完成之后还需要配置一下 TinyProxy 才可以用作代理服务器,需要编辑配置文件,它一般的路径是 /etc/tinyproxy/tinyproxy.conf。 可以看到有一行

1
Port 8888

在这里可以设置代理的端口,默认是 8888。 然后继续向下找,有这么一行

1
Allow 127.0.0.1

这是被允许连接的主机的 IP,如果想任何主机都可以连接,那就直接将它注释即可,所以在这里我们选择直接注释,也就是任何主机都可以使用这台主机作为代理服务器了。 修改为

1
# Allow 127.0.0.1

设置完成之后重启 TinyProxy 即可。

1
service tinyproxy start

验证 TinyProxy 好了,这样我们就成功搭建好代理服务器了,首先 ifconfig 查看下当前主机的 IP,比如当前我的主机拨号 IP 为 112.84.118.216,在其他的主机运行测试一下。 比如用 curl 命令设置代理请求一下 httpbin,检测下代理是否生效。

1
curl -x 112.84.118.216:8888 httpbin.org/get

使用 Tornado+Redis 维护 ADSL 拨号服务器代理池

如果有正常的结果输出并且 origin 的值为代理 IP 的地址,就证明 TinyProxy 配置成功了。 好,那到现在,我们接下来要做的就是需要动态实时获取主机的 IP 了。

动态获取 IP

真正的好戏才开始呢,我们怎样动态获取主机的 IP 呢?可能你首先想到的是 DDNS 也就是动态域名解析服务,我们需要使用一个域名来解析,也就是虽然 IP 是变的,但域名解析的地址可以随着 IP 的变化而变化。 它的原理其实是拨号主机向固定的服务器发出请求,服务器获取客户端的 IP,然后再将域名解析到这个 IP 上就可以了。 国内比较有名的服务就是花生壳了,也提供了免费版的动态域名解析,另外 DNSPOD 也提供了解析接口来动态修改域名解析设置,DNSPOD,但是这样的方式都有一个通病,那就是慢! 原因在于 DNS 修改后到完全生效是需要一定时间的,所以如果在前一秒拨号了,这一秒的域名解析的可能还是原来的 IP,时间长的话可能需要几分钟,也就是说这段时间内,服务器 IP 已经变了,但是域名还是上一次拨号的 IP,所以代理是不能用的,对于爬虫这种秒级响应的需求,是完全不能接受的。 所以根据花生壳的原理,可以完全自己实现一下动态获取 IP 的方法。 所以本节重点介绍的就是怎样来实现实时获取拨号主机 IP 的方法。 要实现这个需要两台主机,一台主机就是这台动态拨号 VPS 主机,另一台是具有固定公网 IP 的主机。动态 VPS 主机拨号成功之后就请求远程的固定主机,远程主机获取动态 VPS 主机的 IP,就可以得到这个代理,将代理保存下来,这样拨号主机每拨号一次,远程主机就会及时得到拨号主机的 IP,如果有多台拨号 VPS,也统一发送到远程主机,这样我们只需要从远程主机取下代理就好了,保准是实时可用,稳定高效的。 整体思路大体是这样子,当然为了更完善一下,我们要做到如下功能: 远程主机:

  • 监听主机请求,获取动态 VPS 主机 IP

  • 将 VPS 主机 IP 记录下来存入数据库,支持多个客户端

  • 检测当前接收到的 IP 可用情况,如果不可用则删除

  • 提供 API 接口,通过 API 接口可获取当前可用代理 IP

拨号 VPS:

  • 定时执行拨号脚本换 IP

  • 换 IP 后立即请求远程主机

  • 拨号后检测是否拨号成功,如果失败立即重新拨号

远程主机实现

说了这么多,那么我们就梳理一下具体的实现吧,整个项目我们用 Python3 实现。

数据库

远程主机作为一台服务器,动态拨号 VPS 会定时请求远程主机,远程主机接收到请求后将 IP 记录下来存入数据库。 因为 IP 是一直在变化的,IP 更新了之后,原来的 IP 就不能用了,所以对于一个主机来说我们可能需要多次更新一条数据。另外我们不能仅限于维护一台拨号 VPS 主机,当然是需要支持多台维护的。在这里我们直接选用 Key-Value 形式的非关系型数据库存储更加方便,所以在此选用 Redis 数据库。 既然是 Key-Value,Key 是什么?Value 是什么?首先我们能确定 Value 就是代理的值,比如 112.84.119.67:8888,那么 Key 是什么?我们知道,这个 IP 是针对一台动态拨号 VPS 的,而且这个值会不断地变,所以我们需要有一个不变量 Key 来唯一标识这台主机,所以在这里我们可以把 Key 当做主机名称。名称怎么来?自己取就好了,只要每台主机的名字不重复,我们就可以区分出是哪台主机了,这个名字可以在拨号主机那边指定,然后传给远程主机就好了。 所以,在这里数据库我们选用 Redis,Key 就是拨号主机的名称,可以自己指定,Value 就是代理的值。 所以可以写一个操作 Redis 数据库的类,参考如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
class RedisClient(object):
    def __init__(self, host=REDIS_HOST, port=REDIS_PORT):
        self.db = redis.Redis(host=host, port=port, password=REDIS_PASSWORD)
        self.proxy_key = PROXY_KEY

    def key(self, name):
        return '{key}:{name}'.format(key=self.proxy_key, name=name)

    def set(self, name, proxy):
        return self.db.set(self.key(name), proxy)

    def get(self, name):
        return self.db.get(self.key(name)).decode('utf-8')

首先初始化 Redis 连接,我们可以将 Key 设计成 adsl:vm1 这种形式,冒号前面是总的 key,冒号后面是主机名称 name,这样显得结构更加清晰。 然后指定 set () 和 get () 方法,用来存储代理和获取代理。

请求处理

拨号主机会一直向远程主机发送请求,远程主机当然可以获取拨号主机的 IP,但是代理端口是无法获得的,我们在拨号主机上设置了 TinyProxy 或者 Squid,但是服务器不知道是在哪个端口开的,所以端口也是需要客户端传给远程主机的。远程主机接收到请求后,将解析得到的 IP 和端口合并就可以作为完整的代理保存了。 所以现在我们知道拨号主机需要传送给远程主机的信息已经有两个了,一是拨号主机本身的名称,二是代理的端口。

通信秘钥

为了保证远程主机不被恶意的请求干扰,可以设置一个传输秘钥,最简单的方式可以二者共同规定一个秘钥字符串,拨号主机在传送这个字符串,远程主机匹配一下,如果能正确匹配,那就进行下一步的处理,如果不能匹配,那么可能是恶意请求,就忽略这个请求。 当然肯定有更好的加密传输方式,但为了方便起见可以用如上来做。 所以客户机还需要传送一个数据,那就是通信秘钥,一共需要传送三个数据。 所以我们需要架设一个服务器,一直监听客户端的请求,在这里我们用 tornado 实现。 tornado 的安装也非常简单,利用 pip 安装即可:

1
pip3 install tornado

定义一个处理拨号主机请求的方法,在这里我们使用 post 请求,参考如下。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
def post(self):
        token = self.get_body_argument('token', default=None, strip=False)
        port = self.get_body_argument('port', default=None, strip=False)
        name = self.get_body_argument('name', default=None, strip=False)
        if token == TOKEN and port:
            ip = self.request.remote_ip
            proxy = ip + ':' + port
            print('Receive proxy', proxy)
            self.redis.set(name, proxy)
            self.test_proxies()
        elif token != TOKEN:
            self.write('Wrong Token')
        elif not port:
            self.write('No Client Port')

远程主机获取请求的 token,也就是上面我们所说的通信密钥,保证安全。port 是拨号机的代理端口,name 是拨号主机的名称。然后我们再获取请求的 remote_ip,也就是拨号主机的 IP。然后将 IP 和端口拼合就可以得到拨号主机的完整代理信息了,将其存入数据库即可。

代理检测

在远程主机端我们需要做一下代理检测,如果某个代理不可用了,会及时将其去除,以免出现获取到代理后不可用的情况。

注意:在这里在拨号主机端验证是不够的,因为可能突然遇到某个拨号主机宕机的情况,这样拨号主机就不会再向远程主机发送请求,而最后一次得到的代理还会存在于数据库中,所以在远程主机端统一验证比较科学。

验证方式可以定时检测,也可以每收到一次请求检测一次,用获取到的代理来请求某个网站,检测一下是否能访问即可。如果不能,将其从数据库中删除。

API

远程主机已经将拨号主机的 IP 和端口保存下来了,那也就是说,所有的可用的代理已经在远程主机保存了,我们需要提供一个接口来将代理获取下来。 比如我们可以提供这么几个方法,获取所有代理,获取最新代理,获取随机代理等等。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
def all(self):
    keys = self.keys()
    proxies = [{'name': key, 'proxy': self.get(key)} for key in keys]
    return proxies

def random(self):
    items = self.all()
    return random.choice(items).get('proxy')

def list(self):
    keys = self.keys()
    proxies = [self.get(key) for key in keys]
    return proxies

def first(self):
    return self.get(self.keys()[0])

然后用 tornado 搭建 API 服务,如果可以的话还可以绑定一个域名,更加便捷,举例如下: 获取随机代理:

使用 Tornado+Redis 维护 ADSL 拨号服务器代理池

获取最新代理:

使用 Tornado+Redis 维护 ADSL 拨号服务器代理池

获取所有代理:

使用 Tornado+Redis 维护 ADSL 拨号服务器代理池

请求接口获取可用代理即可,比如获取一个随机代理:

1
2
3
4
5
6
7
8
9
import requests

def get_random_proxy():
    try:
        # 远程主机的服务地址
        url = 'http://xxx.xxx.xxx.xxx:8000/random'
        return requests.get(url).text
    except requests.exceptions.ConnectionError:
        return None

这样我们拿到的 IP 都是稳定可用的,而且过段时间重新请求取到的 IP 就会变化,是一直动态变化的高可用代理。

拨号 VPS 实现

定时拨号

拨号 VPS 需要每隔一段时间就拨号一次,我们可以直接执行命令行来拨号,那在 Python 里我们只需要调用一下这个拨号命令就好了。利用 subprocess 模块调用脚本即可,在这里定义一个变量 ADSL_BASH 为 adsl-stop;adsl-start,这就是拨号的脚本。

1
2
import subprocess
(status, output) = subprocess.getstatusoutput(ADSL_BASH)

通过 getstatusoutput 方法可以获取脚本的执行状态和输出结果,如果 status 为 0,则证明拨号成功,然后检测一下拨号接口是否获取了 IP 地址。 执行 ifconfig 命令可以获取当前的 IP,我这台主机接口名称叫做 ppp0,当然网卡名称可以自己指定,所以将 ppp0 接口的 IP 提取出来即可。

1
2
3
4
5
6
7
8
def get_ip(self, ifname=ADSL_IFNAME):
    (status, output) = subprocess.getstatusoutput('ifconfig')
    if status == 0:
        pattern = re.compile(ifname + '.*?inet.*?(\d+\.\d+\.\d+\.\d+).*?netmask', re.S)
        result = re.search(pattern, output)
        if result:
            ip = result.group(1)
            return ip

如果方法正常返回 IP,则证明 IP 存在,拨号成功,接下来向远程主机发送请求即可,然后 sleep 一段时间重新再次拨号。 如果方法返回的值为空,那证明 IP 不存在,我们需要重新拨号。

请求远程主机

发送的时候需要携带这么几个信息,一个是通信秘钥,一个是代理端口,另一个是主机的标识符,用 requests 发送即可。

1
requests.post(SERVER_URL, data={'token': TOKEN, 'port': PROXY_PORT, 'name': CLIENT_NAME})

所以整体的思路实现可以写成这样子:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
def adsl(self):
        while True:
            print('ADSL Start, Please wait')
            (status, output) = subprocess.getstatusoutput(ADSL_BASH)
            if status == 0:
                print('ADSL Successfully')
                ip = self.get_ip()
                if ip:
                    print('New IP', ip)
                    try:
                        requests.post(SERVER_URL, data={'token': TOKEN, 'port': PROXY_PORT, 'name': CLIENT_NAME})
                        print('Successfully Sent to Server', SERVER_URL)
                    except ConnectionError:
                        print('Failed to Connect Server', SERVER_URL)
                    time.sleep(ADSL_CYCLE)
                else:
                    print('Get IP Failed')
            else:
                print('ADSL Failed, Please Check')
            time.sleep(1)

这样我们就可以做到定时拨号并向远程主机发送请求了。

代码

Talk is cheap, show me the code! 在这里提供一份完整代码实现,其中 client 模块是在动态 VPS 主机运行,server 模块在远程主机运行,具体的操作使用可以参考 README。 

免责声明:

内容来源《使用 Tornado+Redis 维护 ADSL 拨号服务器代理池》,真实性请自行核实,本站转载旨在学习交流,如对内容有疑问请及时联系本站处理。

上一篇   下一篇

相关文章

请发表您的评论