您的位置: 网站首页> requests爬虫> 当前文章

requests使用http代理(含auth认证代理)、socks代理

老董-我爱我家房产SEO2021-11-15192围观,133赞

  网络爬虫程序难免会用到代理ip,因为单个ip频繁请求同一站点容易被干掉,市面上也有很多出售代理ip的商家,诸如快代理、芝麻代理、猿人云、阿布云等,代理分类通常有私密代理、隧道代理、独享代理等。

  对于requests来说,可以通过为任意请求方法(不管是get、post或者其他)提供proxies参数来配置代理ip,这种方式代理ip只对单次url请求有效,下次url请求如果还需要代理ip则仍需配置proxies参数。

import requests

proxies = {
  "http": "http://10.10.1.10:3128",
  "https": "http://10.10.1.10:1080",
}

requests.get("http://example.org", proxies=proxies)

  在linux服务器上也可以通过环境变量HTTP_PROXY和HTTPS_PROXY来配置代理,然后在脚本中用requests请求即可走代理

$ export HTTP_PROXY="http://10.10.1.10:3128"
$ export HTTPS_PROXY="http://10.10.1.10:1080"

$ python
>>> import requests
>>> requests.get("http://example.org")

  有的代理接口地址需要使用HTTP Basic Auth认证,这种接口常见于隧道代理(隧道代理指用户只需使用服务商提供的某个固定代理ip地址去请求, 这个ip在后端会将用户发送的请求转发到不同的代理IP去请求),一般隧道代理的价格比普通方式贵一些。对于需要HTTP Basic Auth认证的代理地址, 可以使用http://user:password@host/语法。

  比如:我在某代理ip平台购买了隧道代理,此时会得到1个隧道地址,按照如下方式使用即可

# 隧道域名:端口号
tunnel = "tpsXXX.kdlapi.com:15818"
# 用户名密码方式
username = "username"
password = "password"
proxies = {
    "http": f"http://%(username)s:%(password)s@%(tunnel)s/",
    "https": f"https://%(username)s:%(password)s@%(tunnel)s/"
}
# 要访问的目标网页
target_url = "https://www.baidu.com/"

# 使用隧道域名发送请求
response = requests.get(target_url, proxies=proxies)
print(response.text)

  要为某个特定的连接方式或者主机设置代理,使用 http://www.xxxx.com 作为 key,它会针对指定的主机和连接方式进行匹配。

proxies = {'http://10.20.1.128': 'http://10.10.1.10:5323'}
requests.get("http://example.org", proxies=proxies)

  除了基本的 HTTP 代理,从2.10.0新版开始,Request还支持 SOCKS协议的代理。但是需要安装第三方库

  pip install requests[socks]

  安装好依赖以后,使用 SOCKS 代理和使用HTTP代理一样简单。

proxies = {
    'http': 'socks5://user:pass@host:port',
    'https': 'socks5://user:pass@host:port'
}
requests.get("http://example.org", proxies=proxies)

很赞哦!

python编程网提示:转载请注明来源www.python66.com。
有宝贵意见可添加站长微信(底部),获取技术资料请到公众号(底部)。同行交流请加群 python学习会

上一篇:requests的SSL证书验证及警告处理

下一篇:没有了

文章评论

    requests使用http代理(含auth认证代理)、socks代理文章写得不错,值得赞赏

站点信息

  • 网站程序:Laravel
  • 客服微信:a772483200