您的位置: 网站首页> requests爬虫> 当前文章
requests使用http代理(含auth认证代理)、socks代理
老董-我爱我家房产SEO2021-11-15155围观,137赞
网络爬虫程序难免会用到代理ip,因为单个ip频繁请求同一站点容易被干掉,市面上也有很多出售代理ip的商家,诸如快代理、芝麻代理、猿人云、阿布云等,代理分类通常有私密代理、隧道代理、独享代理等。
对于requests来说,可以通过为任意请求方法(不管是get、post或者其他)提供proxies参数来配置代理ip,这种方式代理ip只对单次url请求有效,下次url请求如果还需要代理ip则仍需配置proxies参数。
import requests proxies = { "http": "http://10.10.1.10:3128", "https": "http://10.10.1.10:1080", } requests.get("http://example.org", proxies=proxies)
在linux服务器上也可以通过环境变量HTTP_PROXY和HTTPS_PROXY来配置代理,然后在脚本中用requests请求即可走代理
$ export HTTP_PROXY="http://10.10.1.10:3128" $ export HTTPS_PROXY="http://10.10.1.10:1080" $ python >>> import requests >>> requests.get("http://example.org")
有的代理接口地址需要使用HTTP Basic Auth认证,这种接口常见于隧道代理(隧道代理指用户只需使用服务商提供的某个固定代理ip地址去请求, 这个ip在后端会将用户发送的请求转发到不同的代理IP去请求),一般隧道代理的价格比普通方式贵一些。对于需要HTTP Basic Auth认证的代理地址, 可以使用http://user:password@host/语法。
比如:我在某代理ip平台购买了隧道代理,此时会得到1个隧道地址,按照如下方式使用即可
# 隧道域名:端口号 tunnel = "tpsXXX.kdlapi.com:15818" # 用户名密码方式 username = "username" password = "password" proxies = { "http": f"http://%(username)s:%(password)s@%(tunnel)s/", "https": f"https://%(username)s:%(password)s@%(tunnel)s/" } # 要访问的目标网页 target_url = "https://www.baidu.com/" # 使用隧道域名发送请求 response = requests.get(target_url, proxies=proxies) print(response.text)
要为某个特定的连接方式或者主机设置代理,使用 http://www.xxxx.com 作为 key,它会针对指定的主机和连接方式进行匹配。
proxies = {'http://10.20.1.128': 'http://10.10.1.10:5323'} requests.get("http://example.org", proxies=proxies)
除了基本的 HTTP 代理,从2.10.0新版开始,Request还支持 SOCKS协议的代理。但是需要安装第三方库
pip install requests[socks]
安装好依赖以后,使用 SOCKS 代理和使用HTTP代理一样简单。
proxies = { 'http': 'socks5://user:pass@host:port', 'https': 'socks5://user:pass@host:port' } requests.get("http://example.org", proxies=proxies)
很赞哦!
python编程网提示:转载请注明来源www.python66.com。
有宝贵意见可添加站长微信(底部),获取技术资料请到公众号(底部)。同行交流请加群
下一篇:没有了
相关文章
文章评论
-
requests使用http代理(含auth认证代理)、socks代理文章写得不错,值得赞赏