您的位置: 网站首页> requests爬虫> 当前文章
requests获取状态码与http响应头、请求头
老董-我爱我家房产SEO2019-07-18188围观,150赞
日常生活中有时候打开一个网页提示404或者500错误,这种404或者500就是一种状态码,代表一种含义来表达这次访问网页的结果咋样。
访问一个网页就是向服务器发1个请求,实际上在浏览器接收并显示网页前,网页所在的服务器会返回一个响应头(server header),响应头信息里包含1个HTTP状态码,不同的状态码的值代表不同的含义。
常见的HTTP状态码:
200 - 请求成功
301 - 资源(网页等)被永久转移到其它URL
403 - 禁止此请求
404 - 请求的资源不存在
500 - 内部服务器错误
我们可以通过浏览器或者其他专业的抓包工具(比如fiddler)来查看响应头,随便打开1个网页可以正常访问就是200。
在requests请求网页的相应对象里面有个status_code属性可以查看状态码。
# -*- coding: utf-8 -*- r = requests.get("https://www.baidu.com/") print(r.status_code) r = requests.get("https://www.baidu.com/python66.com") print(r.status_code)
200 404
此外,Requests还附带了一个内置的状态码查询对象requests.codes.ok,不过这个东西尽量少用,因为他的意义并不是想当然的理解的只有200状态码才正确的输出,如果是404请求requests.codes.ok返回也是200。
# -*- coding: utf-8 -*- r = requests.get("https://www.baidu.com/") print(requests.codes.ok) r = requests.get("https://www.baidu.com/python66.com") # 404 print(requests.codes.ok)
200 200
如果发送了一个错误请求(一个 4XX 客户端错误,或者 5XX 服务器错误响应),我们可以通过Response.raise_for_status()来抛出异常
# -*- coding: utf-8 -*- r = requests.get("https://www.baidu.com/") print(r.raise_for_status()) #200输出None r = requests.get("https://www.baidu.com/python66.com") # 404 print(r.raise_for_status())
None requests.exceptions.HTTPError: 404 Client Error: Not Found for url: https://www.baidu.com/python66.com
完整响应头
状态码属于响应头的一部分,要获取全部响应头也非常简单,直接r.headers就可以查看以一个Python字典形式展示的服务器响应头。
# -*- coding: utf-8 -*- headers = { 'user-agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36 Edg/95.0.1020.44', } url = 'https://www.baidu.com' r = requests.get(url,headers=headers) print(r.headers)
{'Bdpagetype': '1', 'Bdqid': '0xdee12fd40007efc5', 'Cache-Control': 'private', 'Connection': 'keep-alive', 'Content-Encoding': 'gzip', 'Content-Type': 'text/html;charset=utf-8', 'Date': 'Mon, 15 Nov 2021 05:15:44 GMT', 'Expires': 'Mon, 15 Nov 2021 05:15:02 GMT', 'P3p': 'CP=" OTI DSP COR IVA OUR IND COM ", CP=" OTI DSP COR IVA OUR IND COM "', 'Server': 'BWS/1.1', 'Set-Cookie': 'BAIDUID=237ABB0DE68314DD3DBDA5546CCD1E67:FG=1; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com, BIDUPSID=237ABB0DE68314DD3DBDA5546CCD1E67; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com, PSTM=1636953344; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com, BAIDUID=237ABB0DE68314DD0A4420143BA12478:FG=1; max-age=31536000; expires=Tue, 15-Nov-22 05:15:44 GMT; domain=.baidu.com; path=/; version=1; comment=bd, BDSVRTM=0; path=/, BD_HOME=1; path=/, H_PS_PSSID=34942_34443_35105_31660_35049_35097_34584_34518_34917_34606_34815_26350_34973_34866_35145_35018; path=/; domain=.baidu.com', 'Strict-Transport-Security': 'max-age=172800', 'Traceid': '1636953344023825255416060170333759991749', 'X-Frame-Options': 'sameorigin', 'X-Ua-Compatible': 'IE=Edge,chrome=1', 'Transfer-Encoding': 'chunked'}
HTTP头部是大小写不敏感的,因此可以使用任意大写形式来访问这些响应头字段。
# -*- coding: utf-8 -*- headers = { 'user-agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36 Edg/95.0.1020.44', } url = 'https://www.baidu.com' r = requests.get(url,headers=headers) print(r.headers['Connection']) print(r.headers['connection'])
keep-alive keep-alive
如果想得到发送到服务器的请求头,可以通过如下方法获取
r.request.headers
很赞哦!
python编程网提示:转载请注明来源www.python66.com。
有宝贵意见可添加站长微信(底部),获取技术资料请到公众号(底部)。同行交流请加群
相关文章
文章评论
-
requests获取状态码与http响应头、请求头文章写得不错,值得赞赏