您的位置：网站首页> requests爬虫> 当前文章

requests获取状态码与http响应头、请求头

老董-我爱我家房产SEO2019-07-18188围观,150赞

　　日常生活中有时候打开一个网页提示404或者500错误，这种404或者500就是一种状态码，代表一种含义来表达这次访问网页的结果咋样。

　　访问一个网页就是向服务器发1个请求，实际上在浏览器接收并显示网页前，网页所在的服务器会返回一个响应头（server header），响应头信息里包含1个HTTP状态码，不同的状态码的值代表不同的含义。

　　常见的HTTP状态码：

　　200 - 请求成功

　　301 - 资源（网页等）被永久转移到其它URL

　　403 - 禁止此请求

　　404 - 请求的资源不存在

　　500 - 内部服务器错误

　　我们可以通过浏览器或者其他专业的抓包工具(比如fiddler)来查看响应头，随便打开1个网页可以正常访问就是200。

　　在requests请求网页的相应对象里面有个status_code属性可以查看状态码。

# -*- coding: utf-8 -*-

r = requests.get("https://www.baidu.com/")
print(r.status_code)

r = requests.get("https://www.baidu.com/python66.com")
print(r.status_code)

200
404

　　此外，Requests还附带了一个内置的状态码查询对象requests.codes.ok，不过这个东西尽量少用，因为他的意义并不是想当然的理解的只有200状态码才正确的输出，如果是404请求requests.codes.ok返回也是200。

# -*- coding: utf-8 -*-

r = requests.get("https://www.baidu.com/")
print(requests.codes.ok)

r = requests.get("https://www.baidu.com/python66.com") # 404
print(requests.codes.ok)

200
200

　　如果发送了一个错误请求(一个 4XX 客户端错误，或者 5XX 服务器错误响应)，我们可以通过Response.raise_for_status()来抛出异常

# -*- coding: utf-8 -*-

r = requests.get("https://www.baidu.com/")
print(r.raise_for_status()) #200输出None

r = requests.get("https://www.baidu.com/python66.com") # 404
print(r.raise_for_status())

None
requests.exceptions.HTTPError: 404 Client Error: Not Found for url: https://www.baidu.com/python66.com

　　完整响应头

　　状态码属于响应头的一部分，要获取全部响应头也非常简单，直接r.headers就可以查看以一个Python字典形式展示的服务器响应头。

# -*- coding: utf-8 -*-
headers = {
'user-agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36 Edg/95.0.1020.44',
}

url = 'https://www.baidu.com'
r = requests.get(url,headers=headers)
print(r.headers)

{'Bdpagetype': '1', 'Bdqid': '0xdee12fd40007efc5', 'Cache-Control': 'private', 'Connection': 'keep-alive', 'Content-Encoding': 'gzip', 'Content-Type': 'text/html;charset=utf-8', 'Date': 'Mon, 15 Nov 2021 05:15:44 GMT', 'Expires': 'Mon, 15 Nov 2021 05:15:02 GMT', 'P3p': 'CP=" OTI DSP COR IVA OUR IND COM ", CP=" OTI DSP COR IVA OUR IND COM "', 'Server': 'BWS/1.1', 'Set-Cookie': 'BAIDUID=237ABB0DE68314DD3DBDA5546CCD1E67:FG=1; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com, BIDUPSID=237ABB0DE68314DD3DBDA5546CCD1E67; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com, PSTM=1636953344; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com, BAIDUID=237ABB0DE68314DD0A4420143BA12478:FG=1; max-age=31536000; expires=Tue, 15-Nov-22 05:15:44 GMT; domain=.baidu.com; path=/; version=1; comment=bd, BDSVRTM=0; path=/, BD_HOME=1; path=/, H_PS_PSSID=34942_34443_35105_31660_35049_35097_34584_34518_34917_34606_34815_26350_34973_34866_35145_35018; path=/; domain=.baidu.com', 'Strict-Transport-Security': 'max-age=172800', 'Traceid': '1636953344023825255416060170333759991749', 'X-Frame-Options': 'sameorigin', 'X-Ua-Compatible': 'IE=Edge,chrome=1', 'Transfer-Encoding': 'chunked'}

　　HTTP头部是大小写不敏感的，因此可以使用任意大写形式来访问这些响应头字段。

# -*- coding: utf-8 -*-
headers = {
'user-agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36 Edg/95.0.1020.44',
}

url = 'https://www.baidu.com'
r = requests.get(url,headers=headers)
print(r.headers['Connection'])
print(r.headers['connection'])