为什么选择requests,因为它能完全胜任python自带的urllib模块,简化了不必要的功能的同时让使用更加简单。
安装1
pip3 install requests
简单使用
首先呈上官方文档,有中文版,欢迎来啃。
下面主要介绍两种方法:get和post
- get,就是本地向服务器索取的意思,服务器检查请求头(request headers)后,如果觉得没问题,就会返回信息给本地。
1 | r = requests.get(url,**args)#返回一个Response对象,我们可以从这个对象中获取所有我们想要的信息 |
- post,就是本地要向服务器提交一些数据的意思,服务器还是会检查请求头,如果提交的数据和请求头都没问题,就会返回信息给本地。
1 | args = { |
参数详解
get和post方法中有许多参数可以使用,部分参数后面会详解。
- url:就是目标网址,接收完整(带http)的地址字符串。
- headers:请求头,存储本地信息如浏览器版本,是一个字典。
- data:要提交的数据,字典。
- cookies:cookies,字典。
- timeout:超时设置,如果服务器在指定秒数内没有应答,抛出异常,用于避免无响应连接,整形或浮点数。
- params:为网址添加条件数据,字典。
1 | payload = {'key1': 'value1', 'key2': 'value2'} |
- proxies:ip代理时使用,字典。
Response对象使用
从这个对象中获取所有我们想要的信息非常简单,毕竟爬虫要的数据主要就三种,html源码,图片二进制数据,json数据,Response对象一次性满足你三个愿望。
1 | r.encoding = 'ISO-8859-1' #指定r.text返回的数据类型,写在r.text之前。 |