Requests
库的用法大家肯定已经熟练掌握了,但是当我们使用Requests
获取到网页的 HTML 代码信息后,我们要怎样才能抓取到我们想要的信息呢?我相信大家肯定尝试过很多办法,比如字符串的 find 方法,还有高级点的正则表达式。虽然正则可以匹配到我们需要的信息,但是我相信大家在匹配某个字符串一次一次尝试着正则匹配的规则时,一定很郁闷。
虽然Python有内置的urllib
库,可以实现网络的请求,但是我并不推荐。因为urllib
在很多时候使用起来不方便,比如加一个代理,处理Cookie
时API都很繁琐,再比如发送一个POST
请求也很麻烦。
上一篇文章我们整理了Requests
库的基本用法,相信大家已经经过爬取一些简单网页的练习,已经很熟练了。
这一篇文章我们来 看一下Requests
库的高级操作。
高级操作
1.文件上传
import requests
files = {'file' : open('logo.gif','rb')}
resp = requests.post('http://httpbin.org/post', files=files)
print(resp.text)
文件上传的操作只要我们从文件夹中把文件读取出来,并且赋值给 files 参数,就可以了,打印出源代码我们就可以看到上传文件的字节流了。
......大家好,今天周末,希望大家周末愉快。
这篇文章我来梳理一下爬虫的基本原理。用过Python
的伙伴都知道Python
用来写爬虫是件很简单很爽的事情。但是有些伙伴不了解爬虫到底是什么,会纳闷为什么爬虫要设置什么请求头、请求体啊,到底要怎么样去发送这个请求啊。当然有的伙伴使用过很多爬虫的请求库,解析库,写过很多爬虫,但是可能他们的思路脉络也不是太清晰。那么,这篇文章就来帮大家理清爬虫原理的脉络。