第三章 基本库的使用

学习爬虫,最初的操作便是来模拟浏览器向服务器发出一个请求,那么我们需要从哪个地方做起呢?请求需要我们自己来构造吗?我们需要关心请求这个数据结构的实现吗?我们需要了解 HTTP、TCP、IP 层的网络传输通信吗?我们需要知道服务器的响应和应答原理吗?

可能你不知道无从下手,不用担心,Python 的强大之处就是提供了功能齐全的类库来帮助我们完成这些请求,最基础的 HTTP 库有 Urllib、Httplib2、Requests、Treq 等。

拿 Urllib 这个库来说,有了它,我们只需要关心请求的链接是什么,需要传的参数是什么以及可选的请求头设置就好了,不用深入到底层去了解它到底是怎样来传输和通信的。有了它,两行代码就可以完成一个请求和响应的处理过程,得到网页内容,是不是感觉方便极了?

接下来,就让我们从最基础的部分开始了解这些库的使用方法吧。

results matching ""

    No results matching ""