yokon's blog

Python爬虫(13):Scrapy实战抓取网易云音乐

前两篇文章我们了解了 Scrapy 的理论知识,那么我们不能做纸上谈兵的赵括。实践才是检验真理的唯一标准。本篇文章我们来抓取网易云音乐的所有音乐及音乐的热评。

分析站点

我们打开浏览器,访问网易云音乐的网页端。如果我们想要抓取到所有的音乐,就得有一个切入口,能够获得到所有的音乐数据。

......

Python爬虫(11):Scrapy框架的安装和基本使用

大家好,本篇文章我们来看一下强大的Python爬虫框架ScrapyScrapy是一个使用简单,功能强大的异步爬虫框架,我们先来看看他的安装。

Scrapy的安装

Scrapy的安装是很麻烦的,对于一些想使用Scrapy的人来说,它的安装常常就让很多人死在半路。在此我将我的安装过程和网络上整理的安装方法,分享给大家,希望大家能够安装顺利。

......

Python爬虫(10):Selenium+PhantomJS基本操作

大家好,这篇文章我们来看一下Selenium库结合PhantomJsChrome等一些浏览器的操作。那么我们在之前的文章中,有提到过Selenium库和PhantomJ,说他们结合使用是万能的利器。那么,他们真的那么厉害吗,我们一起来看看Selenium库的用法吧。

......

Python爬虫(9):Cookie介绍和模拟登录

大家好,这篇文章我们来看一下Cookie是什么,和他的一些用法。

什么是Cookie?

在计算机术语中是指一种能够让网站服务器把少量数据储存到客户端的硬盘或内存,或是从客户端的硬盘读取数据的一种技术。

先看看Cookie长什么样子,我们以知乎为例。打开Chrome的开发者工具(F12),点开Network,点击一个请求url,就可以看到请求头(Request Headers)里面的一个Cookie信息了。当然我们从上面的响应头中可以看到一个Set-Cookie的信息,这就是服务器向浏览器设置Cookie的一些信息,比如Cookie的作用域,时间等。

......