Python 爬虫框架 Scrapy 入门

一、安装Scrapy

为了避免安装过程中出现一大堆依赖包报错,我并没有用Scrapy官方推荐的pip安装,而是用的Anaconda来安装Scrapy的,Anaconda就像Scrapy的一键安装包一样,将Scrapy所需的依赖包全部打包好了。首先,登陆用户在终端里取得root权限之后,开始安装Anaconda,在 https://www.continuum.io/downloads 根据你自己的python版本下载对应的anaconda版本。我的机器里装的是python 2.7所以,我选择的是 Anaconda2-4.2.0-Linux-x86_64.sh,下载可以使用迅雷,下载完毕之后将其上传到服务器用户目录下,cd 到该目录下,执行以下命令:

#bash Anaconda2-4.2.0-Linux-x86_64.sh

按照Anaconda的默认设置安装即可。

安装完毕,关掉终端,然后另开一个终端(一定要这样操作)。开始

安装python的MySQL连接模块

#conda install MySQL-python

安装过程中要选yes的地方,输入yes继续

接着安装scrapy。

首先取得root权限,然后输入如下命令

#conda install scrapy

安装过程中要选yes的地方,输入yes继续

安装完毕,输入scrapy如果没有报错,那么scrapy就安装成功了。

二、新开一个项目

打开一个新的终端

#git clone https://github.com/Bravehartk2/ScrapyCrawler.git //克隆spider_news_all演示版本
#cd /home/david/ScrapyCrawler/Crawler
#cp settings_sheldon.py settings.py
#vi settings.py //编辑自己的setting文件,需要设置域名,蜘蛛名称,爬行起始URL等信息,然后保存
记住这句话:run the command from the correct directory (the one with the scrapy.cfg file)

#cd /home/david/ScrapyCrawler //转到scrapy运行的正确的目录
#scrapy crawl zzayi//放出自己的蜘蛛

三、自己编写爬虫

需要掌握xpath的用法,如果需要写出希望抓取的页面某一部分的xpath,我们可以利用chrome的检查功来方便地实现。

发表评论

邮箱地址不会被公开。 必填项已用*标注