Python 爬虫框架 Scrapy 入门

一、安装Scrapy

为了避免安装过程中出现一大堆依赖包报错，我并没有用Scrapy官方推荐的pip安装，而是用的Anaconda来安装Scrapy的，Anaconda就像Scrapy的一键安装包一样，将Scrapy所需的依赖包全部打包好了。首先，登陆用户在终端里取得root权限之后，开始安装Anaconda，在 https://www.continuum.io/downloads 根据你自己的python版本下载对应的anaconda版本。我的机器里装的是python 2.7所以，我选择的是 Anaconda2-4.2.0-Linux-x86_64.sh，下载可以使用迅雷，下载完毕之后将其上传到服务器用户目录下，cd 到该目录下，执行以下命令：

#bash Anaconda2-4.2.0-Linux-x86_64.sh

按照Anaconda的默认设置安装即可。

安装完毕，关掉终端，然后另开一个终端（一定要这样操作）。开始

安装python的MySQL连接模块

#conda install MySQL-python

安装过程中要选yes的地方，输入yes继续

接着安装scrapy。

首先取得root权限，然后输入如下命令

#conda install scrapy

安装过程中要选yes的地方，输入yes继续

安装完毕，输入scrapy如果没有报错，那么scrapy就安装成功了。

二、新开一个项目

打开一个新的终端

#git clone https://github.com/Bravehartk2/ScrapyCrawler.git //克隆spider_news_all演示版本
#cd /home/david/ScrapyCrawler/Crawler
#cp settings_sheldon.py settings.py
#vi settings.py //编辑自己的setting文件，需要设置域名，蜘蛛名称，爬行起始URL等信息，然后保存
记住这句话：run the command from the correct directory (the one with the scrapy.cfg file)

#cd /home/david/ScrapyCrawler //转到scrapy运行的正确的目录
#scrapy crawl zzayi//放出自己的蜘蛛

三、自己编写爬虫

需要掌握xpath的用法，如果需要写出希望抓取的页面某一部分的xpath，我们可以利用chrome的检查功来方便地实现。

红人网络

Python 爬虫框架 Scrapy 入门

一、安装Scrapy

二、新开一个项目

三、自己编写爬虫

发表回复取消回复

一、安装Scrapy

二、新开一个项目

三、自己编写爬虫

您可能对以下内容也感兴趣：

百度旗下好看视频平台中短视频的地址解析及下载 [python]

wordpress采集和快速发文的几个工具

发表回复 取消回复

发表回复取消回复