scrapy常用命令

2020-05-23

1.创建项目

scrapy startproject projectname

其中，projectname是项目名称，该目录包含scrapy.cfg文件，是项目根目录

创建完项目后，切换到projectname目录，使用如下命令创建爬虫

scrapy genspider example example.com

其中example表示爬虫名称，example.com是待爬取的网站，对应爬虫类：

class ExampleSpider(scrapy.Spider):
    name = "example"
    allowed_domains = ["example.com"]
    start_urls = ["http://www.example.com/"]

使用如下命令启动爬虫：

scrapy crawl example

scrapy shell https://www.meijutt.com/

该命令会启动一个shell，同时Scrapy会自动下载该网站首页。在shell窗口中，Scrapy会创建好几个常用对象，如下图所示：

该shell工具常用于检查XPath语法，其命令如下：

response.xpath("//div[@class='l week-hot layout-box']/ul/li")

使用如下命令，可以查看爬虫列表：

scrapy list

执行结果如下图所示，显示项目中爬虫名称：

scrapy view命令可以调用浏览器打开目标站点。用户通过视图命令，查看Scrapy下载的网页和目标网页是否一致。

scrapy view "https://fund.eastmoney.com/000001.html"