1.创建项目
scrapy startproject projectname
其中,projectname是项目名称,该目录包含scrapy.cfg文件,是项目根目录
2.创建爬虫
创建完项目后,切换到projectname目录,使用如下命令创建爬虫
scrapy genspider example example.com
其中example表示爬虫名称,example.com是待爬取的网站,对应爬虫类:
class ExampleSpider(scrapy.Spider):
name = "example"
allowed_domains = ["example.com"]
start_urls = ["http://www.example.com/"]
3.启动爬虫
使用如下命令启动爬虫:
scrapy crawl example
4.检查XPath
scrapy shell https://www.meijutt.com/
该命令会启动一个shell,同时Scrapy会自动下载该网站首页。在shell窗口中,Scrapy会创建好几个常用对象,如下图所示:
该shell工具常用于检查XPath语法,其命令如下:
response.xpath("//div[@class='l week-hot layout-box']/ul/li")
5.查看爬虫列表
使用如下命令,可以查看爬虫列表:
scrapy list
执行结果如下图所示,显示项目中爬虫名称:
6.查看爬虫视图
scrapy view命令可以调用浏览器打开目标站点。用户通过视图命令,查看Scrapy下载的网页和目标网页是否一致。
scrapy view "https://fund.eastmoney.com/000001.html"