相知者寡

  • 主页
  • 学习
  • 随笔
所有文章 友链 关于我

相知者寡

  • 主页
  • 学习
  • 随笔

scrapy常用命令

2020-05-23

1.创建项目

scrapy startproject projectname

其中,projectname是项目名称,该目录包含scrapy.cfg文件,是项目根目录

2.创建爬虫

创建完项目后,切换到projectname目录,使用如下命令创建爬虫

scrapy genspider example example.com

其中example表示爬虫名称,example.com是待爬取的网站,对应爬虫类:

class ExampleSpider(scrapy.Spider):
    name = "example"
    allowed_domains = ["example.com"]
    start_urls = ["http://www.example.com/"]

3.启动爬虫

使用如下命令启动爬虫:

scrapy crawl example

4.检查XPath

scrapy shell https://www.meijutt.com/

该命令会启动一个shell,同时Scrapy会自动下载该网站首页。在shell窗口中,Scrapy会创建好几个常用对象,如下图所示:

该shell工具常用于检查XPath语法,其命令如下:

response.xpath("//div[@class='l week-hot layout-box']/ul/li")

5.查看爬虫列表

使用如下命令,可以查看爬虫列表:

scrapy list

执行结果如下图所示,显示项目中爬虫名称:

6.查看爬虫视图

scrapy view命令可以调用浏览器打开目标站点。用户通过视图命令,查看Scrapy下载的网页和目标网页是否一致。

scrapy view "https://fund.eastmoney.com/000001.html"
赏

谢谢你请我吃糖果

微信
  • scrapy2.1.0
  • python3.7
  • 学习

扫一扫,分享到微信

微信分享二维码
scrapy应对反爬虫程序
scrapy数据采集入门
© 2020 相知者寡
Hexo Theme Yilia by Litten
  • 所有文章
  • 友链
  • 关于我

tag:

  • 随笔
  • javascript
  • html5
  • hexo
  • github
  • yilia
  • 博客
  • mysql
  • centos
  • linux
  • windows
  • anaconda
  • tensorflow
  • 机器学习
  • 安装
  • scrapy2.1.0
  • python3.7
  • windows10
  • redis3.2.100

    缺失模块。
    1、请确保node版本大于6.2
    2、在博客根目录(注意不是yilia根目录)执行以下命令:
    npm i hexo-generator-json-content --save

    3、在根目录_config.yml里添加配置:

      jsonContent:
        meta: false
        pages: false
        posts:
          title: true
          date: true
          path: true
          text: false
          raw: false
          content: false
          slug: false
          updated: false
          comments: false
          link: false
          permalink: false
          excerpt: false
          categories: false
          tags: true
    

  • 友情链接1
越努力,越幸运

努力成为自己想象中的样子