newechoes/src/content/理解计算机/python/爬虫/scrapy/scrapy操作.md

859 B
Raw Blame History

title date tags
scrapy操作 2024-06-06T23:51:36Z

创建工程

scrapy startproject (projectname)

进入工程文件

创建爬虫源文件

scrapy genspider (spidename) (url)

编写对应的代码在爬虫文件中

  1. parse 中的 response 解析 想要使用数据,必须使用 extract()提取数据 extract():返回列表 extract_first():返回一个数据
  2. 创建项目对象,将数据放入项目
  3. 用 yield 将项目传入管道

在 pipeline 中完成数据的储存

class 类名():
    def process_item(self, item, spider):
        item #数据
        spider #爬虫
        return item #如果不return下一个管道收不到数据

设置 setting 将 pipeline 进行生效设置

执行工程

scrapy crawl (spidename)
默认会输出工程的默认信息