newechoes/src/content/理解计算机/python/爬虫/scrapy/scrapy操作.md

44 lines
859 B
Markdown
Raw Normal View History

2025-04-19 01:06:52 +08:00
---
title: scrapy操作
date: 2024-06-06T23:51:36Z
tags: []
---
## 创建工程
scrapy startproject (projectname)
## 进入工程文件
## 创建爬虫源文件
`scrapy genspider (spidename) (url)`
## 编写对应的代码在爬虫文件中
1. parse 中的 response 解析
想要使用数据,必须使用 extract()提取数据
extract():返回列表
extract_first():返回一个数据
2025-04-19 01:06:52 +08:00
2. 创建项目对象,将数据放入项目
3. 用 yield 将项目传入管道
2025-04-19 01:06:52 +08:00
## 在 pipeline 中完成数据的储存
2025-04-19 01:06:52 +08:00
```python
class 类名():
def process_item(self, item, spider):
item #数据
spider #爬虫
return item #如果不return下一个管道收不到数据
```
## 设置 setting 将 pipeline 进行生效设置
2025-04-19 01:06:52 +08:00
## 执行工程
`scrapy crawl (spidename)`
默认会输出工程的默认信息