newechoes/src/content/理解计算机/python/爬虫/scrapy/scrapy操作.md

45 lines
841 B
Markdown
Raw Normal View History

2025-04-19 01:06:52 +08:00
---
title: scrapy操作
date: 2024-06-06T23:51:36Z
tags: []
---
## 创建工程
scrapy startproject (projectname)
## 进入工程文件
## 创建爬虫源文件
`scrapy genspider (spidename) (url)`
## 编写对应的代码在爬虫文件中
1.将parse中的response解析
想要使用数据,必须使用extract()提取数据
extract():返回列表
extract_first():返回一个数据
2. 创建项目对象,将数据放入项目
3. 用yield将项目传入管道
## 在pipeline中完成数据的储存
```python
class 类名():
def process_item(self, item, spider):
item #数据
spider #爬虫
return item #如果不return下一个管道收不到数据
```
## 设置setting将pipeline进行生效设置
## 执行工程
`scrapy crawl (spidename)`
默认会输出工程的默认信息