Scrapy框架(一. 快速入门)
目录:
一. Scrapy初识:
1.官网 :https://scrapy.org/
2. Scrapy是什么?
3. Scrapy可以用来干什么?
二. 下载Scrapy库
三. 使用Scrapy框架,步骤(这里以 www.baidu.com 为例)
1. 新建项目
2. 明确目标 (编写items.py文件) target_name = scrapy.Field()
3. 制作爬虫文件 (spiders/xxx.py)
a. 创建爬虫文件 scrapy genspider baidu 'baidu.com'
b. 编写爬虫代码
4. 持久化存储爬取的数据
这里将单独编写一篇博客讲解,如何使用Scrapy框架进行持久化存储数据 :
点击跳转至该博客
5.执行Scrapy程序、获取数据
输入命令: scrapy crawl baidu
一. Scrapy初识 :
Scrapy是适用于Python网络爬虫的应用框架
框架内的各个部分相互协调,最终实现爬取目标数据
Scrapy 功能 :
- 通常 Scrapy 框架用于爬取指定网站的内容或图片,并进行持久化存储
- 数据挖掘
- 信息处理
- 存储历史数据
- 监测
- 自动化测试
二. 下载Scrapy库:(cmd 打开命令提示符窗口, 分别输入)
升级pip :
python -m pip install --upgrade pip
安装scrapy库:
pip install scrapy
也可在pyCharm中分别对pip进行升级、对scrapy库进行下载
三. Scrapy项目
1. 新建项目: (这里以创建一个 名为MyspiderName的项目为例)
通过PyCharm 中的Terminal窗口,输入命令:
scrapy start MyspiderName
创建完成,则自动生成一系列文件:
2. 明确目标(编写items.py文件):
以 TargetName = scrapy.Field() 格式编写 (TargetName: 目标名称)
3. 制作爬虫文件
a. 创建爬虫文件:
b. 编写爬虫代码
i. 简单粗暴,直接输出响应的文本形式、将自动生成的pass注释掉
ii. 由于Scrapy默认服从robots.txt协议(取消注释、将True改为False)
5. 执行程序、获取数据
在PyCharm中Terminal窗口中输入 scrapy crawl baidu
命令
等待,则输出响应的文本格式