你的位置:首页 > 信息动态 > 新闻中心
信息动态
联系我们

Scrapy框架(一. 快速入门)

2021/12/20 4:17:12

Scrapy框架(一. 快速入门)





目录:


一. Scrapy初识:

​          1.官网 :https://scrapy.org/

​          2. Scrapy是什么?

​          3. Scrapy可以用来干什么?

二. 下载Scrapy库

三. 使用Scrapy框架,步骤(这里以 www.baidu.com 为例)

​                            1. 新建项目

​                            2. 明确目标 (编写items.py文件) target_name = scrapy.Field()

​                             3. 制作爬虫文件 (spiders/xxx.py)

​                                                         a. 创建爬虫文件 scrapy genspider baidu 'baidu.com'

​                                                        b. 编写爬虫代码

​                            4. 持久化存储爬取的数据

​                             这里将单独编写一篇博客讲解,如何使用Scrapy框架进行持久化存储数据 :

​                                                                                   点击跳转至该博客

​                             5.执行Scrapy程序、获取数据

                                                      输入命令: scrapy crawl baidu

一. Scrapy初识 :

   

Scrapy是适用于Python网络爬虫的应用框架

​             框架内的各个部分相互协调,最终实现爬取目标数据

在这里插入图片描述

Scrapy 功能 :

  1. 通常 Scrapy 框架用于爬取指定网站的内容或图片,并进行持久化存储
  2. 数据挖掘
  3. 信息处理
  4. 存储历史数据
  5. 监测
  6. 自动化测试



二. 下载Scrapy库:(cmd 打开命令提示符窗口, 分别输入)

  1. 升级pip :

    ​ python -m pip install --upgrade pip

  1. 安装scrapy库:

    ​ pip install scrapy

也可在pyCharm中分别对pip进行升级、对scrapy库进行下载



三. Scrapy项目

1. 新建项目: (这里以创建一个 名为MyspiderName的项目为例)

   通过PyCharm 中的Terminal窗口,输入命令:
                                             scrapy start MyspiderName

​   创建完成,则自动生成一系列文件:

在这里插入图片描述


2. 明确目标(编写items.py文件):

以 TargetName = scrapy.Field() 格式编写 (TargetName: 目标名称)

在这里插入图片描述


3. 制作爬虫文件

a. 创建爬虫文件:

在这里插入图片描述


b. 编写爬虫代码

i. 简单粗暴,直接输出响应的文本形式、将自动生成的pass注释掉
在这里插入图片描述

ii. 由于Scrapy默认服从robots.txt协议(取消注释、将True改为False)

在这里插入图片描述

5. 执行程序、获取数据

在PyCharm中Terminal窗口中输入 scrapy crawl baidu命令
在这里插入图片描述

等待,则输出响应的文本格式
在这里插入图片描述