[爬虫]3.4.1 Scrapy框架的基本使用

2023-07-24 00:03 由博客0214 发表于 #后端开发

Scrapy是一款强大的Python网络爬虫框架，它可以帮助你快速、简洁地编写爬虫程序，处理数据抓取、处理和存储等复杂问题。

1. 安装Scrapy

在开始使用Scrapy之前，你需要先将其安装在你的系统中。你可以使用Python的包管理器pip来安装Scrapy：

pip install Scrapy

2. 创建一个Scrapy项目

Scrapy使用一个明确的项目结构来管理爬虫。你可以使用以下命令来创建一个新的Scrapy项目：

scrapy startproject projectname

这将创建一个新的目录，名为"projectname"，其中包含了Scrapy项目的基本结构。

3. 创建一个Spider

Spider是Scrapy用来定义如何爬取特定网站的类。要创建一个新的Spider，你可以在"spiders"目录下创建一个新的Python文件。以下是一个基本的Spider的例子：

import scrapy

class ExampleSpider(scrapy.Spider):
    name = "example"
    start_urls = [
        'http://example.com',
    ]

    def parse(self, response):
        self.log('Visited %s' % response.url)

这个Spider将会访问"example.com"，然后在日志中记录访问的URL。

4. 运行Spider

你可以使用以下命令来运行你的Spider：

scrapy crawl example

"example"是你在Spider中定义的name。

5. 解析页面内容

Scrapy的Response对象提供了一些方法来提取页面内容。例如，你可以使用CSS选择器或XPath选择器来选择页面中的元素：

def parse(self, response):
    title = response.css('title::text').get()
    self.log('Title: %s' % title)

这个例子将会提取页面的标题，然后在日志中记录。

6. 存储结果

你可以使用Scrapy的Item和Item Pipeline来存储你的爬取结果。Item是保存爬取数据的容器，而Item Pipeline则是处理和存储Item的组件。

首先，你需要在items.py文件中定义你的Item：

import scrapy

class ExampleItem(scrapy.Item):
    title = scrapy.Field()

然后，在你的Spider中，返回这个Item的实例：

def parse(self, response):
    item = ExampleItem()
    item['title'] = response.css('title::text').get()
    return item

最后，定义一个Item Pipeline来存储这个Item：

class ExamplePipeline(object):
    def process_item(self, item, spider):
        print('Title: %s' % item['title'])
        return item

并在settings.py文件中启用这个Item Pipeline：

ITEM_PIPELINES = {'projectname.pipelines.ExamplePipeline': 1}

这样，每次爬取到一个Item，都会打印出其标题。

以上就是Scrapy框架的基本使用。你可以根据你的需求，使用Scrapy提供的各种功能和选项，来编写更复杂的爬虫。
推荐阅读：

https://mp.weixin.qq.com/s/dV2JzXfgjDdCmWRmE0glDA

https://mp.weixin.qq.com/s/an83QZOWXHqll3SGPYTL5g

热门相关：有个人爱你很久戏精老公今天作死没修真界败类锦庭娇裙上之臣

Java Maven Settings配置参考

## 介绍 ### 快速概览 `settings.xml`文件中的 `settings` 元素包含用于定义以各种方式配置Maven执行的值的元素，如`pom.xml`，但不应绑定到任何特定项目或分发给受众。这些值包括本地仓库位置、备用远程仓库服务器和身份验证信息。 `settings.xml`文件可 ...阅读全文

Python中的弱引用与基础类型支持情况探究

## 背景最近有一个业务场景需要用Python自行实现一个简单的LRU cache，不可避免的接触到了弱引用这一概念，这里记录一下。 ## 强引用 Python内存回收由垃圾回收器自动管理，当一个对象的引用计数归0时，其内存就可能被回收掉，而引用计数器的数值其实就是代表有多少个强引用指向该对象，我 ...阅读全文

关于使用RocketMQ搭建多Master多Slave模式（同步）集群时遇到的问题

搭建多Master多Slave模式（同步）集群时的java.lang.NullPointerException异常一、运行环境等基本描述（问题产生原因是权限问题，即权限不够导致无法启动broker，甚至broker线程无法通过jps命令查出。下面阐述分析思路） 1.1）操作系统：Linux 虚拟机 ...阅读全文

C++内存分区模型

当涉及C++内存分区模型时，我们必须理解栈、堆和全局/静态存储区的概念。栈用于存储函数调用和局部变量，堆用于动态内存分配，而全局/静态存储区用于全局变量和静态变量。同时，我们还探讨了栈帧重用现象，它可能在函数调用时导致局部变量地址重叠。了解这些内存分区的特点和优化行为，可以帮助我们编写高效、可靠的C... ...阅读全文

Java服务刚启动时，一小波接口超时排查全过程

> 原创：扣钉日记（微信公众号ID：codelogs），欢迎分享，非公众号转载保留此声明。 ### 简介我们组有一个流量较大的Java服务，每次发代码时，服务都会有一小波接口超时，之前简单分析过，发现这些超时的case仅发生在服务刚启动时，少量请求会耗时好几秒，但之后又马上恢复正常。 ### 问题 ...阅读全文

小程序软键盘&SM2解密方式

## 小程序软键盘&SM2解密方式转载请著名出处:[https://www.cnblogs.com/funnyzpc/p/17572445.html](https://www.cnblogs.com/funnyzpc/p/17572445.html) ### SM2基本信息 + 私钥(primar ...阅读全文

Java 调用gdal API(二)——栅格裁剪

gdal可以说是GIS数据处理比较好的工具之一，虽然也提供了Java API，但是官方文档确实太过简单，用起来确实太难受，每次都需要去参考对应的C++api，然后在对应使用。因此小编决定从这篇文章开始，将自己以前以及今后用到的API，都记录下，以帮助更多从事java GIS服务开发者。今天主要来 ...阅读全文

Java并发工具CountDownLatch的使用和原理

## 1.等待多线程完成的 CountDownLatch CountDownLatch 允许一个或多个线程等待其他线程完成操作。假如有这样一个需求：我们需要解析一个 Excel 里多个 sheet 的数据，此时可以考虑使用多线程，每个线程解析一个 sheet 里的数据，等到所有的 sheet 都解 ...阅读全文

java 拦截、过滤器2

## 一、概述在SpringMVC中，除了Filter和Interceptor拦截器外，还有对请求Controller的处理，即对请求和响应内容的处理和对请求参数的处理。 ![image.png](https://cdn.nlark.com/yuque/0/2023/png/29341512/16 ...阅读全文

Python教程(5)——Python的第一个程序

python的环境以及IDE都准备好之后，我们就可以开始Python之旅了。Python的第一个程序通常是打印输出"Hello, World!"，非常简单。以下是一个示例： ```python print("Hello, World!") ``` # 运行python代码首先必须明白python是 ...阅读全文