【python爬虫案例】用python爬豆瓣读书TOP250排行榜！

2023-06-29 14:48 由马哥python说发表于 #后端开发

一、爬虫对象-豆瓣读书TOP250
二、python爬虫代码讲解
三、讲解视频
四、完整源码

一、爬虫对象-豆瓣读书TOP250

今天我们分享一期python爬虫案例讲解。爬取对象是，豆瓣读书TOP250排行榜数据：
https://book.douban.com/top250

开发好python爬虫代码后，爬取成功后的csv数据，如下：

代码是怎样实现的爬取呢？下面逐一讲解python实现。

二、python爬虫代码讲解

首先，导入需要用到的库：

import requests  # 发送请求
from bs4 import BeautifulSoup  # 解析网页
import pandas as pd  # 存取csv
from time import sleep  # 等待时间

然后，向豆瓣读书网页发送请求：

res = requests.get(url, headers=headers)

利用BeautifulSoup库解析响应页面：

soup = BeautifulSoup(res.text, 'html.parser')

用BeautifulSoup的select函数，（css解析的方法）编写代码逻辑，部分核心代码：

name = book.select('.pl2 a')[0]['title']  # 书名
book_name.append(name)
bkurl = book.select('.pl2 a')[0]['href']  # 书籍链接
book_url.append(bkurl)
star = book.select('.rating_nums')[0].text  # 书籍评分
book_star.append(star)
star_people = book.select('.pl')[1].text  # 评分人数
star_people = star_people.strip().replace(' ', '').replace('人评价', '').replace('(\n', '').replace('\n)',
                                                                                                 '')  # 数据清洗
book_star_people.append(star_people)

最后，将爬取到的数据保存到csv文件中：

def save_to_csv(csv_name):
	"""
	数据保存到csv
	:return: None
	"""
	df = pd.DataFrame()  # 初始化一个DataFrame对象
	df['书名'] = book_name
	df['豆瓣链接'] = book_url
	df['作者'] = book_author
	df['译者'] = book_translater
	df['出版社'] = book_publisher
	df['出版日期'] = book_pub_year
	df['价格'] = book_price
	df['评分'] = book_star
	df['评分人数'] = book_star_people
	df['一句话评价'] = book_comment
	df.to_csv(csv_name, encoding='utf8')  # 将数据保存到csv文件

其中，把各个list赋值为DataFrame的各个列，就把list数据转换为了DataFrame数据，然后直接to_csv保存。
这样，爬取的数据就持久化保存下来了。

三、讲解视频

同步讲解视频：https://www.zhihu.com/zvideo/1464515550177546240

四、完整源码

附完整源代码：【python爬虫案例】利用python爬虫爬取豆瓣读书TOP250的数据！

我是 @马哥python说，持续分享python源码干货中！

热门相关：倾心之恋：总裁的妻子锦乡里花月颂变身蜘蛛侠变身蜘蛛侠

【后端面经-Java】公平锁和加锁流程

[TOC](【后端面经-Java】公平锁和加锁流程) ## 1. 公平锁和非公平锁 ### 1.1 基本概念 - 公平锁：线程按照到来的先后顺序，排队等待使用资源。 - 非公平锁：线程不一定按照先后顺序使用资源，而是可能出现“插队”的情况。拿游乐场等待娱乐项目举例，普通游客只能按照先后顺序排队等待 ...阅读全文

逍遥自在学C语言 | 函数初级到高级解析

## 前言函数是C语言中的基本构建块之一，它允许我们将代码组织成可重用、模块化的单元。本文将逐步介绍C语言函数的基础概念、参数传递、返回值、递归以及内联函数和匿名函数。 ## 一、人物简介 - 第一位闪亮登场，有请今后会一直教我们C语言的老师 —— 自在。 ![](https://img2023 ...阅读全文

[渗透测试]—6.1 无线网络基础知识

在本章节中，我们将学习一些关于无线网络的基础知识，如WEP、WPA和WPA2等加密技术。我们将尽量讲解得详细、通俗易懂，并提供尽可能多的实例。 ### 6.1 无线网络基础无线局域网（WLAN）是一种基于无线电波传输的计算机网络，可以实现设备之间的通信和互联。在家庭、企业和公共场所，无线网络已经成 ...阅读全文

Servlet p2 Servlet的生命周期

学习课程：【这可能是B站讲的最好的Servlet教程，5小时打通Servlet全套教程丨2022最新版，轻松掌握servlet基础+案例实操】 https://www.bilibili.com/video/BV1Kr4y1V7ZE/?share_source=copy_web&vd_source= ...阅读全文

Golang空结构体struct{}的作用？

### 介绍在平时做项目得时候，经常会看到很多包里面定义了结构体。 e.g. 在`context`包里面`Context`接口中的`Done()`方法，`Done()`返回一个是以空结构体定义数据的通道`chan struct{}`，那这里他是有什么特殊用意吗？我们接下来分析`struct{}`的 ...阅读全文

[ARM 汇编]高级部分—ARM汇编编程实战—3.3.1 嵌入式系统的基本概念

嵌入式系统是一种特殊的计算机系统，通常用于执行特定的任务。它通常包含一个或多个微处理器、存储器和外围设备。与通用计算机系统相比，嵌入式系统具有体积小、功耗低、成本低和实时性强等特点。在这一部分，我们将介绍嵌入式系统的基本概念，并通过实例来展示如何在ARM汇编程序中应用这些概念。 1. **微处理器* ...阅读全文

若依微服务版本集成积木报表

### 一、项目结构新建报表微服务模块，这是我的项目结构图。 ![](https://pic.smartasc.cn/blogPics/20230626141851.png) ### 二、执行初始化数据脚本运行积木报表的初始化脚本，创建相关表结构，github速度太慢，推荐使用 [gitee地址 ...阅读全文

python测试开发面试常考题：装饰器

### 简介 Python 装饰器是一个可调用的(函数、方法或类)，它获得一个函数对象 func_in 作为输入，并返回另一函数对象 func_out。它用于扩展函数、方法或类的行为。装饰器模式通常用于扩展对象的功能。在日常生活中，这种扩展的例子有：在枪上加一个消音器，使用不同的相机镜头等等。 ! ...阅读全文

深入Python网络编程：从基础到实践

**Python，作为一种被广泛使用的高级编程语言，拥有许多优势，其中之一就是它的网络编程能力。Python的强大网络库如socket, requests, urllib, asyncio,等等，让它在网络编程中表现优秀。本文将深入探讨Python在网络编程中的应用，包括了基础的socket编程，到 ...阅读全文

[ARM 汇编]高级部分—性能优化与调试—3.4.1 性能分析与优化策略

性能优化是嵌入式系统开发中的一个重要环节，尤其是在资源受限的环境下。性能优化的目标是提高代码执行速度、降低功耗和减少内存占用。在本章节中，我们将讨论性能分析与优化策略，并通过实例来学习如何应用这些策略。 1. **性能分析方法** 要优化程序性能，首先需要分析程序的瓶颈。通常，我们可以通过以下方法进 ...阅读全文