爬取豆瓣Top250图书数据

2023-06-13 17:16 由 pretty_spider 发表于 #后端开发

爬取豆瓣Top250图书数据

项目的实现步骤
1.项目结构
2.获取网页数据
3.提取网页中的关键信息
4.保存数据
1.项目结构

2.获取网页数据
对应的网址为https://book.douban.com/top250

import requests
from bs4 import BeautifulSoup
"""
获取网页数据，解析数据，将相应的数据传出
"""
def get_page(url):
    headers = {
        'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) '
                     'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 '
                     'Mobile Safari/537.36 Edg/114.0.1823.43'
    }
    resp=requests.get(url,headers=headers)
    soup=BeautifulSoup(resp.text,'html.parser')
    return soup

3.提取网页中的关键信息
获取传出的解析后的数据，获取对应的图片，书名，作者，价格，评价，简介

from geturlcocument.get_document import get_page
import re
# 初始数据
pictures=[]
names=[]
authors=[]
prices=[]
scores=[]
sums=[]
def get_single():
    # 网址地址
    urls = [f"https://book.douban.com/top250?start={num}" for num in range(0,250,25)]
    for url in urls:
        # 获取对应的网页文本
        text = get_page.get_page(url)
        # 所有数据的集合
        all_tr = text.find_all(name="tr", attrs={"class": "item"})
        # 查找每个单项
        for tr in all_tr:
            # 数据类型：图片，书名，作者，价格，评分，简介
            # 图片
            picture = tr.find(name="img")
            picture = picture.get('src')
            # print(picture)
            # 书名
            div = tr.find(name='div', attrs={'class': 'pl2'})
            name = div.find('a').text
            name = re.sub(r'\s+', '', name)
            # 作者
            author = tr.find(name='p', attrs={'class': 'pl'}).text
            author = author.split('/')[0]
            # 价格
            price = author.split('/')[-1]
            price = re.sub(r'元', '', price)
            # 评分
            score = tr.find(name='span', attrs={'class': 'rating_nums'}).text
            try:
                sum = tr.find(name='span', attrs={'class': 'inq'}).text
            except AttributeError:
                sum = ''
            pictures.append(picture)
            names.append(name)
            authors.append(author)
            prices.append(price)
            scores.append(score)
            sums.append(sum)
    data = {
        "picture": pictures,
        "name": names,
        "author": authors,
        "price": prices,
        "score": scores,
        "sum": sums
    }
    return data

将获取的数据存入到字典中，将数据传出，使用re库对相应的数据进行处理，运用异常检错
4.保存数据
获取传出的字典类型的数据，将数据存入到pandas的DataFrame类型中

from geturlcocument.get_single_docuemnt import get_single
import pandas as pd
# 获取字典类型的数据
data=get_single.get_single()
# 用pandas的DataFrame类型存储数据
df=pd.DataFrame(data)
df.to_csv('./books.csv',encoding='utf-8')
print('ending of data')

该项目完成！！！

【解决一个小问题】golang 的 `-race`选项导致 unsafe代码 panic

**作者:张富春(ahfuzhang)，转载时请注明作者和引用链接，谢谢！** * [cnblogs博客](https://www.cnblogs.com/ahfuzhang/) * [zhihu](https://www.zhihu.com/people/ahfuzhang/posts) * [G ...阅读全文

Java流程控制——the next day

用户交互Scanner Next和NextLine Java5的新特性，带来了java.util.Scanner类，提供了人机交互的作用。我们可以通过它获取用户的输入。 public class Demo2 { public static void main(String[] args) { Sca ...阅读全文

混沌演练状态下，如何降低应用的 MTTR（平均恢复时间）

如何在混沌演练的场景中降低应用的MTTR，必须需要根据监控定位，然后人工进行反馈进行处理吗？是否可以自动化，是否有方案可以降低混沌演练过程中的影响？以此达到快速止血，进一步提高系统的稳定性。本篇文章将根据一些思考和实践来解答以上问题。 ...阅读全文

[ARM汇编]计算机原理与数制基础—1.1.2 二进制与十进制数制转换

在计算机中，我们通常使用二进制数制来表示数据，因为计算机的基本电平只有两种状态：高电平（通常表示为 1）和低电平（通常表示为 0）。而在我们的日常生活中，我们习惯使用十进制数制。为了方便理解，我们需要掌握二进制与十进制之间的转换方法。 #### 二进制转十进制将二进制数转换为十进制数时，我们需要将 ...阅读全文

Go 语言之 sqlx 库使用

# Go 语言之 sqlx 库使用 ## 一、sqlx 库安装与连接 ### sqlx 介绍 sqlx is a library which provides a set of extensions on go's standard `database/sql` library. The sqlx ...阅读全文

【python基础】复杂数据类型-字典（嵌套）

有时候，需要将一系列字典存储在列表中，或将列表作为值存储在字典中，这称为**嵌套**。我们可以在列表中嵌套字典、在字典中嵌套列表、在字典中嵌套字典。 # 1.列表嵌套字典我们可以把一个人的信息放在字典中，但是多个人的信息我们无法放在同一个字典中，所以就需要字典列表。其语法格式： [字典1，字典2 ...阅读全文

搭建springbootweb环境

#搭建springboot环境（idea环境) 实现步骤： 1.基础环境配置 2.maven配置 3.编写第一个程序helloworld（可能有两个小问题） 4.运行（jar包运行，命令行运行）一.基础环境配置进入idea，点击file->new->project,在弹出的页面上，选择sprin ...阅读全文

每天一道面试题：Spring的Bean生命周期

Spring的Bean生命周期包括以下步骤： 1、实例化（Instantiation）：当Spring容器接收到创建Bean的请求时，它会先实例化Bean对象。这个过程可以通过构造函数、工厂方法或者反序列化等方式完成； 2、属性赋值（Populate Properties）：在实例化Bean对象后， ...阅读全文

Axure RP教程_编程入门自学教程_菜鸟教程-免费教程分享

## 教程简介 Axure RP是一款专业的快速原型设计工具。Axure（发音：Ack-sure），代表美国Axure公司；RP则是Rapid Prototyping（快速原型）的缩写。 Axure RP是美国Axure Software Solution公司旗舰产品，是一个专业的快速原型设计工具， ...阅读全文

Python正则表达式完全指南

**本篇文章将深入探讨python的一项强大工具：正则表达式。正则表达式是一个强大的文本处理工具，可以用来匹配，搜索，替换和解析文本。我们将逐步展示如何在Python中使用正则表达式，包括其基本语法，常见用法和一些高级技巧。而在最后的“one more thing”部分，我们将探索一个不为人知但又非 ...阅读全文