爬取诗词网站中的文章

2023-10-22 22:19 由敲代码的PinkPig 发表于 #后端开发

实战准备：要爬取的url：https://www.shicimingju.com/book/sanguoyanyi.html

实战要求：爬取诗词名句网站中的三国演义文章，将每章的标题和内容写入自己的项目文件（sanguo.txt）

（本次爬取使用bs4）

 1 import requests
 2 # 实例化BeautifulSoup对象
 3 from bs4 import BeautifulSoup
 4 if __name__ == "__main__":
 5     #设置User-Agent将爬虫伪装成用户通过浏览器访问
 6     header = {
 7         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.67 Safari/537.36 Edg/87.0.664.55'
 8     }
 9     #要访问的网页url地址
10     url = 'https://www.shicimingju.com/book/sanguoyanyi.html'
11     #发起请求
12     respond = requests.get(url=url,headers=header)
13     #通过实例化获取网页源码
14     soup1 = BeautifulSoup(respond.content,'lxml')
15     #select返回列表，找到连接标签
16     title = soup1.select('.book-mulu a')
17     #打开sanguo.txt文件，设置字节码格式避免乱码
18     fp = open('./sanguo.txt','w',encoding='utf-8')
19     #循环title列表里的链接
20     for i in title:
21         #通过.string获取a链接下的直系文本作为标题
22         title = i.string
23         #补全a连接，获取特定的href属性
24         data_url = "https://www.shicimingju.com"+i['href']
25         #对a连接的url进行请求，进一步获取链接里的文章
26         soup2 = BeautifulSoup(requests.get(url=data_url,headers=header).content,'lxml')
27         #找到文章所在的标签
28         content = soup2.find('div',class_='chapter_content')
29         #将文章标题及其文章的内容获取到写入刚刚打开的文件
30         fp.write(title+":"+content.text+"\n")
31         print(title+"爬取成功")
32     print("Over")

*bas4知识梳理在博客中Python知识梳理中

热门相关：慕少，你老婆又重生了魔神狂后哥哥的情人床上的灰姑娘小姐互换

前后端分离后模块开发

编写页面这个程序设计工程师嘴上的口头禅是在 2016 年在建行刚开始最开发的时候听到的，因为大学的时候学习的程序设计语言是一 C++为主，对于前端页面这种能看到效果只是一种很难体会的概念。学习 C 语言程序设计的时候显示在眼前的是一个命令行黑屏，学 C++， C#都是。作为大学生初学程序设计开发， ...阅读全文

Flutter/Dart第15天：Dart类构造函数

我们通过类构造函数来创建对象，上文（第14天）我们学到，与Java不同，创建Dart对象时可以省略构造函数之前的new关键字。同时，Dart语言除默认构造函数外，还有命名构造函数，重定向构造函数，常量构造函数和工厂构造函数等…… ...阅读全文

高精度（加减乘除）

高精度（加减乘除）高精度的核心思想就是利用数组去储存大数，然后通过模拟手动计算的方式，来进行计算。主要分三个模块： 1.读入数据并转换为(int)类型储存高精度加法核心思想：将每个位上的数字都＋起来，如果大于10就进位。核心代码如下： c[i]+=a[i]+b[i];//两数相加 c[i+ ...阅读全文

Golang Map底层实现简述

Go的map是一种高效的数据结构，用于存储键值对。其底层实现是一个哈希表（hash table），下面是有关map底层实现的详细介绍：哈希表： map的底层实现是一个哈希表，也称为散列表。哈希表是一个数组，其中每个元素被称为"桶"，用于存储键值对。哈希表的大小是可动态调整的，当存储的键值对数量达 ...阅读全文

Python教程(15)——Python流程控制语句详解

Python流程控制是Python编程中非常重要的一部分，它用于控制程序的执行流程。Python提供了多种流程控制语句，包括if语句、while循环、for循环、break和continue语句等。这种流程控制在各个语言中都是大同小异的，如果你已经学过其他的语言，那么这章节就可以直接跳过。 if语句 ...阅读全文

写个简单的管理数组指针的智能指针

模板智能数组指针 1.管理任意类型的数组指针 2.释放的时候自动删除数组指针指向的内存 //模板智能数组指针 template<typename T> class AiArrayPtr { public: AiArrayPtr(T *pArray) { m_pAiPtr = pArray; m_bI ...阅读全文

通过数组的指针获得数组个数

这几天学习智能指针时,自己在练习写个管理数组指针的类时碰到了通过数组指针获取数组个数的问题 1.在网上查询了通过数组指针获取数组个数的方法,对于自定义数据在前四个节点保存了数组个数 Student* pAry = new Student[3]; size_t num = *((size_t*)pAr ...阅读全文

快速搭建API随心搭，让你的web开发更加高效

随着互联网的发展，越来越多的应用和服务需要通过API接口来实现。API（Application Programming Interface，应用程序编程接口）可以理解为两个软件之间的桥梁，通过API接口，两个软件可以相互交流并进行数据交换。如今，API已经成为许多公司和应用程序的核心，因此快速搭建并 ...阅读全文

Python-Json异常：Object of type Decimal is not JSON serializable

源起：使用python分离出一串文本，因为是看起来像整数，结果json转换时发生异常：TypeError: Object of type Decimal is not JSON serializable msgInfo={"uid":3232324232} json.dumps(msgInfo, ...阅读全文

Qt调用Opencv

使用Qt Creator调用opencv 一、构建套件在构建套件之前，需正确安装Visual Studio和WindowsSDK 当正确安装后，一般情况下，在Qt Creator会自动识别到VS的编译器和调试器，并会自动构建好。若调试器未能自动识别，可自行找到相关的安装路径（cdb.exe文件）， ...阅读全文