【爬虫案例】用Python爬取百度热搜榜数据！

2023-07-11 21:28 由马哥python说发表于 #后端开发

一、爬取目标

您好，我是@马哥python说，一名10年程序猿。

本次爬取的目标是：百度热搜榜

分别爬取每条热搜的：

热搜标题、热搜排名、热搜指数、描述、链接地址。

下面，对页面进行分析。
经过分析，此页面有XHR链接，可以针对接口进行爬取。

打开Chrome浏览器，按F12进入开发者模式，依次点击：

点击Network，选择网络
点击XHR，选择XHR请求
选择目标链接地址
击Preview，选择预览
查看返回数据

操作过程，如下图所示：

二、编写爬虫代码

首先，导入需要用到的库：

import requests  # 发送请求
import pandas as pd  # 存入excel数据

定义一个百度热搜榜接口地址：

# 百度热搜榜地址
url = 'https://top.baidu.com/api/board?platform=wise&tab=realtime'

构造一个请求头，伪装爬虫：

# 构造请求头
header = {
	'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Mobile Safari/537.36',
	'Host': 'top.baidu.com',
	'Accept': 'application/json, text/plain, */*',
	'Accept-Language': 'zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7',
	'Accept-Encoding': 'gzip, deflate, br',
	'Referer': 'https://top.baidu.com/board?tab=novel',
}

向百度页面发送requests请求：

# 发送请求
r = requests.get(url, header)

返回的数据是json格式的，直接用r.json()接收：

# 用json格式接收请求数据
json_data = r.json()

这里，需要注意的是，页面上有2种热搜：

百度热搜榜最上面一条是置顶热搜，下面从1到30是普通热搜，接口返回的数据也是区分开的：

所以，爬虫代码需要分开处理逻辑：

置顶热搜：

# 爬取置顶热搜
top_content_list = json_data['data']['cards'][0]['topContent']

普通热搜：

# 爬取普通热搜
content_list = json_data['data']['cards'][0]['content']

然后再分别进行json解析，对应的字段（标题、排名、热搜指数、描述、链接地址）。
最后，保存结果数据到excel即可。

df = pd.DataFrame(  # 拼装爬取到的数据为DataFrame
	{
		'热搜标题': title_list,
		'热搜排名': order_list,
		'热搜指数': score_list,
		'描述': desc_list,
		'链接地址': url_list
	}
)
df.to_excel('百度热搜榜.xlsx', index=False)  # 保存结果数据

最后，查看一下爬取到的数据：

一共31条数据（1条置顶热搜+30条普通热搜）。
每条数据包含：热搜标题、热搜排名、热搜指数、描述、链接地址。

三、同步视频讲解

讲解视频：https://www.zhihu.com/zvideo/1490668062617161728

四、完整源码

get完整源码：【爬虫案例】用Python爬取百度热搜榜数据！

我是@马哥python说，持续分享python源码干货中！

【python爬虫案例】用python爬豆瓣音乐TOP250排行榜！

[toc] # 一、爬虫对象-豆瓣音乐TOP250 今天我们分享一期python爬虫案例讲解。爬取对象是，豆瓣音乐TOP250排行榜数据：https://music.douban.com/top250 ![豆瓣音乐TOP250页面](https://img2023.cnblogs.com/blog ...阅读全文

【python爬虫案例】用python爬豆瓣读书TOP250排行榜！

[toc] # 一、爬虫对象-豆瓣读书TOP250 今天我们分享一期python爬虫案例讲解。爬取对象是，豆瓣读书TOP250排行榜数据： https://book.douban.com/top250 ![豆瓣网页](https://img2023.cnblogs.com/blog/2864563 ...阅读全文

【爬虫案例】用Python爬大麦网任意城市的近期演出活动！

[toc] # 一、爬取目标大家好，我是[@马哥python说](https://www.zhihu.com/people/13273183132) ，一枚10年程序猿。今天分享一期python爬虫案例，爬取目标是大麦网近期演出活动：[- 大麦搜索](https://search.damai.c ...阅读全文

Maven项目中使用Mybatis框架

一 .准备一个空的Maven项目。二. 配置pom文件，引入相关依赖。   <dependency> <groupId>org.mybatis</groupId> <artifactId>mybatis</artifa ...阅读全文

tomcat安装solr-8.11.2

# tomcat安装solr-8.11.2 [下载solr](https://solr.apache.org/downloads.html) ```shell # 解压 tar -xzf solr-8.11.2.tgz # 制作war包 cd solr-8.11.2/server/solr-weba ...阅读全文

Spring 中 Bean 的配置细节

大家好，我是 god23bin，今天继续说 Spring 的内容，关于 Spring 中 Bean 的配置的，通过上一篇文章的学习，我们知道了 Spring 中的依赖注入，其中有两种主要的方式，分别是基于构造方法的 DI 和基于 Setter 的 DI。 ...阅读全文

python笔记：第四章使用字典

## 1.1 概述 > 说白了就是键值对的映射关系 > > 不会丢失数据本身关联的结构，但不关注数据的顺序 > > 是一种可变类型 ```py 格式：dic = {键:值, 键:值} ``` * 键的类型：字典的键可以是任何不可变的类型，如浮点数，字符串，元组 ## 1.2 函数dict 可以从其他 ...阅读全文

C++ 惯用法之 Copy-Swap 拷贝交换

# C++ 惯用法之 Copy-Swap 拷贝交换 > 这是“C++ 惯用法”合集的第 3 篇，前面 2 篇分别介绍了 RAII 和 PIMPL 两种惯用法： > > - [RAII: Resouce Acquistion Is Initialization](https://www.cnblogs ...阅读全文

java wordcount

import com.google.common.base.Splitter; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.j ...阅读全文

[渗透测试]—2.1 常见的安全术语和概念

在讲解渗透测试之前，我们需要了解一些基本的安全术语和概念。这将帮助你更好地理解渗透测试的目标和方法。在本节中，我们将介绍以下概念： 1. 信息安全 2. 安全漏洞 3. 攻击 4. 威胁 5. 风险 6. 脆弱性 7. 攻击载荷 8. 攻击向量 9. 威胁模型 10. 防御机制 ### 1. 信息安 ...阅读全文