当我用Python爬取了京东商品所有评论后发现....

2023-06-28 21:29 由轻松学Python 发表于 #后端开发

不知道各位网购的时候，是否会去留意商品评价，有些小伙伴是很在意评价的，看到差评就不想买了，而有些小伙伴则是会对差评进行理性分析，而还有一类人不在乎这个。

当然这都是题外话，咱们今天主要的目的是使用Python来爬取某东商品的评价，并保存到CSV表格。

1、数据采集逻辑

在进行数据采集之前，明确哪些数据为所需，制定数据Schema为爬取工作做出要求，并根据数据Schema制定出有针对性的爬取方案和采集逻辑。

2、数据Schema

3、数据爬取

抓取平台任一商品的评论信息，此案例抓取的商品是某一店铺的车厘子评价信息。

评论信息是由JS动态加载的，所以直接抓取商品详情页的URL并不能获得商品评论信息。因此我们需要先找到存放商品评价信息的文件，通过使用浏览器的开发者工具进行查找。

目标URL地址：

通过发现可知，productId为当前商品的商品Id，page为页码（从0开始），爬取该商品的所有评价信息只需要改变page参数即可。（商品评价页只显示前100页，所以page最大值为99）

导入库

import random
import requests
import json
import re
import csv
import time
import pymysql

对爬虫程序进行伪装

header = {
        'refer': 'https: // item.jd.com /',
        'cookie': '',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.50'
    }

抓取商品评论信息

将python程序伪装成浏览器后，就可以对评论信息进行爬取，在前面的分析中，productId和page为重要参数，在本案例中爬取的商品为车厘子，productId已确定，只需要对page进行更改即可达到需要。通过parms提交参数，使代码更有逻辑感并方便更改两个重要参数。

防止反爬，每爬取一页数据后，设置程序休眠环节。

# 程序休眠
time.sleep(random.randint(40, 80) * 0.1)
print('第%d页正在爬取' % (page + 1))
'''
  爬取完成后，需要对页面进行编码，不影响后期的数据提取和数据清洗工作。
  使用正则对数据进行提取，返回字符串。
  字符串转换为json格式数据。
''' 
res.encoding = 'gb18030'
html = res.text
data = re.findall('fetchJSON_comment98\((.*?)\);', html)
data = json.loads(data[0])  # 将处理的数据进行解析
comments = data['comments']
print(data['comments'])

4、数据存储

存储到csv

# 写入csv文件
f = open("evalution_data.csv", "a", newline='', encoding='gb18030')
header = ["id", "content", "creationTime", "score", "productColor", "productSize"]
# 创建一个DictWriter对象，第二个参数就是上面创建的表头
writer = csv.DictWriter(f, header)
writer.writeheader()
    for i in comments:
        id = i['id']
        content = i['content']
        creationTime = i['creationTime']
        score = i['score']
        productColor = i['productColor']
        productSize = i['productSize']
        writer.writerow(
            {"id": id, "content": content, "creationTime": creationTime, "score": score, "productColor": productColor,
             "productSize": productSize})
f.close()

存储到数据库

# 写入数据库
conn = pymysql.connect(host='', user='', password='', port=, db='')
cursor = conn.cursor()
    for i in comments:
        id = i['id']
        content = i['content']
        creationTime = i['creationTime']
        score = i['score']
        productColor = i['productColor']
        productSize = i['productSize']
        sql = "insert into evalution_data(id,content,creationTime,score,productColor,productSize) values('%d','%s','%s','%d','%s','%s')"
        cursor.execute(sql)
        conn.commit()
# 我还专门录制了视频讲解，以及进行可视化分析，完整代码和视频讲解都在这个扣裙了：708525271
 
cursor.close()
conn.close()

好了，今天的分享就到这里结束了，咱们下次见！

热门相关：流鱼无恙锦乡里前任无双变身蜘蛛侠道君

Golang 简单的数据对齐可提高程序速度和内存使用率

### 序 Golang 中的结构或 struct 是用户定义的类型，允许将可能不同类型的项分组/组合为单一类型。可以说是一个不支持继承但支持组合的轻量级类。我们使用 Golang 编写代码的时候，你肯定使用过`struct`。但是，你可能不知道的是，通过简单地重新排序结构中的字段，可以极大地 ...阅读全文

一个JVM参数，服务超时率降了四分之三

先说结论：通过优化Xms，改为和Xmx一致，使系统的超时率降了四分之三 ![image.png](https://img2023.cnblogs.com/blog/2058002/202306/2058002-20230628185820689-1353266318.png) # 1. 背景一个同 ...阅读全文

Cognos教程_编程入门自学教程_菜鸟教程-免费教程分享

## 教程简介 Cognos是在BI核心平台之上，以服务为导向进行架构的一种数据模型，是唯一可以通过单一产品和在单一可靠架构上提供完整业务智能功能的解决方案。它可以提供无缝密合的报表、分析、记分卡、仪表盘等解决方案，通过提供所有的系统和资料资源，以简化公司各员工处理资讯的方法。作为一个全面、灵活的产 ...阅读全文

[渗透测试]—6.1 无线网络基础知识

在本章节中，我们将学习一些关于无线网络的基础知识，如WEP、WPA和WPA2等加密技术。我们将尽量讲解得详细、通俗易懂，并提供尽可能多的实例。 ### 6.1 无线网络基础无线局域网（WLAN）是一种基于无线电波传输的计算机网络，可以实现设备之间的通信和互联。在家庭、企业和公共场所，无线网络已经成 ...阅读全文

LRU 缓存淘汰算法

> Least Recently Used(LRU) 是缓存淘汰一种常用的策略，内存满了则优先删除最久没被使用的数据。 ## LRU 算法的需求 1. 接收一个参数 `capacity` 作为缓存的最大容量 2. 实现一个函数 `put()` 添加数据到缓存 3. 实现一个函数 `get()` 查询 ...阅读全文

JDBC p1 JDBC概述

# JDBC概述 ## 基本介绍 1. JDBC为访问不同的数据库提供了统一的接口，为使用者屏蔽了细节问题。 2. Java程序员使用JDBC，可以连接任何提供了JDBC驱动程序的数据库系统，从而完成对数据库的各种操作。 3. **JDBC的基本原理：** ![](https://img2023.c ...阅读全文

Spring 赌上未来一击，推出响应式框架 WebFlux，代码更优雅，性能更强！

### Spring-webflux简介 spring-webflux是spring在5.0版本后提供的一套响应式编程风格的web开发框架，大量测评证明，使用WebFlux开发接口能够大幅提升接口的吞吐量。这个框架包含了spring-framework和spring mvc，它可以运行在Netty ...阅读全文

Conda 命令深入指南

# Conda 命令深入指南 Conda 是一个功能强大的包管理系统，允许您为不同的项目创建和管理隔离的环境，从而更轻松地处理不同的依赖项集。 ## 安装可以按照 Conda 官方网站 (https://conda.io) 上提供的说明下载并安装 Conda。安装后，可以打开终端或命令提示符并开 ...阅读全文

在 Java、Python、JavaScript 和 Go 中拥抱异步

本文讨论了四种语言的异步，强调了它在创建高效、响应迅速的应用程序中的作用。作为一名拥有多年主要使用 Java 工作经验的软件开发人员，当我最近为一个新项目切换到 Python 时，我发现自己很感兴趣。这种转变促使我探索各种语言的异步编程世界，包括 Java、Python、JavaScript ...阅读全文

Servlet p2 Servlet的生命周期

学习课程：【这可能是B站讲的最好的Servlet教程，5小时打通Servlet全套教程丨2022最新版，轻松掌握servlet基础+案例实操】 https://www.bilibili.com/video/BV1Kr4y1V7ZE/?share_source=copy_web&vd_source= ...阅读全文