pandas 缺失值、异常值提取和处理

2024-02-17 22:48 由夫琅禾费米线发表于 #后端开发

for columname in df.columns: #遍历每一列 
    if df[columname].count()  != len(df): #判断缺失行条件：所在列的值数等于总数据的长度
        #将存在缺失值的行的索引转换成列表储存
        loc = df[columname][df[columname].isnull().values == True].index.tolist()
        print('列名："{}",第{}行位置有缺失值'.format(columname, loc))

遍历每列 -> 列长是否小于总长 ->缺失值所在行： df['列名'][df['列名‘].isnull().values==True ]

1. 缺失值处理

dropna()删除缺失值

df.dropna(axis=0) # 删除包含缺失值的行
df.dropna(axis=1) # 删除包含缺失值的列

使用 fillna() 方法填充缺失值，可以使用指定的值、前一个有效值、后一个有效值或者均值、中位数等。

df.fillna(value=0)  # 用指定值填充缺失值
df.fillna(method='ffill')  # 使用前一个有效值填充缺失值
df.fillna(method='bfill')  # 使用后一个有效值填充缺失值
df.fillna(df.mean())  # 使用均值填充缺失值
df.fillna((df.shift()+df.shift(-1))/2) #用前后数值的平均值填充
# 使用前一个数据和后一个数据的平均值填充缺失值，边界情况下使用同侧的值
df = df.fillna((df.shift().fillna(method='bfill') + df.shift(-1).fillna(method='ffill')) / 2)

最后一行的边界情况指的是第一行、最后一行等情况

2. 不合规数据

df[df['ColumnName']=='不合规数据']

df[df['ColumnName'].str.contains(' ')]

包含’--‘为不合规数据提取：

# 方法一：isin()
df[df['column'].isin(['--'])]

# 方法二：contains()
df[df["column"].str.contains("--")]

数据类型不为str提取：

temp = pd.DataFrame()
for i in range(len(df)):
    if type(df['ColumnName'][i]) != str: #df['xxx'][i]或写成df.iloc[i,j]
        temp = temp.append(df.loc[i])

不合规数据的处理：讲数据替换成nan，再用缺失值处理的方法

# 将不符合规范的值替换为 NaN
df = df.replace(['--', '111'], np.nan)

# 使用前一个数据和后一个数据的平均值填充缺失值，边界情况下使用同侧的值
df = df.fillna((df.shift().fillna(method='bfill') + df.shift(-1).fillna(method='ffill')) / 2)

热门相关：我和超级大佬隐婚了王妃不乖：独宠倾城妃第一强者惊艳人生艳遇传说

精通C语言：打造高效便捷的通讯录管理系统

✨✨ 欢迎大家来到贝蒂大讲堂✨✨ 养成好习惯，先赞后看哦~ 所属专栏：C语言项目贝蒂的主页：Betty‘s blog 引言：在我们大致学习完C语言之后，我们就可以利用目前所学的知识去做一些有意思的项目，而今天贝蒂就带大家完成一个通讯录的简易实现，本章你可能需要的知识：动态内存 ...阅读全文

Spring Boot + MyBatis-Plus 实现 MySQL 主从复制动态数据源切换

MySQL 主从复制是一种常见的数据库架构，它可以提高数据库的性能和可用性。动态数据源切换则可以根据业务需求，在不同场景下使用不同的数据源，比如在读多写少的场景下，可以通过切换到从库来分担主库的压力。在本文中，我们将介绍如何在 Spring Boot 中实现 MySQL 动态数据源切换，使用 My ...阅读全文

100 行代码实现用户登录注册与 RESTful 接口 - 手把手教程附 Python 源码

在开发大多数应用时，用户系统都是必不可少的部分，而我们总是需要开发围绕用户的登录，注册，获取，更新等接口。这篇文章将带你用一百多行代码简洁地实现一套这样的用户鉴权与 RESTful 接口 ...阅读全文

Python教程(26)——Python迭代器和生成器详解

迭代器 Python中的迭代器是一种对象，它可以迭代（遍历）一个可迭代对象（比如列表、元组或字符串）的元素。迭代器用于实现迭代器协议，即包含 __iter__() 方法和 __next__() 方法。迭代器的工作原理是每次调用 __next__() 方法时返回可迭代对象的下一个元素，当没有元素可迭 ...阅读全文

Skywalking Docker单机环境搭建

本次搭建是基于MySQL进行持久化，因此需要提前准备好一个MySQL容器 (MySQL容器部署略过)。 OAP服务搭建拉取skywalking-oap镜像 docker pull apache/skywalking-oap-server:8.9.0 接下来可以进行一个简单的启动，目的是拷贝出con ...阅读全文

Skywalking-Aop Docker单机环境搭建

本次搭建是基于MySQL进行持久化，因此需要提前准备好一个MySQL容器 (MySQL容器部署略过)。如有错误还请指正。 OAP服务搭建拉取skywalking-oap镜像 docker pull apache/skywalking-oap-server:8.9.0 接下来可以进行一个简单的启动， ...阅读全文

Python-彩色正方形

最终成果代码 import turtle as t # 设置画笔的大小 t.pensize(20) # 隐藏方向箭头 t.hideturtle() # 第1条边 t.pencolor('red') t.forward(100) # 第二条边 t.pencolor('green') t.right(9 ...阅读全文

并发编程防御装-锁（基础版）

并发编程防御装-锁（基础版）大家好，我是小高先生。在Java并发编程的世界中，锁的地位至关重要。它就像是一道坚固的防线，确保了并发编程运行结果的正确性。你可以不准备攻击装备，但是锁这个防御装备是必不可少的。相信大家在之前都对锁或多或少有些了解，本文将带领大家学习锁的基础知识。乐观锁和悲观锁 sy ...阅读全文

IDEA 2024.1：Spring支持增强、GitHub Action支持增强、更新HTTP Client等

有段时间没有更新IDEA了，早上看到 IntelliJ IDEA 2024.1 EAP 5发布的邮件提示，瞄了一眼，发现真的是越来越强了，其中不少功能对我来说还是非常有用的。也许这些能力对关注DD的小伙伴也有帮助，所以搞篇博客介绍和推荐一下。 Spring、Quarkus等主流框架的支持增强 Sea ...阅读全文

JDK下载介绍及其选择

1.JDK简介基本情况 JDK 是 Java 语言的软件开发工具包。JDK 是整个 Java 开发的核心，它包括 Java 运行环境、Java 基础类库和 Java 工具。版本情况按照维护情况分为 non-LTS（短期）和 LTS（长期）两种；对于短期支持版本(non-LTS)而言，Ora ...阅读全文