【pandas小技巧】--缺失值的列

2023-08-07 09:37 由 wang_yb 发表于 #后端开发

在实际应用中，数据集中经常会存在缺失值，也就是某些数据项的值并未填充或者填充不完整。
缺失值的存在可能会对后续的数据分析和建模产生影响，因此需要进行处理。

pandas提供了多种方法来处理缺失值，例如删除缺失值、填充缺失值等。
删除缺失值可能会导致数据量减少，填充缺失值则能够尽量保留原始数据集的完整性，从而提高数据分析和建模的准确性和可靠性。

当数据集中存在缺失值时，我们通常需要进行以下操作：

检查缺失值的数量和分布情况，了解缺失值对数据的影响程度。
根据数据的类型和业务需求，选择合适的缺失值处理方法，并对缺失值进行处理。
在处理缺失值的同时，要注意保持数据集的一致性和完整性。
处理完缺失值后，可以进行后续的数据分析和建模，从而得出更准确和可靠的结论。

1. 缺失值统计

首先我们随机创建一个包含缺失值的测试数据集，这里用到之前介绍过的创建测试数据的技巧。

import pandas as pd

def get_random_missing_data():
    df = pd.util.testing.makeMissingDataframe()
    return df[df.isna().any(axis=1)]

df = get_random_missing_data()
df

这里我封装了一个简单的函数get_random_missing_data，通过这个函数，可以创建一个每行至少有一个缺失值的数据集。
注意：这是随机创建的数据集，所以每次运行的结果会不一样。

统计缺失值很简单，首先通过isna函数找出所有缺失的值，然后可以使用sum或者mean来统计缺失的数量和比例。

df.isna().sum()

sum函数返回的是每一列缺失值的数量。

df.isna().mean()

mean函数返回的值可以看做每一列缺失值占的比例。

2. 删除缺失值

处理缺失值时，有些场景为了保证数据的完整性，只能删掉有缺失的数据。
删除缺失值有2个重要的参数：how 和 axis。

how有2个可选值：

any：这是默认值，表示行数据或者列数据中有一个缺失值，就删除此行或此列
all：表示行数据或者列数据中所有值都缺失时，才删除此行或此列

axis也有2个可选值：

0 或 index：按行判断是否有缺失值
1 或 columns：按列判断是否有缺失值

how="any"，axis=0的情况：每行数据中只要有一个缺失值就删除该行。

df = pd.DataFrame(
    {
        "A": [1, 2, 3, np.nan],
        "B": [1, np.nan, 3, 4],
        "C": [1, 2, np.nan, 4],
        "D": [1, 2, 3, 4],
    }
)

df.dropna(how="any", axis=0)

how="all"，axis=0的情况：每行数据中，全部值都缺失的行才删除。

df = pd.DataFrame(
    {
        "A": [1, np.nan, 3, np.nan],
        "B": [1, np.nan, 3, 4],
        "C": [1, np.nan, np.nan, 4],
        "D": [1, np.nan, 3, 4],
    }
)

df.dropna(how="all", axis=0)

how="any"，axis=1的情况：每列数据中只要有一个缺失值就删除该列。

df = pd.DataFrame(
    {
        "A": [1, 2, 3, np.nan],
        "B": [1, np.nan, 3, 4],
        "C": [1, 2, np.nan, 4],
        "D": [1, 2, 3, 4],
    }
)

df.dropna(how="any", axis=1)

how="all"，axis=1的情况：每列数据中,全部值都缺失的列才删除。

df = pd.DataFrame(
    {
        "A": [np.nan, np.nan, np.nan, np.nan],
        "B": [1, np.nan, 3, 4],
        "C": [1, 2, np.nan, 4],
        "D": [1, np.nan, 3, 4],
    }
)

df.dropna(how="all", axis=1)

3. 填充缺失值

填充缺失值一般使用fillna函数指定填充什么样的值。
比如：

df = pd.DataFrame(
    {
        "A": [1, 2, 3, np.nan],
        "B": [1, np.nan, 3, 4],
        "C": [1, 2, np.nan, 4],
        "D": [1, 2, 3, 4],
    }
)

df.fillna(-1)

这里是用 -1 来填充的，根据实际情况可以使用任意合适的值来填充。

除了 fillna 函数之外，还有一个interpolate函数，能够更加合理的填充缺失值。

df = pd.DataFrame(
    {
        "A": [1, 3, 4, np.nan],
        "B": [2, np.nan, 2, 4],
        "C": [3, 3, np.nan, 3],
        "D": [4, 1, np.nan, 4],
    }
)

df.interpolate()

每个缺失值都是它上下两行的值的平均值。

如果只有上面行的值，那就直接用上面行的值。
这里有个注意的地方：如果是第一行有缺失的话，那么是无法填充的。
比如：

df = pd.DataFrame(
    {
        "A": [np.nan, 3, np.nan, np.nan],
        "B": [2, np.nan, 2, 4],
        "C": [3, 3, np.nan, 3],
        "D": [4, 1, np.nan, 4],
    }
)

df.interpolate()

第一行的缺失值没有上一行可以参照，还是维持原来缺失的状态。
所以使用 interpolate 进行填充时，注意第一行的缺失值状态，可以用 fillna 先处理第一行。

热门相关：我的治愈系游戏异世修真邪君不科学御兽后福买妻种田：山野夫君，强势宠！

【pandas小技巧】--拆分列

拆分列是`pandas`中常用的一种数据操作，它可以将一个包含多个值的列按照指定的规则拆分成多个新列，方便进行后续的分析和处理。拆分列的使用场景比较广泛，以下是一些常见的应用场景： 1. 处理日期数据：在日期数据中，经常会将年、月、日等信息合并成一列，通过拆分列可以将其拆分成多个新列，方便进行时间序 ...阅读全文

【pandas小技巧】--反转行列顺序

反转`pandas` `DataFrame`的行列顺序是一种非常实用的操作。在实际应用中，当我们需要对数据进行排列或者排序时，通常会使用到Pandas的行列反转功能。这个过程可以帮助我们更好地理解数据集，发现其中的规律和趋势。同时，行列反转还可以帮助我们将数据可视化，使得图表更加易于理解。除了常规 ...阅读全文

【pandas小技巧】--修改列的名称

重命名 `pandas` 数据中列的名称是一种常见的数据预处理任务。这通常是因为原始数据中的列名称可能不够清晰或准确。例如，列名可能包含空格、大写字母、特殊字符或拼写错误。使用 `pandas` 的 `rename`函数可以帮助我们更改列名，从而使数据更加清晰和易于理解。此外，重命名列名还可以确保 ...阅读全文

【pandas小技巧】--按类型选择列

本篇介绍的是`pandas`选择列数据的一个小技巧。之前已经介绍了很多选择列数据的方式，比如`loc`，`iloc`函数，按列名称选择，按条件选择等等。这次介绍的是按照列的**数据类型**来选择列，按类型选择列可以帮助你快速选择正确的数据类型，提高数据分析的效率。 # 1. 类型种类 `panda ...阅读全文

【pandas小技巧】--随机挑选子集

在 `pandas` 中，如果遇到数据量特别大的情况，随机挑选 DataFrame 的子集可以帮助我们更深入地了解数据，从而更好地进行数据分析和决策。随机挑选子集的用途主要有： 1. 评估数据质量：随机挑选 DataFrame 的子集可以帮助我们检查数据集的质量，以便进一步探索和挖掘数据。例如，我 ...阅读全文

【pandas小技巧】--读取多个文件

日常分析数据时，只有单一数据文件的情况其实很少见，更多的情况是，我们从同一个数据来源定期或不定期的采集了很多数据文件；或者从不同的数据源采集多种不同格式的数据文件。在这样的情况下，分析数据之前，需要将不同的数据集合并起来。合并数据一般有两个维度，一是同构的数据集合并后行数增加；一是异构的数据集合并 ...阅读全文

【pandas小技巧】--创建测试数据

学习`pandas`的过程中，为了尝试`pandas`提供的各类功能强大的函数，常常需要花费很多时间去创造测试数据。在`pandas`中，快速创建测试数据可以更快的评估 `pandas` 函数。通过生成一组测试数据，可以评估例如 `read_csv`、`read_excel`、`groupby`等 ...阅读全文

Sprint Boot学习路线6

## 测试 Spring提供了一组测试工具，可以轻松地测试Spring应用程序的各个组件，包括控制器、服务、存储库和其他组件。它具有丰富的测试注释、实用程序类和其他功能，以帮助进行单元测试、集成测试等。 ### JPA测试 Spring JPA（Java Persistence API）是一个库，它 ...阅读全文

状态机的介绍和使用

状态机是有限状态自动机的简称，是现实事物运行规则抽象而成的一个数学模型。状态机，也就是 State Machine ，不是指一台实际机器，而是指一个数学模型。说白了，一般就是指一张状态转换图。 ...阅读全文