【pandas小技巧】--修改列的名称

2023-07-31 15:54 由 wang_yb 发表于 #后端开发

重命名 pandas 数据中列的名称是一种常见的数据预处理任务。
这通常是因为原始数据中的列名称可能不够清晰或准确。例如，列名可能包含空格、大写字母、特殊字符或拼写错误。

使用 pandas 的 rename函数可以帮助我们更改列名，从而使数据更加清晰和易于理解。
此外，重命名列名还可以确保您的代码在维护和共享时更加易于交流和重用。

1. 列名中的特殊字符

比如如下测试数据：

import pandas as pd

df = pd.DataFrame(
    {
        "col name": ["name1", "name2", "name3"],
        "#num@$": [1, 1, 2],
        "坐标A": [1.2, 1.3, 2.3],
        "坐标B": [2.3, 3.3, 5.7],
    },
)
df

1.1. rename函数

使用rename函数消除列名中的空格和特殊符号：

df.rename({"col name": "col_name", "#num@$": "num"}, axis=1)

需要修改的列名不多时，用这种方式比较直观。

1.2. columns属性

使用columns修改列名时，需要设置所有的列名，哪怕不需要修改的列名也要列出来。

df.columns = ["col_name", "num", "坐标A", "坐标B"]
df

当需要修改的列名比较多，或者所有列名都需要修改时，用这种方式。

1.3. replace方法

df.columns = df.columns.str.replace(" ", "_")
df.columns = df.columns.str.replace("[#@$]", "", regex=True)
df

这种方式还支持通过正则表达式的方式替换，适合复杂替换的场景。
使用正则替换时，设置参数：regex=True

2. 列名的前缀

当遇到来自不同系统的同类数据时，合并之后会发现很多同样的列名，难以区分。
比如：

df1 = pd.DataFrame(
    {
        "坐标X": [1.2, 1.3, 2.3],
        "坐标Y": [2.3, 3.3, 5.7],
    },
)
df2 = pd.DataFrame(
    {
        "坐标X": [2.2, 3.3, 7.3],
        "坐标Y": [1.3, 4.3, 3.7],
    },
)

df = pd.concat([df1, df2], axis=1)
df

这时，我们可以在合并前给不同数据来源的数据的列名上加一个前缀（add_prefix）。

df1 = df1.add_prefix("A_")
df2 = df2.add_prefix("B_")

df = pd.concat([df1, df2], axis=1)
df

3. 列名的后缀

除了添加前缀，也可以用添加后缀的方式（add_suffix）来区分不同数据源的数据。

df1 = df1.add_suffix("_A")
df2 = df2.add_suffix("_B")

df = pd.concat([df1, df2], axis=1)
df

热门相关：流鱼无恙交换：两个女人神算大小姐锦庭娇富贵不能吟

【pandas小技巧】--按类型选择列

本篇介绍的是`pandas`选择列数据的一个小技巧。之前已经介绍了很多选择列数据的方式，比如`loc`，`iloc`函数，按列名称选择，按条件选择等等。这次介绍的是按照列的**数据类型**来选择列，按类型选择列可以帮助你快速选择正确的数据类型，提高数据分析的效率。 # 1. 类型种类 `panda ...阅读全文

【pandas小技巧】--随机挑选子集

在 `pandas` 中，如果遇到数据量特别大的情况，随机挑选 DataFrame 的子集可以帮助我们更深入地了解数据，从而更好地进行数据分析和决策。随机挑选子集的用途主要有： 1. 评估数据质量：随机挑选 DataFrame 的子集可以帮助我们检查数据集的质量，以便进一步探索和挖掘数据。例如，我 ...阅读全文

【pandas小技巧】--读取多个文件

日常分析数据时，只有单一数据文件的情况其实很少见，更多的情况是，我们从同一个数据来源定期或不定期的采集了很多数据文件；或者从不同的数据源采集多种不同格式的数据文件。在这样的情况下，分析数据之前，需要将不同的数据集合并起来。合并数据一般有两个维度，一是同构的数据集合并后行数增加；一是异构的数据集合并 ...阅读全文

【pandas小技巧】--创建测试数据

学习`pandas`的过程中，为了尝试`pandas`提供的各类功能强大的函数，常常需要花费很多时间去创造测试数据。在`pandas`中，快速创建测试数据可以更快的评估 `pandas` 函数。通过生成一组测试数据，可以评估例如 `read_csv`、`read_excel`、`groupby`等 ...阅读全文

浏览器中的自动化操作插件：Automa

相信很多小伙伴跟我一样，每天都有大量基于浏览器的重复操作，比如：查看任务、查看新闻、查看各种每天要关注的内容，甚至可能还需要对其做一些操作。那么这些任务是否有办法自动化执行呢？今天就给大家推荐一个浏览器扩展程序：**Automa**。Automa是一个开源的浏览器扩展，它可以基于浏览器来执行一些自 ...阅读全文

EasyExcel使用

Java解析、生成Excel比较有名的框架有Apache poi、jxl。但他们都存在一个严重的问题就是非常的耗内存，poi有一套SAX模式的API可以一定程度的解决一些内存溢出的问题，但POI还是有一些缺陷，比如07版Excel解压缩以及解压后存储都是在内存中完成的，内存消耗依然很大。easyex ...阅读全文

使用Delphi编写DLL劫持内存补丁

在有些破解程序时，不能暴力修改程序，修改后，程序就不能正常运行，因为很多程序启动时有自我的校验，但是当程序加载到内存后，在内存中修改相应的地方就可以达到破解的效果。那么怎样在不破坏程序的前提下，达到修改程序呢？当一个可执行文件运行时，Windows加载器将可执行模块映射到进程的地址空间中，加载器分 ...阅读全文

Python采集主播照片，实现人脸识别, 进行颜值评分，制作颜值排行榜

昨晚一回家，表弟就神神秘秘的跟我说，发现一个高颜值网站，非要拉着我研究一下她们的颜值高低。我心想，这还得要我一个个慢慢看，太麻烦了~ 于是反手用Python给他写了一个人脸识别代码，把她们的照片全部爬下来，自动检测颜值打分排名。这不比手动快多了？准备工作开发环境 Python 3.8 Pyc ...阅读全文

【持续更新】C/C++ 踩坑记录（一）

# 未定义行为之 NULL dereference 下面这段代码中 `is_valid()` 解引用了空指针 `str`，我们的直觉是编译运行后将迎来 SIGSEGV，然而事情并非所期望的那样。 ```c /* * ub_null.c - 未定义行为演示之 NULL dereference */ ...阅读全文

Java中抽象类和接口的区别

### 一.抽象类定义上来看，被abstract关键字修饰的类称为抽象类。被abstract关键字修饰的方法称为抽象方法。当父类的某些方法，需要声明，但是又不确定如何实现时，可以将其声明为抽象方法，那么这个类就是抽象类.例： ``` [public|protected] abstract clas ...阅读全文