【pandas小技巧】--读取多个文件

2023-07-19 21:57 由 wang_yb 发表于 #后端开发

日常分析数据时，只有单一数据文件的情况其实很少见，更多的情况是，
我们从同一个数据来源定期或不定期的采集了很多数据文件；或者从不同的数据源采集多种不同格式的数据文件。

在这样的情况下，分析数据之前，需要将不同的数据集合并起来。
合并数据一般有两个维度，一是同构的数据集合并后行数增加；一是异构的数据集合并后列数增加。

1. 同构数据集

比如我们采集了3个不同年份的人口统计文件，分别为：

import pandas as pd

fp1 = "population1.csv"
df = pd.read_csv(fp1)
df

import pandas as pd

fp2 = "population2.csv"
df = pd.read_csv(fp2)
df

import pandas as pd

fp3 = "population3.csv"
df = pd.read_csv(fp3)
df

合并所有的数据集可以用 pd.concat 方法，不过一个一个文件读取之后再合并比较麻烦。
如果文件名称有规律的话（一般定期采集的数据集文件，文件名都有一定的规律），可以通过 glob 库（支持通配符匹配）来匹配所有数据文件。
然后利用python代码的灵活性一次合并所有的数据。

from glob import glob

files = sorted(glob("./population[1-3].csv"))
df = pd.concat((pd.read_csv(f) for f in files))
df

这样合并之后，发现索引是有重复的，如果要保持索引的唯一性，可以在合并时指定 ignore_index=True。

df = pd.concat((pd.read_csv(f) for f in files), ignore_index=True)
df

2. 异构数据集

异构的数据集指数据结构不一样的数据，一般来自于不同的数据源。
比如：

import pandas as pd

fp1 = "population-total.csv"
df = pd.read_csv(fp1)
df

import pandas as pd

fp2 = "population-man.csv"
df = pd.read_csv(fp2)
df

import pandas as pd

fp3 = "population-woman.csv"
df = pd.read_csv(fp3)
df

合并的方式和前面按行合并类似，区别在于指定 axis=1。

from glob import glob

files = sorted(glob("./population-*.csv"))
df = pd.concat((pd.read_csv(f) for f in files), axis=1)
df

合并之后发现有重复的列，对于重复的行，可以简单的通过 drop_duplicates()方法来去重，
去除重复的列则需要一些技巧。

df = df.loc[:, ~df.columns.duplicated()]
df

这样就去除了重复的列，完成了异构数据集的合并。

3. 附录

本篇使用的示例数据可以通过下面的url下载：

population1.csv：http://databook.top:8888/pandas-tricks/population1.csv
population2.csv：http://databook.top:8888/pandas-tricks/population2.csv
population3.csv：http://databook.top:8888/pandas-tricks/population3.csv
population-total.csv：http://databook.top:8888/pandas-tricks/population-total.csv
population-man.csv：http://databook.top:8888/pandas-tricks/population-man.csv
population-woman.csv：http://databook.top:8888/pandas-tricks/population-woman.csv

热门相关：冉冉心动上神来了万古至尊金粉神算大小姐

【pandas小技巧】--创建测试数据

学习`pandas`的过程中，为了尝试`pandas`提供的各类功能强大的函数，常常需要花费很多时间去创造测试数据。在`pandas`中，快速创建测试数据可以更快的评估 `pandas` 函数。通过生成一组测试数据，可以评估例如 `read_csv`、`read_excel`、`groupby`等 ...阅读全文

【技术积累】Java中的常用类【一】

博客推行版本更新，成果积累制度，已经写过的博客还会再次更新，不断地琢磨，高质量高数量都是要追求的，工匠精神是学习必不可少的精神。因此，大家有何建议欢迎在评论区踊跃发言，你们的支持是我最大的动力，你们敢投，我就敢肝 ...阅读全文

从TL、ITL到TT

ThreadLocal（TL）、InheritableThreadLocal（ITL）和TransmittableThreadLocal（TTL）在不同场景下有不同用途，本文我们来分析一下 ...阅读全文

用了这款 IDEA 神器，领导都夸我代码写得好！

CheckStyle作为检验代码规范的插件，除了可以使用配置默认给定的开发规范，如Sun的，Google的开发规范啊，也可以导入像阿里的开发规范的插件。事实上，每一个公司都存在不同的开发规范要求，所以大部分公司会给定自己的check规范，一般导入给定的 checkstyle.xml 文件即可实现。 ...阅读全文

keycloak~AbstractJsonUserAttributeMapper的作用

# AbstractJsonUserAttributeMapper 它是一个抽象类，用来更新条件更新用户属性(user_attribute)的信息，我们在实现自己的mapper时，需要关注3个方法，下面分别介绍一下： ## getCompatibleProviders方法它用来直指你的mapper ...阅读全文

常用语言的线程模型（Java、go、C++、python3）

了解一下线程模型还是很有必要的，如果不清楚语言层面上的线程在操作系统层面怎么映射使用，在使用过程中就会不清不楚，可能会踩一些坑 ...阅读全文

Java扩展Nginx之七：共享内存

### 欢迎访问我的GitHub > 这里分类和汇总了欣宸的全部原创(含配套源码)：[https://github.com/zq2599/blog_demos](https://github.com/zq2599/blog_demos) ### 本篇概览 - 作为《Java扩展Nginx》系列的第七 ...阅读全文

Sping JdbcTemplate

# Sping JdbcTemplate ## JdbcTemplate概述 JdbcTemplate 是 Spring JDBC 核心包（core）中的核心类，它可以通过配置文件、注解、Java 配置类等形式获取数据库的相关信息，实现了对 JDBC 开发过程中的驱动加载、连接的开启和关闭、SQL ...阅读全文

数据分析之jupyter notebook工具

一、jupyter notebook介绍 1、简介 Jupyter Notebook是基于网页的用于交互计算的应用程序。其可被应用于全过程计算：开发、文档编写、运行代码和展示结果。——Jupyter Notebook官方介绍简而言之，Jupyter Notebook是以网页的形式打开，可以在网页页 ...阅读全文

从头学Java17-今天的Kotlin更香吗

> 出于各种限制，很多公司依然停留在Java8，部分小伙伴转向了Kotlin。Kotlin作为静态编译语言，提供大量语法糖，而且编译后的字节码跟Java一致。 > > 当时，Java8于2014年发布，Kotlin于2016年，很多宣称的语法糖都是对比的Java8。不禁要问，相对今天的Java17， ...阅读全文