【pandas小技巧】--创建测试数据

2023-07-14 09:04 由 wang_yb 发表于 #后端开发

学习pandas的过程中，为了尝试pandas提供的各类功能强大的函数，常常需要花费很多时间去创造测试数据。

在pandas中，快速创建测试数据可以更快的评估 pandas 函数。
通过生成一组测试数据，可以评估例如 read_csv、read_excel、groupby等函数，以确保这些函数在处理不同数据格式和结构时都能正常工作。

本篇介绍一些快速创建测试数据的方法，提高学习pandas的效率。

1. 一般方法

一般创建测试数据的有两种：

一种是直接创建每行每列的数据
用 numpy 随机生成二维数组

1.1. 直接创建数据

这种方式之前的视频中已经多次使用，直接创建数据虽然麻烦，但好处是每个数据都可控，不论是数据类型还是值都高度可控。

import pandas as pd

df = pd.DataFrame(
    {
        "数学": [100, 88, 94, 76, 84],
        "语文": [98, 80, 86, 76, 90],
        "英语": [95, 91, 86, 95, 83],
    },
    index=["小红", "小明", "小汪", "小李", "小张"],
)
df

1.2. 随机二维数组

随机生成二维数组需要用到numpy库，通过 numpy生成随机二维数据，然后将其转换为pandas的DataFrame。

比如，下面生成一个3行4列的随机数据：

pd.DataFrame(np.random.rand(3, 4))

上面的数据是随机的，每次运行产生的结果会不一样。

随机创建数据时，也可以设置索引和列名。

pd.DataFrame(
    np.random.rand(3, 4),
    index=["row1", "row2", "row3"],
    columns=["col1", "col2", "col3", "col4"],
)

2. 特殊技巧

上面介绍随机生成数据的方法只能生成浮点型数据，而且索引和列名都只能是默认的自增数字，数据的多样性不够。

下面介绍pandas自身提供的一些随机生成数据方法，可以生成不同类型的随机数据。

2.1. makeDataFrame

makeDataFrame() 方法会随机创建一个 30x4 的数据集。

df = pd.util.testing.makeDataFrame()
print(df.shape)
df.head()

索引是随机字符串。

2.2. makeMissingDataFrame

makeMissingDataFrame() 方法会随机创建一个 30x4 包含缺失值的数据集，缺失值的位置也是随机的。

df = pd.util.testing.makeMissingDataframe()
print(df.shape)
df.head()

2.3. makeTimeDataFrame

makeTimeDataFrame() 方法会随机创建一个 30x4 包含的数据集，索引是自增的日期。

df = pd.util.testing.makeTimeDataFrame()
print(df.shape)
df.head()

2.4. makeMixedDataFrame

makeMixedDataFrame()方法会随机创建一个 5x4的数据集，其中列的类型是多样的，有字符串，日期和数值。

df = pd.util.testing.makeMixedDataFrame()
print(df.shape)
df

3. 补充

上面介绍的方法生成的数据集不大，如果需要生成数据量较大的数据集的话，可以循环生成DataFrame，然后再拼接在一起。
上面介绍的方法，每次生成的数据集的值是随机的，不用担心拼接后全是重复的数据。

此外，除了上面介绍的方法之外，pd.util.testing 还有其他一些创建数据的方法，欢迎大家去探索，使用。

热门相关：有个人爱你很久富贵不能吟富贵不能吟戏精老公今天作死没锦庭娇

sleep 和 wait 的区别？

一. 介绍 sleep() : 是Thread类方法，用于使当前线程暂停执行一段时间。它可以被使用在多线程编程中，用于控制线程的执行速度或者创建时间延迟。参数： long millis ：参数表示线程休眠的毫秒数。例如，如果调用Thread.sleep(1000)，则当前线程会休眠 1000 ...阅读全文

[渗透测试]—3.3 漏洞评估和报告编写

在渗透测试过程中，漏洞评估和报告编写是非常重要的环节。漏洞评估可以帮助你确定哪些漏洞更加关键，需要优先修复。而报告则是向客户或公司领导展示渗透测试结果的关键文档。本节将介绍漏洞评估和报告编写的基本概念、方法和要点。 ### 1. 漏洞评估漏洞评估是对已发现的安全漏洞进行分析和评估的过程，目的是确定 ...阅读全文

【微服务学习1--组件】服务注册中心--Eureka

一、简介： Eureka是由Netflix公司开源的一款提供服务注册和发现的产品。因此，在添加依赖时，会有NetFlix。该组件管理各种的服务功能：注册、发现、熔断、负载、降级等。 Eureka采用的是基于C/S的设计架构。 Eureka由两部分组成（Server/Client）：Eureka服 ...阅读全文

vue和servlet 前后端分离（复习）

# 一、vue复习 ## 1.vue的使用步骤: （1）导入vue.js （2）创建除body以外最大的div标签，给定id值（3）创建vue对象 ```bash new Vue({ el:"#app", data:{}//定义变量 methods:{} //定义方法 ``` ## 2.vue语法 ...阅读全文

【爬虫案例】用Python爬取百度热搜榜数据！

# 一、爬取目标您好，我是[@马哥python说](https://www.zhihu.com/people/13273183132)，一名10年程序猿。本次爬取的目标是：[百度热搜榜](https://top.baidu.com/board?tab=realtime) ![百度热搜榜页面](h ...阅读全文

Java 中的值传递和引用传递 ?

一. 介绍值传递：值传递（Pass-by-Value）当我们向方法传递参数时，实际上是将该参数的值进行拷贝，并将拷贝后的值传递给方法内部。在方法内部对参数进行修改不会影响原始变量的值。引用传递：引用传递（Pass by reference）是指方法调用时实参（即传入方法的参数）是一个对象的引用， ...阅读全文

go generate命令简介

最近在研究[kratos](https://github.com/go-kratos/kratos)的使用，发现在`kratos run`之前会先运行`go generate ./...`命令。这个命令之前没怎么用过，所以决定学习下该命令的用法。 `go generate`是Go语言中的一个命令， ...阅读全文

为什么使用ioutil.ReadAll 函数需要注意

# 1. 引言当我们需要将数据一次性加载到内存中，`ioutil.ReadAll` 函数是一个方便的选择，但是`ioutil.ReadAll` 的使用是需要注意的。在这篇文章中，我们将首先对`ioutil.ReadAll`函数进行基本介绍，之后会介绍其存在的问题，以及引起该问题的原因，最后给出了 ...阅读全文

校招Java后端不知道做什么项目放到简历上？电商支付实战项目与相关面试题万字总结一条龙服务

电商支付实战项目与相关面试题总结接下来我将用一篇万字长文，总结好这个项目以达到可以正面硬钢面试官的水平，如果作为一个毫无头绪的大学生的你，简历中需要一个还算拿得出手的项目，那么在2023年的今天，足矣作为一个还算OK的项目写进你的简历。当然，这只能算简历中的第一个项目，你还需要一个更好一些的项目作 ...阅读全文

使用 Sa-Token 实现不同的登录模式：单地登录、多地登录、同端互斥登录

### 一、需求分析如果你经常使用腾讯QQ，就会发现它的登录有如下特点：它可以手机电脑同时在线，但是不能在两个手机上同时登录一个账号。同端互斥登录，指的就是：像腾讯QQ一样，在同一类型设备上只允许单地点登录，在不同类型设备上允许同时在线。动态演示图： ![同端互斥登录](https://oss ...阅读全文