数仓开发之ODS层

2024-03-15 14:32 由公众号-JavaEdge 发表于 #后端开发

优秀可靠的数仓体系，需要良好的数据分层结构。合理的分层，能够使数据体系更加清晰，使复杂问题得以简化。以下是该项目的分层规划。

1 设计要点

（1）ODS层的表结构设计依托于从业务系统同步过来的数据结构

（2）ODS层要保存全部历史数据，故其压缩格式应选择压缩比较高的，此处选择gzip

（3）ODS层表名的命名规范为：ods_表名_单分区增量全量标识（inc/full）。

2 相关表

2.1 整车日志表（增量日志表）

CREATE EXTERNAL TABLE ods_car_data_inc
(
  `vin`                                      STRING  COMMENT '汽车唯一ID',
  `car_status`                               INT     COMMENT '车辆状态',
  `charge_status`                            INT     COMMENT '充电状态',
  `execution_mode`                           INT     COMMENT '运行模式',
  `velocity`                                 INT     COMMENT '车速',
  `mileage`                                  INT     COMMENT '里程',
  `voltage`                                  INT     COMMENT '总电压',
  `electric_current`                         INT     COMMENT '总电流',
  `soc`                                      INT     COMMENT 'SOC',
  `dc_status`                                INT     COMMENT 'DC-DC状态',
  `gear`                                     INT     COMMENT '挡位',
  `insulation_resistance`                    INT     COMMENT '绝缘电阻',
  `motor_count`                              INT     COMMENT '驱动电机个数',
  `motor_list`                              ARRAY<STRUCT<
                                               `id`: INT,
                                               `status`: INT,
                                               `rev`: INT,
                                               `torque`: INT,
                                               `controller_temperature`: INT,
                                               `temperature`: INT,
                                               `voltage`: INT,
                                               `electric_current`: INT
                                             >>      COMMENT '驱动电机列表',
  `fuel_cell_voltage`                        INT     COMMENT '燃料电池电压',
  `fuel_cell_current`                        INT     COMMENT '燃料电池电流',
  `fuel_cell_consume_rate`                   INT     COMMENT '燃料消耗率',
  `fuel_cell_temperature_probe_count`         INT     COMMENT '燃料电池温度探针总数',
  `fuel_cell_temperature`                     INT     COMMENT '燃料电池温度值',
  `fuel_cell_max_temperature`                 INT     COMMENT '氢系统中最高温度',
  `fuel_cell_max_temperature_probe_id`        INT     COMMENT '氢系统中最高温度探针号',
  `fuel_cell_max_hydrogen_consistency`        INT     COMMENT '氢气最高浓度',
  `fuel_cell_max_hydrogen_consistency_probe_id`  INT COMMENT '氢气最高浓度传感器代号',
  `fuel_cell_max_hydrogen_pressure`           INT     COMMENT '氢气最高压力',
  `fuel_cell_max_hydrogen_pressure_probe_id`   INT    COMMENT '氢气最高压力传感器代号',
  `fuel_cell_dc_status`                       INT     COMMENT '高压DC-DC状态',
  `engine_status`                             INT     COMMENT '发动机状态',
  `crankshaft_speed`                          INT     COMMENT '曲轴转速',
  `fuel_consume_rate`                         INT     COMMENT '燃料消耗率',
  `max_voltage_battery_pack_id`               INT     COMMENT '最高电压电池子系统号',
  `max_voltage_battery_id`                    INT     COMMENT '最高电压电池单体代号',
  `max_voltage`                              INT     COMMENT '电池单体电压最高值',
  `min_temperature_subsystem_id`              INT     COMMENT '最低电压电池子系统号',
  `min_voltage_battery_id`                    INT     COMMENT '最低电压电池单体代号',
  `min_voltage`                              INT     COMMENT '电池单体电压最低值',
  `max_temperature_subsystem_id`              INT     COMMENT '最高温度子系统号',
  `max_temperature_probe_id`                  INT     COMMENT '最高温度探针号',
  `max_temperature`                           INT     COMMENT '最高温度值',
  `min_voltage_battery_pack_id`               INT     COMMENT '最低温度子系统号',
  `min_temperature_probe_id`                  INT     COMMENT '最低温度探针号',
  `min_temperature`                           INT     COMMENT '最低温度值',
  `alarm_level`                              INT     COMMENT '报警级别',
  `alarm_sign`                               INT     COMMENT '通用报警标志',
  `custom_battery_alarm_count`                INT     COMMENT '可充电储能装置故障总数N1',
  `custom_battery_alarm_list`                 ARRAY<INT> COMMENT '可充电储能装置故障代码列表',
  `custom_motor_alarm_count`                  INT     COMMENT '驱动电机故障总数N2',
  `custom_motor_alarm_list`                   ARRAY<INT> COMMENT '驱动电机故障代码列表',
  `custom_engine_alarm_count`                 INT     COMMENT '发动机故障总数N3',
  `custom_engine_alarm_list`                  ARRAY<INT> COMMENT '发动机故障代码列表',
  `other_alarm_count`                         INT     COMMENT '其他故障总数N4',
  `other_alarm_list`                          ARRAY<INT> COMMENT '其他故障代码列表',
  `battery_count`                             INT     COMMENT '单体电池总数',
  `battery_pack_count`                        INT     COMMENT '单体电池包总数',
  `battery_voltages`                          ARRAY<INT> COMMENT '单体电池电压值列表',
  `battery_temperature_probe_count`            INT     COMMENT '单体电池温度探针总数',
  `battery_pack_temperature_count`             INT     COMMENT '单体电池包总数',
  `battery_temperatures`                      ARRAY<INT> COMMENT '单体电池温度值列表',
  `timestamp`                                 BIGINT  COMMENT '日志采集时间'
)
COMMENT '整车日志表'
PARTITIONED BY (`dt` STRING COMMENT '统计日期')
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.JsonSerDe'
LOCATION '/warehouse/car_data/ods/ods_car_data_inc';

2.2 汽车信息表（全量表）

drop table if exists ods_car_info_full;
CREATE EXTERNAL TABLE IF NOT EXISTS ods_car_info_full (
  `id` string COMMENT '车辆唯一编码',
  `type_id` string COMMENT '车型ID',
  `type` string COMMENT '车型',
  `sale_type` string COMMENT '销售车型',
  `trademark` string COMMENT '品牌',
  `company` string COMMENT '厂商',
  `seating_capacity` int COMMENT '准载人数',
  `power_type` string COMMENT '车辆动力类型',
  `charge_type` string COMMENT '车辆支持充电类型',
  `category` string COMMENT '车辆分类',
  `weight_kg` int COMMENT '总质量（kg）',
  `warranty` string COMMENT '整车质保期（年/万公里）'
)
COMMENT '整车信息表'
PARTITIONED BY (dt string COMMENT '统计日期')
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
LOCATION '/warehouse/car_data/ods/ods_car_info_full';

3 数据装载

#!/bin/bash

APP='car_data'

# 判断第二个参数是否填写 如果填写使用作为日期 如果没有填写 默认使用昨天作为日期
if [ -n "$2" ]; then
	# statements
	do_date=$2
else
	do_date=`date -d '-1 day' +%F`
fi

case "$1" in
  "ods_car_data_inc")
    hive -e "LOAD DATA INPATH '/origin_data/car_data_ful1/$do_date' INTO TABLE $APP.ods_car_data_inc PARTITION (dt='$do_date');"
    ;;
  "ods_car_info_full")
    hive -e "LOAD DATA INPATH '/origin_data/car_info_full/$do_date' INTO TABLE $APP.ods_car_info_full PARTITION (dt='$do_date');"
    ;;
  "all")
    hive -e "LOAD DATA INPATH '/origin_data/car_data_ful1/$do_date' INTO TABLE $APP.ods_car_data_inc PARTITION (dt='$do_date');"
    hive -e "LOAD DATA INPATH '/origin_data/car_info_full/$do_date' INTO TABLE $APP.ods_car_info_full PARTITION (dt='$do_date');"
    ;;
  *)
    echo "Usage: $0 {ods_car_data_inc|ods_car_info_full|all}"
    ;;
esac

确保在Hive加载数据之前，数据文件已经存在于对应的HDFS路径中，且表的分区字段名是正确的。在运行脚本之前，授予其执行权限，使用以下命令。然后根据你的需求执行脚本：

./your_script_name.sh ods_car_data_inc
./your_script_name.sh ods_car_info_full

./your_script_name.sh all 2024-03-11

写好脚本，以后放入 dophinschedule 调度器每天跑就行。实现将 HDFS 数据载入 ods表中。

关注我，紧跟本系列专栏文章，咱们下篇再续！

作者简介：魔都技术专家兼架构，多家大厂后端一线研发经验，各大技术社区头部专家博主。具有丰富的引领团队经验，深厚业务架构和解决方案的积累。

负责：

中央/分销预订系统性能优化

活动&优惠券等营销中台建设

交易平台及数据中台等架构和开发设计

目前主攻降低软件复杂性设计、构建高可用系统方向。

参考：

编程严选网

本文由博客一文多发平台 OpenWrite 发布！

热门相关：永远的姐妹月球三贵情史 19禁年轻的妻子来自异世界的诺诺

云计算 - 云安全探索

全面介绍云计算安全的意义、安全模型、云安全挑战、云安全最佳实践和技术解决方案，最终深入研究云安全案例，让大家对云安全有全面的理解。关注【TechLeadCloud】，分享互联网架构、云服务技术的全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验，同济本复旦硕，复旦机器人智能 ...阅读全文

pandas：如何保存数据比较好？

我们在使用pandas处理完数据之后，最终总是要把数据作为一个文件保存下来，那么，保存数据最常用的文件是什么呢？我想大部分人一定会选择csv或者excel。刚接触数据分析时，我也是这么选择的，不过，今天将介绍几种不一样的存储数据的文件格式。这些文件格式各有自己的一些优点，希望本文能让你以后的数据存 ...阅读全文

aardio教程一) 基础语法-上

前言想开发一些小工具，所以想系统性的学习一遍aardio，之前都是哪里不会搜哪里，顺便写些教程。我的主要语言是Python，所以会以Python作为对比来加深印象。 aardio的基础语法和JavaScript基本类似，如果你学过JavaScript，aardio很容易上手。下面的文档来自官方文档 ...阅读全文

JVM内存结构

我们都知道，我们写的Java程序需要先经过编译，生成了.class文件（字节码文件）。然而，计算机并不能直接解释.class文件里面的内容，这时候就需要一个能加载、解释.class文件并且能按.class文件里的内容进行处理的一个东西--JVM。 JVM，就是Java虚拟机。它是一种规范，有针对不同 ...阅读全文

netty Recycler对象池

前言池化思想在实际开发中有很多应用，指的是针对一些创建成本高，创建频繁的对象，用完不弃，将其缓存在对象池子里，下次使用时优先从池子里获取，如果获取到则可以直接使用，以此降低创建对象的开销。我们最熟悉的数据库连接池就是一种池化思想的应用，数据库操作是非常频繁的，数据库连接的创建、销毁开销很大，每次 ...阅读全文

基于R语言的raster包读取遥感影像

本文介绍基于R语言中的raster包，读取单张或批量读取多张栅格图像，并对栅格图像数据加以基本处理的方法。 1 包的安装与导入首先，我们需要配置好对应的R语言包；前面也提到，我们这里选择基于raster包来实现栅格图像数据的读取与处理工作。首先，如果有需要的话，我们可以先到raster包在R语言的 ...阅读全文

Java序列化和反序列化机制

Java的序列化和反序列化机制问题导入: 在阅读ArrayList源码的时候,注意到,其内部的成员变量动态数组elementData被Java中的关键字transient修饰 transient关键字意味着Java在序列化时会跳过该字段(不序列化该字段) 而Java在默认情况下会序列化类(实现了J ...阅读全文

5分钟上手Python爬虫：从干饭开始，轻松掌握技巧

本文的重点在于引导读者如何初步掌握爬虫技术。初步掌握爬虫技术并不难，但是在实际操作中可能会遇到一些困难，比如一些网站不允许直接访问，需要登录或者进行各种人机验证等。因此，最好先从爬取一些新闻资讯类的网站开始，因为这样相对容易。涉及用户支付等敏感信息的网站就不那么容易获取了。因此，在入门阶段，建议不要... ...阅读全文

掌握Python库的Bokeh，就能让你的交互炫目可视化

本文分享自华为云社区《Bokeh图形魔法：掌握绘图基础与高级技巧，定制炫目可视化》，作者：柠檬味拥抱。 Bokeh是一个用于创建交互式可视化图形的强大Python库。它不仅易于使用，而且功能强大，适用于各种数据可视化需求。本文将介绍Bokeh库的绘图可视化基础入门，重点说明常用的参数，并通过实例演 ...阅读全文

多线程系列(二十) -CompletableFuture使用详解

在上篇文章中，我们介绍了Future相关的用法，使用它可以获取异步任务执行的返回值。我们再次回顾一下Future相关的用法。 ...阅读全文