2023 Hive 面试宝典

2023-07-13 10:55 由 fx67ll 发表于 #数据库

先说一些废话

总结一下Hive面试宝典中的要点，方便读者快速过一遍Hive面试所需要的知识点。
本文请搭配 Hive面试宝典来食用更美味哟 ┗( ▔, ▔ )┛

方便自己系统性回忆，根据`*`的数量来标记重要性

* 简单了解
** 熟悉掌握
*** 需要精通

Hive的介绍（*）
- Hive和Hadoop的关系
- Hive的特点
- Hive的缺点
- Hive常见的应用场景
- Hive和mysql的区别
Hive的架构（*）
Hive的数据（**）
- Hive的数据模型
- Hive的底层如何存储Null值
- Hive中元数据metadata和元数据商店metastore)`的作用
- Hive有哪些保存元数据metadata的方式
- Hive元数据存储方式中，本地模式和远程模式的区别
- Hive的数据类型
- Hive的隐式类型转换规则
- Hive数据存储所使用的文件格式
- Hive中使用的压缩算法
- 什么是数据可分割
- 关于压缩模式说明
Hive的安装与使用（*）
- 如何在Hive中集成HBase
- 如何通过 HiveSQL 来直接读写 HBase
Hive的分区和分桶（**）
- 什么是Hive分区
- Hive分区的优点
- Hive分区的缺点
- 什么是Hive分桶
- 关于Hive索引的说明
- Hive分桶的优点
- Hive分桶的缺点
- Hive中静态分区和动态分区的区别
- Hive动态分区的参数设定
Hive的内部表和外部表（*）
- 什么是Hive的内部表和外部表
- Hive内部表和外部表的区别是什么
- 生产环境中为什么建议使用外部表
Hive SQL（***）
- Hive中的SQL如何转化成MapReduce任务的
- 什么情况下Hive不走MapReduce任务
- Hive中如何查询A表中B表不存在的数据
- Hive中有哪些连接查询以及如何使用
- Hive中左连接和内连接的区别
- Hive中左连接的底层原理
- Hive查询时候 ON 和 WHERE 有什么区别
Hive 函数（***）
- 如何使用UDF/UDAF/UDTF
- 为什么使用UDF/UDAF/UDTF
- 你写过什么样的UDF/UDAF/UDT
- Hive自定义函数实现了什么函数什么接口
- Hive中如何去重
- Hive中排序函数的使用方式及区别
- 请说明以下常用函数 split / coalesce / collect list / collect set 的功能
- 请描述工作中常用的Hive常用函数及使用场景
Hive 运维（*）
- 如何监控一个提交后的Hive状态
Hive 优化（***）
- 请说明你在工作中如何进行Hive优化
- HiveSQL优化 ———— Hive单表查询优化
- HiveSQL优化 ———— Hive多表查询优化
- HiveSQL优化 ———— Hive其他查询优化
- Hive数据倾斜 ———— 单表携带了 Group By 字段的查询
- Hive数据倾斜 ———— 两表或多表的 join 关联时，其中一个表较小，但是 key 集中
- Hive数据倾斜 ———— 两表或多表的 join 关联时，有 Null值或无意义值
- Hive数据倾斜 ———— 两表或多表的 join 关联时，数据类型不统一
- Hive数据倾斜 ———— 单独处理倾斜key
- HiveJob优化 ———— HiveMap优化方案
- HiveJob优化 ———— HiveReduce优化方案
- Hive整体优化方案

我是 fx67ll.com，如果您发现本文有什么错误，欢迎在评论区讨论指正，感谢您的阅读！
如果您喜欢这篇文章，欢迎访问我的本文github仓库地址，为我点一颗Star，Thanks~ 😃
转发请注明参考文章地址，非常感谢！！！

热门相关：有个人爱你很久戏精老公今天作死没天神诀锦庭娇锦庭娇

选读SQL经典实例笔记06_日期处理（上）

![](https://img2023.cnblogs.com/blog/3076680/202307/3076680-20230711160327907-1137777359.png) # 1. 计算一年有多少天 ## 1.1. 方案 ### 1.1.1. 找到当前年份的第一天 ### 1.1.2 ...阅读全文

sharding-jdbc分库连接数优化

本文介绍了分库分表的概念及优势,以及sharding-jdbc分库分表中间件,探究了sharding-jdbc的路由规则的执行流程 ...阅读全文

掌握把“烂”SQL牢牢关进笼子里的密钥

摘要：本文通过5个部分内容帮助开发者快速了解GaussDB(DWS) 资源管理机制，让数仓过载烦恼不再，把“烂”SQL牢牢关进笼子里。本文分享自华为云社区《直播回顾 | 掌握把“烂”SQL牢牢关进笼子里的密钥》，作者：华为云社区精选。混合负载场景下，怎样避免“烂”语句对数据库系统的冲击？如何 ...阅读全文

再获认可！万里数据库参编中国信通院数据库研究报告 GreatSQL入选中国数据库产业图谱

当前，全球数字经济加速发展，数据正在成为重组全球要素资源、重塑全球经济结构、改变全球竞争格局的关键力量。**数据库作为存储与处理数据的关键技术，在数字经济浪潮下，不断涌现新技术、新业态、新模式。** 7月4-5日，**由中国通信标准化协会和中国信息通信研究院主办**，大数据技术标准推进委员会承办，I ...阅读全文

MySQL 8.0 Dynamic Redo Log Sizing翻译

本文是MySQL 8.0 Dynamic Redo Log Sizing[1]这篇文章的翻译。如有翻译不当的地方，敬请谅解，请尊重原创和翻译劳动成果，转载的时候请注明出处。谢谢！这篇博文将讨论MySQL 8.0.30中引入的最新功能/特性：重做日志动态调整大小(dynamic redo log s ...阅读全文

Windows下SqlServer2008通过ODBC连接到DM数据库安装部署

1 环境说明操作系统：Windows Server 2008数据库版本：SQL Server 2008 10.50.1600.1 2 搭建过程2.1 达梦数据库软件下载进入达梦官网 https://www.dameng.com/ 选择X86，win64，点击下载。 2.2 安装数据库解压下载后文件， ...阅读全文

选读SQL经典实例笔记05_日期运算（下）

![](https://img2023.cnblogs.com/blog/3076680/202307/3076680-20230711143234011-1452662689.png) # 1. 两个日期之间相差的月份和年份 ## 1.1. DB2 ## 1.2. MySQL ## 1.3. sq ...阅读全文

postgresql序列重复问题处理

## 问题在执行数据插入时，postgresql 提示*more than one owned sequence found*错误。这个和之前文章中写的[序列编号错乱](https://www.cnblogs.com/podolski/p/17349217.html)不同，是由数据表的一个列生成了 ...阅读全文

三问三答：细数GaussDB迁移的核心技术

摘要：本文从客户视角的三个疑问出发，一起了解华为云GaussDB数据库的迁移解决方案具有哪些核心技术，如何做到让客户迁移过程安心、放心、省心。迁移是数据库选型过程中客户最为关心的话题之一，经过大量的沟通调研，我们总结客户在数据库迁移方面的主要期望：迁移不影响业务运行（安心）、迁移不能丢数据（放心） ...阅读全文

向量数据库Faiss的搭建与使用

向量数据库Faiss是Facebook AI研究院开发的一种高效的相似性搜索和聚类的库。它能够快速处理大规模数据，并且支持在高维空间中进行相似性搜索。本文将介绍如何搭建Faiss环境并提供一个简单的使用示例。 ...阅读全文

先说一些废话

方便自己系统性回忆，根据*的数量来标记重要性

方便自己系统性回忆，根据`*`的数量来标记重要性