大数据通用组件故障处理

2023-07-28 16:38 由天翼云开发者社区发表于 #数据库

本文分享自天翼云开发者社区《大数据通用组件故障处理》，作者:f****n

HDFS

1.HDFS 服务一直异常

检查HDFS是否处于安全模式。

检查ZooKeeper服务是否运行正常。

2.HDFS 维护客户端出现OutOfMemoryError 异常

使用HDFS客户端之前，需要在HADOOP_CLIENT_OPTS更新"-Xmx" GC参数。

直接执行如下命令：

export HADOOP_CLIENT_OPTS="$HADOOP_CLIENT_OPTS -Xmx512m"

在命令中调整参数，减少HDFS维护客户端运行命令时所需的内存。

当执行hdfs dfs -ls /user/*/*/*/*命令时上报OutOfMemoryError，您可以执行类似的命令来获取目录。例如：hdfs dfs -ls -R /user。

3.NameNode 的主备倒换失败

需要格式化ZKFC，并将元数据从主NameNode拷贝到新增的NameNode节点中。

Zookeeper

1.ZooKeeper 无法对外提供服务

检查ZooKeeper安装并运行的实例是否为奇数个，如3个、5个。

恢复故障的ZooKeeper服务。

2.安装DNS 导致ZooKeeper 服务异常

ZooKeeper所在节点的“/etc/hosts”配置错误，ZooKeeper所在节点配置了DNS服务。

检查ZooKeeper故障节点的“/etc/hosts”文件中，IP和主机名是否正确，是否有一个IP对应多个主机名，或者一个主机名对应多个IP的情况。

确认ZooKeeper所在的节点没有安装DNS服务

Yarn

1.ResourceManager 原生界面的链接不可用

检查本地的“hosts”文件中是否对HostName和IP的对应关系进行了配置。检查该集群是否开放了相应端口。

2.ResourceManager 节点故障

查看是否有Yarn服务不可用告警产生，并且告警原因为No active instance，参考告警中描述操作。

检查ZooKeeper服务状态，如果没有告警，说明ZooKeeper服务正常，不用检查。检查网络状态。

Spark

1.任务挂起，报Initial job has not accepted any resources 异常

查看集群内每台节点中的“/etc/hosts”文件中是否加入了客户端节点的IP和主机名。如果“/etc/hosts”文件未加入，则修改文件，重试跑应用。

若“/etc/hosts”加入了客户端节点的IP和主机名后，该问题还存在时，查看Executor端对应的进程CoarseGrainedExecutorBackend是否存在。如果不存在，可能是由于executor memory配置太大导致的。

2.内存不足，无法退出应用程序

执行命令强制将任务退出，然后通过修改内存参数的方式解决内存不足的问题，使任务执行成功。

针对此类数据量大的任务，希望任务不再挂起，遇到内存不足时，直接提示任务运行失败。

3.由于磁盘空间不足导致运行应用程序失败

应用程序中，若有shuffle操作时，会将shuffle的数据写到磁盘中。当磁盘空间不够时，便会出现“No space left on device”错误。

建议在执行Spark开发程序之前，应先根据实际数据量，估算shuffle过程的数据的大小，配置足够的磁盘空间再提交应用程序。

热门相关：我的治愈系游戏万古至尊修真界败类娜妲莉的情人女儿的日记

数据库是要拿来用的，不是用来PK先进性的

周五参加了WAIC后又和一家上海本地的数据库厂商交流了一下午。等我要买高铁票回南京的时候已经买不到票了。好不容易刷到一张到苏州北的高铁票，我就上了车。上车后突然想起还不如就回苏州老家住一晚算了。到家后洗漱完毕已经快10点了，发现刚才我开了半天空调的房间里温度还是很高，仔细一看空调的工作状态似乎不太正 ...阅读全文

PostgreSQL+GeoHash地图点位聚合

### PG数据库安装扩展需要用到pg数据库的空间扩展postgis，在进行操作之前需要在数据库中安装扩展。 ```sql CREATE EXTENSION postgis; CREATE EXTENSION postgis_topology; CREATE EXTENSION postgis_g ...阅读全文

Mysql高级4-索引的使用规则

一、最左前缀法则如果索引了多列（联合索引），要遵守最左前缀法则。最左前缀法则指的是查询从索引的最左列开始，并且不跳过索引中的列，如果跳跃某一列，索引将部分失效（后面的字段索引失效）示例1：account_transaction表中创建一个联合索引，使用method字段+trader_staff_ ...阅读全文

Phoenix 时区问题

最近在测试flink从trino查询数据插入到phoenix5的功能，发现一个时间的问题：明明插入的时间是 '1940-06-01'，查询出来的时间会少一天，同样的 Timestamp 也会自动少掉 8个小时，详细原因参考 Phoenix关于时区的处理方式说明。但是文章中阿里的已经处理，但是社区版 ...阅读全文

选读SQL经典实例笔记14_层次查询

![](https://img2023.cnblogs.com/blog/3076680/202307/3076680-20230726164318392-162588362.png) # 1. 结果集 ## 1.1. sql ```sql select empno,mgr from emp ord ...阅读全文

Spark

# SparkCore ## RDD基础 ### 定义在 Spark 的编程接口中，每一个数据集都被表示为一个对象，称为 RDD。RDD 是 Resillient Distributed Dataset(弹性分布式数据集)的简称，是一个只读的(不可变的)、分区的(分布式的)、容错的、延迟计算的 ...阅读全文

Mysql高级3-索引的结构和分类

一、索引概述 1.1 索引的介绍索引index：是帮助 Mysql 高效获取数据的有序的数据结构，在数据之外，数据库系统维护着的满足特定查找算法的数据结构，这些数据结构以某种方式引用(指向)数据，这样就可以在这些数据结构上实现高级查找算法，这种数据结构就是索引 1.2 索引的优缺点优点1：提 ...阅读全文

五分钟了解Spark之RDD！！

# Spark之探究RDD > 如何了解一个组件，先看看官方介绍！ ![](https://img2023.cnblogs.com/blog/3161112/202307/3161112-20230727212358040-237097554.png) 进入RDD.scala，引入眼帘的是这么一段描 ...阅读全文

什么是向量数据库？向量数据库工作原理？向量数据库解决方案？

向量数据库是一种专门用于存储和处理向量数据的数据库系统。向量数据是指具有多维度属性的数据，例如图片、音频、视频、自然语言文本等。传统的关系型数据库通常不擅长处理向量数据，因为它们需要将数据映射成结构化的表格形式，而向量数据的维度较高、结构复杂，导致存储和查询效率低下 ...阅读全文

mysql根据.frm和.ibd文件恢复数据表

忠人之事受人之托起因是因为一位朋友的数据库服务器被重装了，只剩下一个zbp_post.frm和zbp_post.ibd文件。咨询我能不能恢复，确实我只用过mysqldump这种工具导出数据然后进行恢复到数据库。这种直接备份物理存储文件还没有尝试过。前提是需要历史ibd文件的所属数据库版本需要 ...阅读全文