Spark架构体系

2023-06-26 19:34 由 _泡泡发表于 #数据库

Spark架构体系

StandAlone模式是spark自带的集群运行模式，不依赖其他的资源调度框架，部署起来简单。

StandAlone模式又分为client模式和cluster模式，本质区别是Driver运行在哪里，如果Driver运行在SparkSubmit进程中就是Client模式，如果Driver运行在集群中就是Cluster模式

standalone client模式

standalone cluster模式

Spark On YARN cluster模式

Spark执行流程简介

Job：RDD每一个行动操作都会生成一个或者多个调度阶段调度阶段（Stage）：每个Job都会根据依赖关系，以Shuffle过程作为划分，分为Shuffle Map Stage和Result Stage。每个Stage对应一个TaskSet，一个Task中包含多Task，TaskSet的数量与该阶段最后一个RDD的分区数相同。
Task：分发到Executor上的工作任务，是Spark的最小执行单元
DAGScheduler：DAGScheduler是将DAG根据宽依赖将切分Stage，负责划分调度阶段并Stage转成TaskSet提交给TaskScheduler
TaskScheduler：TaskScheduler是将Task调度到Worker下的Exexcutor进程，然后丢入到Executor的线程池的中进行执行

Spark中重要角色

Master ：是一个Java进程，接收Worker的注册信息和心跳、移除异常超时的Worker、接收客户端提交的任务、负责资源调度、命令Worker启动Executor。
Worker ：是一个Java进程，负责管理当前节点的资源管理，向Master注册并定期发送心跳，负责启动Executor、并监控Executor的状态。
SparkSubmit ：是一个Java进程，负责向Master提交任务。
Driver ：是很多类的统称，可以认为SparkContext就是Driver，client模式Driver运行在SparkSubmit进程中，cluster模式单独运行在一个进程中，负责将用户编写的代码转成Tasks，然后调度到Executor中执行，并监控Task的状态和执行进度。
Executor ：是一个Java进程，负责执行Driver端生成的Task，将Task放入线程中运行。

Spark和Yarn角色对比

热门相关：亿万盛宠只为你道君半仙重生野性时代花月颂

档案室温度和湿度控制标准及防控措施技术性八防方案

档案馆库房温湿度调控标准及相应的措施方案档案库房是档案保管的基本条件，档案库房温湿度与保护档案，延长档案寿命有很大关系。档案库房适宜温湿度标准为：温度14℃—24℃，相对湿度45％一60 一、库房温湿度对档案的影响库房的温湿度，过高过低都会影响档案制成材料的耐久性。高温高湿会加速纸张的老化水解 ...阅读全文

Spark简介

# Spark Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache的顶级项目，2014年5月发布spark1.0，2016年7月发布spark2.0，2020年6月 ...阅读全文

SeaTunnel 发布成为 Apache 顶级项目后首个版本 2.3.2，进一步提高 Zeta 引擎稳定性和易用性

![file](https://img2023.cnblogs.com/other/3195851/202306/3195851-20230625185718639-2144905227.jpg) > 近日，Apache SeaTunnel 正式发布 2.3.2 版本。此时距离上一版本 2.3.1 ...阅读全文

构建高可用性的 SQL Server：Docker 容器下的主从同步实现

摘要：本文将介绍如何在 Docker 环境下搭建 MS SQL Server 的主从同步，帮助读者了解主从同步的原理和实现方式，进而提高数据的可靠性和稳定性。一、前言在当今信息化的时代，数据的安全性和稳定性显得尤为重要。数据库是许多企业和组织存储和管理数据的核心，因此如何保证数据库的高可用性和数 ...阅读全文

锁（case篇）

## case1（表锁的读-写-读阻塞）上篇文档中提到过 >WRITE locks normally have higher priority than READ locks to ensure that updates are processed as soon as possible. Thi ...阅读全文

记一次字符串末尾空白丢失的排查 → MySQL 是会玩的！

开心一刻今天答应准时回家和老婆一起吃晚饭，但临时有事加了会班，回家晚了点回到家，本以为老婆会很生气，但老婆却立即从厨房端出了热着的饭菜老婆：还没吃饭吧，去洗下，来吃饭吧我洗好，坐下吃饭，内心感动十分；老婆坐旁边深情的看着我老婆：你知道谁最爱你吗我毫不犹豫道：你老婆：谁最关心你？我：你 ...阅读全文

锁（理论篇）

# MVCC机制遗留的问题 **为什么在可重复读级别下，幻读没有产生？** 回想一下在事务隔离级别那篇文章中，可串行化是通过什么保证的？对操作的每一行记录加读锁、写锁和范围锁；任何其他事务都必须等待持有锁的事务释放锁之后才能进行操作；而可重复读级别相比之下唯一少的就是范围锁，所以无论你是否了解过 ...阅读全文

分库分表 21 招

（一）好好的系统，为什么要分库分表？咱们先介绍下在分库分表架构实施过程中，会接触到的一些通用概念，了解这些概念能够帮助理解市面上其他的分库分表工具，尽管它们的实现方法可能存在差异，但整体思路基本一致。因此，在开始实际操作之前，我们有必要先掌握这些通用概念，以便更好地理解和应用分库分表技术。我们结 ...阅读全文

Elasticsearch核心应用场景-日志优化实践

1. 背景日志领域是Elasticsearch（ES）最重要也是规模最大的应用场景之一。这得益于 ES 有高性能倒排索引、灵活的 schema、易用的分布式架构，支持高吞吐写入、高性能查询，同时有强大的数据治理生态、端到端的完整解决方案。但原生 ES 在高吞吐写入、低成本存储、高性能查询等方面还有 ...阅读全文

2-Redis概述

![image](https://img2023.cnblogs.com/blog/2942345/202306/2942345-20230622081504394-95093556.png) ‍ # 1. 应用场景 ‍ ## 1.1 配合关系型数据库做高速缓存 ‍ - 高频次，热门访问的数据， ...阅读全文