Spark环境搭建及Spark shell

2023-06-27 21:37 由 _泡泡发表于 #数据库

StandAlone模式环境搭建

环境准备：三台Linux，一个安装Master，其他两台机器安装Worker

下载spark安装包，下载地址：https://spark.apache.org/downloads.html
上传spark安装包到Linux服务器上
解压spark安装包

tar -zxvf spark-3.2.3-bin-hadoop3.2.tgz -C /opt/apps

进入到spark按照包目录并将conf目录下的spark-env.sh.template重命名为spark-env.sh，再修改

export JAVA_HOME=/usr/local/jdk1.8.0_251/
export SPARK_MASTER_HOST=linux01

将conf目录下的workers.template重命名为workers并修改，指定Worker的所在节点

linux02
linux03

将配置好的spark拷贝到其他节点

for i in {2..3}; do scp -r spark-3.2.3-bin-hadoop3.2 linux0$i:$PWD; done

启动Spark集群

sbin/start-all.sh

执行jps命令查看Java进程

jps

在ndoe-1上可以看见Master进程，在其他的节点上可以看见到Worker进程

访问Master的web管理界面，端口8080

一些重要参数

export SPARK_WORKER_CORES=4    #指定worker可用的逻辑核数
export SPARK_WORKER_MEMORY=2g  #指定worker可用的内存大小

standalone模式高可用部署

spark的standalone模式可以启动两个以上的Master，但是需要依赖zookeeper进行协调，所有的节点启动后，都向zk注册

修改配置文件spark-env.sh

 # 注释掉master的地址，所有节点都先连接zookeeper
 # export SPARK_MASTER_HOST=linux01
 export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=linux01:2181,linux02:2181,linux03:2181 -Dspark.deploy.zookeeper.dir=/spark"

启动Spark Shell编程

spark shell是spark中的交互式命令行客户端，可以在spark shell中使用scala编写spark程序，启动后默认已经创建了SparkContext，别名为sc

/opt/apps/spark-3.2.3-bin-hadoop3.2/bin/spark-shell \
--master spark://linux01:7077 --executor-memory 1g \
--total-executor-cores 3

如果Master配置了HA高可用，需要指定两个Master（因为这两个Master任意一个都可能是Active状态）

/bigdata/spark-3.2.3-bin-hadoop3.2/bin/spark-shell \
--master spark://linux01:7077,linux02:7077 \
--executor-memory 1g \
--total-executor-cores 3

参数说明：
--master 指定masterd地址和端口，协议为spark://，端口是RPC的通信端口
--executor-memory 指定每一个executor的使用的内存大小
--total-executor-cores指定整个application总共使用了cores

在shell中编写第一个spark程序

sc.textFile("hdfs://linux01:9000/words.txt").flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).sortBy(_._2,false).saveAsTextFile("hdfs://linux01:9000/out")

热门相关：亿万盛宠只为你变身蜘蛛侠天神诀锦乡里锦乡里

详解数据库中的索引和视图

摘要：索引就是数据表中数据和相应的存储位置的列表，利用索引可以提高在表或视图中的查找数据的速度。本文分享自华为云社区《数据库开发指南（六）索引和视图的使用技巧、方法与综合应用》，作者： bluetata 。一、索引 1.1 什么是索引索引就是数据表中数据和相应的存储位置的列表，利用索引可以提高 ...阅读全文

MongoDB（一）

## 1、简介 * MongoDB是基于C++语言编写的，是一个基于分布式文件存储的开源数据库系统。 * MongoDB将数据存储作为一个文档，数据结构由键值对（key==>value）组成，MongoDB文档类似于JSON对象。字段值可以包含其他文档，数组及文档数组。 ![](https://im ...阅读全文

这场世界级的攻坚考验，华为云GaussDB稳过

摘要：实践证明，华为云GaussDB完全经受住了这场世界级的攻坚考验，也完全具备支撑大型一体机系统迁移上云的能力，并积累了丰富的经验。本文分享自华为云社区《这场世界级的攻坚考验，华为云GaussDB稳过》，作者： GaussDB 数据库。数字化时代，业务“在线”是每个企业的常态。作为企业经营管 ...阅读全文

关系型数据库速度比较(性能基准测试)及python实现

https://www.sqlite.org/speed.html 做了SQLite、MySQL和PostgreSQL的速度比较，使用的数据库版本比较老，但是测试方法依旧颇有意义。 ![](https://img2023.cnblogs.com/blog/3174021/202306/3174021 ...阅读全文

教程 | Datavines 自定义数据质量检查规则（Metric）

Metric 是 Datavines 中一个核心概念，一个 Metric 表示一个数据质量检查规则，比如空值检查和表行数检查都是一个规则。Metric 采用插件化设计，用户可以根据自己的需求来实现一个 Metric。下面我们来详细讲解一下如何自定义`Metric`。 ### 第一步我们先了解下几个 ...阅读全文

NetBeans连接SQLServer2008配置

一、配置SQL Server （一）SQL Server配置管理器 1、打开SQL Server配置管理器（1）文件路径，我的是C:\Windows\SysWOW64\mmc.exe，也可以从开始菜单找（如下图所示） ps网络资源：Windows10 可能在菜单栏里找不到SQL server的配 ...阅读全文

Spark架构体系

# Spark架构体系 StandAlone模式是spark自带的集群运行模式，不依赖其他的资源调度框架，部署起来简单。 StandAlone模式又分为client模式和cluster模式，本质区别是Driver运行在哪里，如果Driver运行在SparkSubmit进程中就是Client模式，如果 ...阅读全文

日均调度 10W+ 任务实例，DolphinScheduler 在蔚来汽车一站式数据治理开发平台的应用改造

![file](https://img2023.cnblogs.com/other/2685289/202306/2685289-20230626191342850-513894679.png) 大家好我是张金明，在蔚来汽车担任大数据平台研发工程师。这次和大家分享的是 Apache DolphinS ...阅读全文

图书搜索领域重大突破！用Apache SeaTunnel、Milvus和OpenAI提高书名相似度搜索精准度和效率

![file](https://img2023.cnblogs.com/other/3195851/202306/3195851-20230626190205684-2107268424.jpg) 作者 | 刘广东，Apache SeaTunnel Committer ## 背景目前，现有的图书搜 ...阅读全文

档案室温度和湿度控制标准及防控措施技术性八防方案

档案馆库房温湿度调控标准及相应的措施方案档案库房是档案保管的基本条件，档案库房温湿度与保护档案，延长档案寿命有很大关系。档案库房适宜温湿度标准为：温度14℃—24℃，相对湿度45％一60 一、库房温湿度对档案的影响库房的温湿度，过高过低都会影响档案制成材料的耐久性。高温高湿会加速纸张的老化水解 ...阅读全文