大数据导论

2023-05-14 20:34 由 Lionkkkk 发表于 #数据库

大数据导论

1.数据

数据概念:一切能被记录和查询的事物
数据价值: 对数据的内容进行深入分析，可以更好的帮助了解事和物在现实世界的运行规律

2.大数据概述

大数据是什么？
狭义上:对海量数据进行处理的软件技术体系
广义上:数字化、信息化时代的基础支撑，以数据为生活赋能

大数据解决了什么问题？
1.海量数据的存储
2.海量数据的计算
3.海量数据的传输

大数据的核心工作是什么？
存储:利用各类大数据技术栈，安全保存海量待处理数据
计算:利用各类大数据技术栈，完成海量数据的价值挖掘
传输:利用各类大数据技术栈，协助各个环节的数据传输

3.大数据特征

特征可以简单概括为"5V"(大、多、值、快、信)
大:数据题量大，一般计量单位是P（1000 T），E（100万 T）
多:种类来源多样化，包括结构化，半结构化，非结构化数据。如网络日志、音频、视频、图片、地理位置信息等。
值:数据价值高但是低价值密度
快:速度快，数据增长速度快，处理速度快，时效性要求高。
信:数据准确度高
总的来说，大数据就是从海量的高增长、多类别、低信息密度的数据中挖掘出高质量的结果，为企业决策赋能

4.大数据技术栈

Apache软件基金会（Apache Software Foundation，简称 ASF，是专门为运作一个开源软件项目的 Apache 的团体提供支持的非盈利性组织，这个开源软件的项目就是 Apache 项目。

存储

Apache Hadoop-HDFS :HDFS是Apache Hadoop Core项目的一部分,(Hadoop Distributed File System) Hadoop分布式文件存储系统

Apache Hbase: HBase是Apache的Hadoop项目的子项目

Apache Kudu: 是由Cloudera开源的存储引擎,贡献给Apache基金组织

计算

Apache Hadoop-MapReduce: MapReduce组件是最早一代的大数据分布式计算引擎对大数据的发展做出了卓越的贡献

Apache Hive: Hive是一款以SQL为要开发语言的分布式计算框架。HiveSQL其底层翻译成了Hadoop的MapReduce程序去执行

Apache Spark: Spark是目前全球范围内最火热的分布式内存计算引擎。是大数据体系中的明星计算产品

Apache Flink: Flink同样也是一款明星级的大数据分布式内存计算引擎。特别是在实时计算（流计算）领域占据了大多数的国内市场。

传输

Apache Sqoop: Sqoop是一款ETL工具，可以协助大数据体系和关系型数据库之间进行数据传输。

Apache Flume: Flume是一款流式数据采集工具，可以从非常多的数据源中完成数据采集传输的任务。

Apache Kafka: Kafka是一款分布式的消息系统，可以完成海量规模的数据传输工作。Apache Kafka在大数据领域也是明星产品

Apache Pulsar: Pulsar同样是一款分布式的消息系统。

5.Hadoop

Hadoop是开源的技术框架，提供分布式存储、计算、资源调度的解决方案

Hadoop:是包含HDFS,MapReduce，YARN三大组件的技术栈
Hadoop的开源版本:Apache开源社区版（原生版本）
Hadoop的商业版本:Cloudera等商业公司自行进行二次封装的商业版

热门相关：仙城纪学霸女神超给力法医王妃不好当！夫人你马甲又掉了豪门重生盛世闲女

数据操作（基础）

mysql之数据操作第一章添加数据通常向表中添加数据应该包含表中的所有字段，即为表中所有字段添加数据。但也可不包含所有字段来添加数据 1.1、所有字段按照所有字段来添加数据，有两种方式：语法1： insert into 表名(所有字段) values(字段对应的值); 语法2： inser ...阅读全文

Redis基础命令汇总，看这篇就够了

本文首发于公众号：Hunter后端原文链：Redis基础命令汇总，看这篇就够了本篇笔记将汇总 Redis 基础命令，包括几个常用的通用命令，和各个类型的数据的操作，包括字符串、哈希、列表、集合、有序集合等在内的基本操作。以下是本篇笔记目录：通用命令字符串命令哈希命令列表命令集合命令 ...阅读全文

MySQL开窗函数

MySQL开窗函数知识点三种开窗函数:row_number(),rank(),dense_rank() 这三种函数都是用于返回结果集的分组内每行的排名区别: row_number():特点是唯一且连续，如果四个人是按成绩排名，那么是1234这样排的，即使有重分的人 rank(): 特点是并列不 ...阅读全文

索引初识

索引（基础）一、索引介绍 1.1、前言在数据库中，执行如下语句时： select * from emp where id=1000; mysql 是从第一条记录开始遍历，直至找到 id = 1000 的数据，然而这样查询的效率低，所以 mysql 允许通过建立索引来加快数据表的查询和排序。 1. ...阅读全文

大数据面试（个人总结含答案）

大数据面试题 Hadoop 分布式系统基础架构，主要是为了解决海量数据的存储和和海量数据的分析计算问题 Hadoop的特点高可靠性：Hadoop底层维护多个数据副本，即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失高扩展性：集群分配任务数据，可方便扩展数以千计的节点高效性：并 ...阅读全文

MySQL数据库

基本概念概念：用于存储和管理数据的仓库数据库的特点：持久化存储数据方便存储和管理数据使用了统一的方式操作数据库安装，卸载安装略，百度有，基本就两种方式：绿色版压缩包安装包卸载在MySQL安装目录下找到my.ini文件(MySQL的配置文件) 复制datadir地址（数据存放位 ...阅读全文

MySQL8.0环境搭建

1. MySQL的卸载步骤1：停止MySQL服务在卸载之前，先停止MySQL8.0的服务。按键盘上的“Ctrl + Alt + Delete”组合键，打开“任务管理器”对话框，可以在“服务”列表找到“MySQL8.0”的服务，如果现在“正在运行”状态，可以右键单击服务，选择“停止”选项停止M ...阅读全文

详解集群级备份恢复：物理细粒度备份恢复

摘要：在实际使用过程中，数据库集群级的故障并非高概率事件，如何安全高效地帮助客户备份恢复一部分数据库元素，才是更加实际的需求，这也是细粒度备份恢复的意义所在。本文分享自华为云社区《GaussDB（DWS）之物理细粒度备份恢复》，作者：我的橘子呢。 1. 认识物理细粒度备份恢复相对于集群级备份恢 ...阅读全文

事务四大特性

ACID :如果一个数据库支持事务的操作，那么该数据库必须要具备以下四个特性 1、原子性（Atomicity）事务包含的所有操作要么全部成功，要么全部失败回滚，因此事务的操作如果成功就必须要完全应用到数据库，如果操作失败则不能对数据库有任何影响 2、一致性（Consistency）事务必须使数据 ...阅读全文

袋鼠云产品功能更新报告05期｜应有尽“优”，数栈一大波功能优化升级！

这段时间，我们对产品本身以及客户反馈的一些问题进行了持续的更新和优化，包括对离线平台数据同步功能的更新，数据资产平台血缘问题的优化等，力求满足不同行业用户的更多需求，为用户带来极致的产品使用体验。以下为袋鼠云产品功能更新报告第五期内容，更多探索，请继续阅读。离线开发平台 1.支持工作流参数背景 ...阅读全文