第1章 大数据概述
1.1 信息与数据
1、信息
-
人们对于客观事物属性和运动状态的反映。
-
信息所反映的是关于某一客观系统中,某一事物的存在方式或某一时刻的运动状态。
-
信息可以通过载体传递,可以通过信息处理工具进行存储、加工、传播、再生和增值。
-
在信息社会中,信息一般可与物质或能量相提并论,它是一种重要的资源。
2、数据(data)
-
数据的定义:
-
是反映客观事物存在方式或运动状态的记录。是信息的载体。
-
从计算机的角度看,数据泛指那些可以被计算机接受并能够被设计算机处理的符号,是数据库中能够存储的基本对象。
-
数据是对现实世界简化和抽象地表达,当今科技的发展,数据获取及存储方式已经发生了根本性的变化,数据资源已经成为了一种“能源”,一种“生产力”。
-
-
数据的特征
-
数据有“型”和“值”之分
-
数据使用收数据类型和取值范围的约束
-
数据具有多种的表现形式
-
数据具有明确的语义
-
1.2 数据库
1、数据库的定义
-
是以一定的组织方式将相关的数据组织在一起,长期存放在计算机内,可以为多个用户共享,与应用程序之间彼此独立,统一管理的数据集合。
-
数据库的数据库系统的核心部分,是数据库系统的管理对象。
-
数据库的性质是有数据模型决定的。
-
若数据库中数据的组织支持层次模型的特性,则该数据库为层次数据库;
-
若数据库中数据的组织支持网络模型的特性,则该数据库为网络数据库;
-
若数据库中数据的组织支持关系模型的特性,则称为关心型数据库。
-
2、数据库特性
-
数据按一定的数据模型组织、描述和存储
-
可为多用户共享
-
冗余度较小
-
数据独立性较高
-
易扩展
3、数据库管理系统
-
数据库管理系统定义
-
数据库管理系统是位于用户与操作系统之间,具有数据定义、管理和操纵功能的软件集合。
-
数据库管理系统
-
提供对数据库资源进行统一管理和控制的功能,使数据与应用程序隔离,数据具有独立性;
-
是数据结构及数据存储具有一定的规范性,有利于数据共享;
-
提供安全性和保密性措施,使数据不被破坏,不被窃用‘提供并发控制,保证数据库的一致性;
-
提供恢复机制,当出现故障时,数据恢复到一致性状态。
-
-
-
数据库雇你系统功能
-
数据定义功能
-
数据操纵功能
-
数据库的运行管理功能
-
数据库的建立和维护功能
-
-
注意
-
是支持数据库得以运行的基础性的系统,即整个计算机系统。数据库是数据库系统的核心和管理对象,每个具体的数据库及其数据的存储、维护以及为应用系统提供数据支持,都是在数据库系统环境下运行完成的。
-
数据库系统是实现有组织、动态地存储大量相关的结构化数据、
方便各类用户访问数据库的计算机软/硬件资源的集合。
-
也可以理解成,数据库系统是由支持数据库的硬件环境、数据库软件支持环境(操作系统、数据库管理系统、应用开发工具软件、应用程序等)、数据库、开发、使用和管理数据库应用系统的人员组成。
-
1.3 大数据
1.3.1 大数据概念
-
大数据(Big Data):之前无法在一定时间内内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强大的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。解决海量数据的采集、存储和分析计算的问题。
-
所谓数据处理,实际上就是利用计算机对各种类型的数据进行加工处理,它包括对数据的采集、整理、存储、分类、排序、检索、维护、加工、统计和传输等一系列操作过程。
-
随着计算机软件、硬件技术的发展,数据处理数量的规模日益扩大,数据处理的应用需求越来越广泛,数据管理技术的发展也不断变迁,经历了从人工管理、文件系统、数据库系统和分布式系统4个阶段。
1.3.2 大数据特点
-
大体量(Volume)
-
随着传感设备,移动设备,网络宽带的的成倍增加,在线交易和社交网络,每天生产成千上万兆字节的数据,数据规模也在不断的急剧增长。
-
大数据的大体量(Volume)是指数据量大以及规模的完整性,全球数据量正以前所未有的速度增长,数据的存储容量从TB级扩大到BB数量级。
-
-
高速(Velocity)——时效性
-
增长速度和处理速度。
-
大数据要求数据处理速度快,是区别于传统的数据最显著的特征,现实中,这体现在对数据的实时性需求上,否则,再有价
值的数据,只要过了时效性,也失去存在的意义。
-
-
多样性(Variety)
-
这种类型的多样性也让数据被分为结构化数据和非结构化数据
-
新型多结构的数据量也呈现爆炸式增长, 有统计显示,在
未来,结构化数据和非结构化的数据占比悬殊,非结构化的数
据将达到90%以上。
-
非结构化数据往往导致数据的异构性,进而加大数据处理复杂性,对数据处理能力提出了更高的要求。
-
网络日记,电子文档,电子邮件,网页,音频、视频,图片,地理位置信息等大量的非结构化数据已经占到了总数据量的很大比重。
-
-
大价值(Value)——低价值密度
-
大数据的数据价值隐藏在海量数据之中,往往表现为数据价值高但价值密度低的特点。
-
在大数据中,价值密度的高低与数据总量的大小之间并不存在线性关系,有价值的数据,往往被淹没在海量无用数据之中,也就是人们常说的,我们淹没在数据的海洋,却又在忍受着知识的饥渴。
-
1.4 大数据应用场景
-
医疗、保险、等各行各业