大数据概述

小小码农 2022年10月10日 1,265次浏览

大数据概念

最近几年，IT行业最火的名词中，少不了"大数据"、"人工智能"、"云计算"、"物联网"、"区块链"等等这些名词。针对于"大数据"这个名词，现在更是全国老百姓，老少皆知的一个词语。但是什么是大数据，除了IT行业的专业人士外，其他人乃至其他行业的人，除了能说出"数据量大"之外，好像真的不能再更深层次的解释了。那么我们来看看下面几个权威机构给出的解释。

维基百科 给出的定义：
数据规模巨大到无法通过人工在合理的时间内达到截取，管理，处理并整理成为人类所解读的信息。

麦肯锡全球研究所 给出的定义：
一种规模大到在获取、存储、管理、分析方面都大大超出了传统数据库软件工具能力范围的数据集合。

研究机构 高德纳(Gartner) 给出的定义：
"大数据"是需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产

概念总结：
海量数据，具有高增长率、数据类型多样化、一定时间内无法使用常规软件工具进行捕捉、管理和处理的数据集合。

大数据的特征(重点)

早在1980年，著名未来学家托夫勒在其所著的《第三次浪潮》中就热情地将“大数据”称颂为“第三次浪潮的华彩乐章”。《自然》杂志在2008年9月推出了名为“大数据”的封面专栏。从2009年开始“大数据”才成为互联网技术行业中的热门词汇。最早应用“大数据”的是世界著名的管理咨询公司麦肯锡公司，它看到了各种网络平台记录的个人海量信息具备潜在的商业价值，于是投入大量人力物力进行调研，对“大数据”进行收集和分析的设想，在2011年6月发布了关于“大数据”的报告，该报告对“大数据”的影响、关键技术和应用领域等都进行了详尽的分析。麦肯锡的报告得到了金融界的高度重视，而后逐渐受到了各行各业关注。那么大数据到底有什么特征呢？我们怎么去理解大数据呢？有专业人士总结了4V说法，也有相关机构总结了5V说法，甚至6V说法。不管哪种说法，下面四个特征，是大家普遍认可的。

1.Volume:巨大的数据量
2.Variety:数据类型多样化
(1):结构化的数据
即有固定格式和有限长度的数据。
(2):半结构化的数据
是一些XML或者HTML的格式的数据。
(3):非结构化的数据
现在非结构化的数据越来越多，就是不定长、无固定格式的数据，例如网页、语音，视频等。
3.Velocity: 数据增长速度快
4.Value:价值密度低

大数据的应用场景

有不了解大数据的人会问：大数据能做啥？问的好。

大数据本身是一个抽象的概念，对当前无论是企业还是政府、或是高校等单位来说，是一个面临着数据无法存储、无法计算的状态的形容词。

那么大数据可以做什么呢？

在海量的各种各样类型的价值密度低的数据中，我们要进行的是:数据采集，数据存储，数据清洗，数据分析，数据可视化。

简单一句话，就是大数据让数据产生各种"价值"。可以说，大数据的核心作用就是"数据价值化"，这个过程就是大数据要做的主要事情。那么就可以概括成：

记录已经发生的一切
描述正在发生的一切
预测将要发生的一切
大数据技术的战略意义不在于掌握庞大的数据信息，而在于对这些含有意义的数据进行专业化处理。

现在已经应用"大数据"的案例有：

预测犯罪
预测流感的爆发
预测选举
根据手机定位和交通数据，规划城市
根据库存和需求，实时调价
推动医疗信息化发展，远程医疗

大数据的发展前景

大数据技术目前正处在落地应用的初期，从大数据自身发展和行业发展的趋势来看，大数据未来的前景还是不错的，具体原因有以下几点：

大数据本身的价值体现，
本身的数据价值化就会开辟出很大的市场空间。目前在互联网领域，大数据技术已经得到了较为广泛的应用。大数据造就了新兴行业
大数据推动了科技领域的发展
不仅体现在互联网领域，还体现在金融、教育、医疗等诸多领域，尤其是现在的人工智能。
大数据产业链的形成
经过近些年的发展，大数据已经初步形成了一个较为完整的产业链，包括数据采集、整理、传输、存储、分析、呈现和应用，众多企业开始参与到大数据产业链中，并形成了一定的产业规模，相信随着大数据的不断发展，相
关产业规模会进一步扩大。
国家大力扶持大数据行业的发展

企业大数据的一般工作流程

数据源

数据的来源有如下内容:

关系型数据库
- 各种关系表，如订单表、账号表、基本信息表
日志文件
- 用户行为数据
- 浏览了哪些页面（网页、App、电视机顶盒），导航栏上的哪些选项等等
三方数据
- 第三方的接口提供数据
- 爬虫等

数据采集或者同步

常用数据采集导入框架:

sqoop：
用于RDBMS与HDFS之间数据导入与导出
flume：
采集日志文件数据，动态采集日志文件，数据流
flume采集到的数据，一份给HDFS，用于做离线分析；一份给Kafka，实时处理
kafka:
主要用于实时的数据流处理
flume与kafka都有类似消息队列的机制，来缓存大数据环境处理不了的数据

数据存储

常用数据存储框架

HDFS、 HBase、ES

数据清洗

即对数据进行过滤，得到具有一定格式的数据源

常用框架（工具）：MapReduce、Hive（ETL）、SparkCore、sparksql等

数据分析

对经过数据清洗后的数据进行分析，得到某个指标

常用框架（工具）：MapReduce、Hive、SparkSQL、impala(impa:le)、kylin

数据展示

即将数据分析后的结果展示出来，也可以理解为数据的可视化、以图或者表具体的形式展示出来

常用工具：
metastore、Javaweb、hcharts、echarts

原文出处：https://blog.csdn.net/m0_62718093/article/details/121753066

上一篇： EasyExcel 复杂表格下一篇： Hadoop 简介