大数据概念
最近几年,IT行业最火的名词中,少不了"大数据"、"人工智能"、"云计算"、"物联网"、"区块链"等等这些名词。针对于"大数据"这个名词,现在更是全国老百姓,老少皆知的一个词语。但是什么是大数据,除了IT行业的专业人士外,其他人乃至其他行业的人,除了能说出"数据量大"之外,好像真的不能再更深层次的解释了。那么我们来看看下面几个权威机构给出的解释。
维基百科 给出的定义:
数据规模巨大到无法通过人工在合理的时间内达到截取,管理,处理并整理成为人类所解读的信息。
麦肯锡全球研究所 给出的定义:
一种规模大到在获取、存储、管理、分析方面都大大超出了传统数据库软件工具能力范围的数据集合。
研究机构 高德纳(Gartner) 给出的定义:
"大数据"是需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产
概念总结:
海量数据,具有高增长率、数据类型多样化、一定时间内无法使用常规软件工具进行捕捉、管理和处理的数据集合。
大数据的特征(重点)
早在1980年,著名未来学家托夫勒在其所著的《第三次浪潮》中就热情地将“大数据”称颂为“第三次浪潮的华彩乐章”。《自然》杂志在2008年9月推出了名为“大数据”的封面专栏。从2009年开始“大数据”才成为互联网技术行业中的热门词汇。最早应用“大数据”的是世界著名的管理咨询公司麦肯锡公司,它看到了各种网络平台记录的个人海量信息具备潜在的商业价值,于是投入大量人力物力进行调研, 对“大数据”进行收集和分析的设想,在2011年6月发布了关于“大数据”的报告,该报告对“大数据”的影响、关键技术和应用领域等都进行了详尽的分析。麦肯锡的报告得到了金融界的高度重视,而后逐渐受到了各行各业关注。 那么大数据到底有什么特征呢?我们怎么去理解大数据呢?有专业人士总结了4V说法,也有相关机构总结了5V说法,甚至6V说法。不管哪种说法,下面四个特征,是大家普遍认可的。
- 1.Volume:巨大的数据量
- 2.Variety:数据类型多样化
(1):结构化的数据
即有固定格式和有限长度的数据。
(2):半结构化的数据
是一些XML或者HTML的格式的数据。
(3):非结构化的数据
现在非结构化的数据越来越多,就是不定长、无固定格式的数据,例如网页、语音,视频等。 - 3.Velocity: 数据增长速度快
- 4.Value:价值密度低
大数据的应用场景
有不了解大数据的人会问:大数据能做啥?问的好。
大数据本身是一个抽象的概念, 对当前无论是企业还是政府、或是高校等单位来说,是一个面临着数据无法存储、无法计算的状态的形容词。
那么大数据可以做什么呢?
在海量的各种各样类型的价值密度低的数据中,我们要进行的是:数据采集,数据存储,数据清洗,数据分析,数据可视化。
简单一句话,就是大数据让数据产生各种"价值"。可以说,大数据的核心作用就是"数据价值化",这个过程就是大数据要做的主要事情。那么就可以概括成:
- 记录已经发生的一切
- 描述正在发生的一切
- 预测将要发生的一切
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。
现在已经应用"大数据"的案例有:
- 预测犯罪
- 预测流感的爆发
- 预测选举
- 根据手机定位和交通数据,规划城市
- 根据库存和需求,实时调价
- 推动医疗信息化发展,远程医疗
大数据的发展前景
大数据技术目前正处在落地应用的初期,从大数据自身发展和行业发展的趋势来看,大数据未来的前景还是不错的,具体原因有以下几点:
-
大数据本身的价值体现,
本身的数据价值化就会开辟出很大的市场空间。目前在互联网领域,大数据技术已经得到了较为广泛的应用。 大数据造就了新兴行业 -
大数据推动了科技领域的发展
不仅体现在互联网领域,还体现在金融、教育、医疗等诸多领域,尤其是现在的人工智能。 -
大数据产业链的形成
经过近些年的发展,大数据已经初步形成了一个较为完整的产业链,包括数据采集、整理、传输、存储、分析、呈现和应用,众多企业开始参与到大数据产业链中,并形成了一定的产业规模,相信随着大数据的不断发展,相
关产业规模会进一步扩大。 -
国家大力扶持大数据行业的发展
企业大数据的一般工作流程
数据源
数据的来源有如下内容:
- 关系型数据库
- 各种关系表,如订单表、账号表、基本信息表
- 日志文件
- 用户行为数据
- 浏览了哪些页面(网页、App、电视机顶盒),导航栏上的哪些选项等等
- 三方数据
- 第三方的接口提供数据
- 爬虫等
数据采集或者同步
常用数据采集导入框架:
- sqoop:
用于RDBMS与HDFS之间数据导入与导出 - flume:
采集日志文件数据,动态采集日志文件,数据流
flume采集到的数据,一份给HDFS,用于做离线分析;一份给Kafka,实时处理 - kafka:
主要用于实时的数据流处理
flume与kafka都有类似消息队列的机制,来缓存大数据环境处理不了的数据
数据存储
常用数据存储框架
- HDFS、 HBase、ES
数据清洗
即对数据进行过滤,得到具有一定格式的数据源
常用框架(工具):MapReduce、Hive(ETL)、SparkCore、sparksql等
数据分析
对经过数据清洗后的数据进行分析,得到某个指标
常用框架(工具):MapReduce、Hive、SparkSQL、impala(impa:le)、kylin
数据展示
即将数据分析后的结果展示出来,也可以理解为数据的可视化、以图或者表具体的形式展示出来
常用工具:
metastore、Javaweb、hcharts、echarts
原文出处:https://blog.csdn.net/m0_62718093/article/details/121753066