大数据概述

小小码农 2022年10月10日 1,052次浏览

大数据概念

最近几年,IT行业最火的名词中,少不了"大数据"、"人工智能"、"云计算"、"物联网"、"区块链"等等这些名词。针对于"大数据"这个名词,现在更是全国老百姓,老少皆知的一个词语。但是什么是大数据,除了IT行业的专业人士外,其他人乃至其他行业的人,除了能说出"数据量大"之外,好像真的不能再更深层次的解释了。那么我们来看看下面几个权威机构给出的解释。

维基百科 给出的定义:
数据规模巨大到无法通过人工在合理的时间内达到截取,管理,处理并整理成为人类所解读的信息。

麦肯锡全球研究所 给出的定义:
一种规模大到在获取、存储、管理、分析方面都大大超出了传统数据库软件工具能力范围的数据集合。

研究机构 高德纳(Gartner) 给出的定义:
"大数据"是需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产

概念总结
海量数据,具有高增长率、数据类型多样化、一定时间内无法使用常规软件工具进行捕捉、管理和处理的数据集合。

大数据的特征(重点)

早在1980年,著名未来学家托夫勒在其所著的《第三次浪潮》中就热情地将“大数据”称颂为“第三次浪潮的华彩乐章”。《自然》杂志在2008年9月推出了名为“大数据”的封面专栏。从2009年开始“大数据”才成为互联网技术行业中的热门词汇。最早应用“大数据”的是世界著名的管理咨询公司麦肯锡公司,它看到了各种网络平台记录的个人海量信息具备潜在的商业价值,于是投入大量人力物力进行调研, 对“大数据”进行收集和分析的设想,在2011年6月发布了关于“大数据”的报告,该报告对“大数据”的影响、关键技术和应用领域等都进行了详尽的分析。麦肯锡的报告得到了金融界的高度重视,而后逐渐受到了各行各业关注。 那么大数据到底有什么特征呢?我们怎么去理解大数据呢?有专业人士总结了4V说法,也有相关机构总结了5V说法,甚至6V说法。不管哪种说法,下面四个特征,是大家普遍认可的。

  • 1.Volume:巨大的数据量
  • 2.Variety:数据类型多样化
    (1):结构化的数据
    即有固定格式和有限长度的数据。
    (2):半结构化的数据
    是一些XML或者HTML的格式的数据。
    (3):非结构化的数据
    现在非结构化的数据越来越多,就是不定长、无固定格式的数据,例如网页、语音,视频等。
  • 3.Velocity: 数据增长速度快
  • 4.Value:价值密度低

大数据的应用场景

有不了解大数据的人会问:大数据能做啥?问的好。

大数据本身是一个抽象的概念, 对当前无论是企业还是政府、或是高校等单位来说,是一个面临着数据无法存储、无法计算的状态的形容词。

那么大数据可以做什么呢?

在海量的各种各样类型的价值密度低的数据中,我们要进行的是:数据采集,数据存储,数据清洗,数据分析,数据可视化。

简单一句话,就是大数据让数据产生各种"价值"。可以说,大数据的核心作用就是"数据价值化",这个过程就是大数据要做的主要事情。那么就可以概括成:

  • 记录已经发生的一切
  • 描述正在发生的一切
  • 预测将要发生的一切
    大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。

现在已经应用"大数据"的案例有:

  • 预测犯罪
  • 预测流感的爆发
  • 预测选举
  • 根据手机定位和交通数据,规划城市
  • 根据库存和需求,实时调价
  • 推动医疗信息化发展,远程医疗

大数据的发展前景

大数据技术目前正处在落地应用的初期,从大数据自身发展和行业发展的趋势来看,大数据未来的前景还是不错的,具体原因有以下几点:

  • 大数据本身的价值体现,
    本身的数据价值化就会开辟出很大的市场空间。目前在互联网领域,大数据技术已经得到了较为广泛的应用。 大数据造就了新兴行业

  • 大数据推动了科技领域的发展
    不仅体现在互联网领域,还体现在金融、教育、医疗等诸多领域,尤其是现在的人工智能。

  • 大数据产业链的形成
    经过近些年的发展,大数据已经初步形成了一个较为完整的产业链,包括数据采集、整理、传输、存储、分析、呈现和应用,众多企业开始参与到大数据产业链中,并形成了一定的产业规模,相信随着大数据的不断发展,相
    关产业规模会进一步扩大。

  • 国家大力扶持大数据行业的发展

企业大数据的一般工作流程

数据源

数据的来源有如下内容:

  • 关系型数据库
    • 各种关系表,如订单表、账号表、基本信息表
  • 日志文件
    • 用户行为数据
    • 浏览了哪些页面(网页、App、电视机顶盒),导航栏上的哪些选项等等
  • 三方数据
    • 第三方的接口提供数据
    • 爬虫等

数据采集或者同步

常用数据采集导入框架:

  • sqoop:
    用于RDBMS与HDFS之间数据导入与导出
  • flume:
    采集日志文件数据,动态采集日志文件,数据流
    flume采集到的数据,一份给HDFS,用于做离线分析;一份给Kafka,实时处理
  • kafka:
    主要用于实时的数据流处理
    flume与kafka都有类似消息队列的机制,来缓存大数据环境处理不了的数据

数据存储

常用数据存储框架

  • HDFS、 HBase、ES

数据清洗

即对数据进行过滤,得到具有一定格式的数据源

常用框架(工具):MapReduce、Hive(ETL)、SparkCore、sparksql等

数据分析

对经过数据清洗后的数据进行分析,得到某个指标

常用框架(工具):MapReduce、Hive、SparkSQL、impala(impa:le)、kylin

数据展示

即将数据分析后的结果展示出来,也可以理解为数据的可视化、以图或者表具体的形式展示出来

常用工具:
metastore、Javaweb、hcharts、echarts

原文出处:https://blog.csdn.net/m0_62718093/article/details/121753066