71muke 71muke

大数据基本概念

一、大数据基本概念

大数据的特征包含4个层面,即4V特征:数据量大(Volume)、数据类型繁多(Variety)、处理速度快(Velocity)和价值密度低(Value),后逐步深化出第5个特征数据真实性(Veracity)

image.png


二、大数据 1.0 阶段

数据分析和大数据起源于长期存在的数据库管理领域。它严重依赖于存储在传统关系数据库管理系统(RDBMS)中的数据中常见的存储、提取和优化技术。

数据库管理和数据仓库被认为是大数据1.0阶段的核心组成部分。它集成了一些成熟的技术,如数据库查询、在线分析处理和标准报告工具,为今天的现代数据分析奠定了基础。

大数据1.0阶段的需求得益于互联网的蓬勃发展,需要对海量的非结构化的数据进行分布式存储并行计算,主要的关键技术包括以HDFS/HBase为代表的海量数据存储层和以MapReduce为代表的批处理计算框架。从决策角度而言,这一阶段主要以数据驱动的模式为主。


三、大数据 2.0 阶段

自2000年代初以来,Internet和Web开始提供独特的数据收集和数据分析机会。随着网络流量和在线商店的扩张,雅虎、亚马逊和eBay等公司开始通过分析点击率、IP特定位置数据和搜索日志来分析客户行为。这开启了一个全新的蕴含各种可能性的新世界。

从数据分析和大数据的角度来看,基于HTTP的Web流量引入半结构化和非结构化数据大量增加,除了标准的结构化数据类型之外,现在需要寻找新的方法和存储解决方案来处理这些新的数据类型,以便有效地分析它们。社交媒体数据的出现和增长极大地加剧了对能够从这些非结构化数据中提取有意义信息工具、技术和分析技术的需求。

这一阶段以融合计算为主的技术趋势,是伴随着移动互联网的发展,需要对海量、多样化、高并发的数据进行实时分析、交互式查询。关键技术包括HDFS/HBase和MPP,强调类YARN的统一资源管理,包括MapReduce的批处理、Spark内存计算、Solr交互式计算和Storm流式计算等。从决策角度来看,这一阶段是理论驱动的。


四、大数据 3.0 阶段

在这一阶段,尽管基于 Web 的非结构化内容仍然是数据分析和大数据方面的主要关注点,但移动设备带来了更多更丰富的有价值的信息。移动设备不仅可以分析行为数据,如点击和搜索查询,还可以存储和分析GPS数据。随着这些移动设备的进步,可以跟踪运动、分析身体行为甚至与健康相关的数据。这些数据提供了一系列全新的机会,从交通到城市设计和医疗保健。

同时,基于传感器的互联网设备的兴起正以前所未有的方式增加数据生成速度和体量。数以百万计的电视、恒温器、可穿戴设备甚至冰箱以“物联网”而闻名,单台设备每天都在产生数兆字节的数据。从这些新数据源中提取有意义和有价值的信息的工作对大数据的技术提出了新的要求。

这一阶段围绕着认知计算展开,面对的需求是在万物互联时代下需要对海量流式数据、人工智能分析等提供毫秒级的低延时处理能力,关键技术包括HDFS/HBase和MPPDB的智能跨域数据中心存储、以YARN为核心的智能跨域数据中心资源管理、Spark和Data Intensive Streaming的融合数据处理平台,最后为人工智能、知识探索,发现和管理的认知计算服务。从决策角度看,大数据3.0阶段进入了Data-driving-theory即数据驱动理论的阶段。





毕设系统定制、课程教学、问题1对1远程解答,可联系村长QQ:330168885

留言

发布留言

需要购买本课才能留言哦~

{{ item.createtime | dateStr }}
×