大数据时代的数据存储未来需求和新兴范式
一、大数据时代的数据存储未来需求和新兴范式
1. 大数据存储的未来需求
未来的大数据存储技术有三个需求,包括查询接口的标准化,增加对数据安全的支持和用户隐私保护,以及对语义数据模型的支持。
(语义数据模型的支持的理解:语义数据模型是一种能够表达数据之间语义关系的模型,它不仅仅关注数据的结构,更注重数据所代表的含义以及数据之间的关联。)
1)标准化查询接口
从中长期的发展看,NoSQL 数据库将极大地受益于标准化查询接口,类似于关系数据库系统的 SQL。目前,除了图数据库的事实标准 API和SPARQL 数据操作语言之外,目前还没有针对单个 NoSQL 存储类型的标准。目前大部分 NoSQL 数据库通常提供自己的声明性语言或 API,缺少标准化的声明性语言。
虽然对于某些数据库类别(键/值、文档等),声明性语言标准化仍然缺失,但业界仍在努力讨论标准化需求。例如,ISO/IEC JTC 大数据研究组建议现有的 ISO/IEC 标准委员会应进一步研究“定义标准接口以支持非关系数据存储”。
标准化接口的定义将支持创建数据虚拟化层,该层将提供异构数据存储系统的抽象,因为它们通常用于大数据用例。
2)安全和隐私
数据共享和社会规范确保大量存储的数据可以进行共享和拓展工作,以最大限度地发挥大数据的优势。今天,用户不知道大数据系统如何处理他们的数据(缺乏透明度),也不清楚大数据用户如何有效地共享和获取数据。例如,大数据允许基于来自多种来源的聚合数据进行新颖的分析。这种方法如何影响私人信息?
数据溯源和出处: 数据的溯源和出处在大数据存储中变得越来越重要,原因有二:(1)用户想了解数据的来源,数据是否正确和可信等;(2)随着大数据进入关键业务流程和价值链,大数据存储将受到合规规则的约束。因此,大数据存储必须维护元数据,支持数据追溯,并提供用户友好的方式来理解和跟踪数据的使用。
沙盒和虚拟化技术:除了访问控制之外,大数据分析的沙盒和虚拟化变得更加重要。根据规模经济原则,大数据分析受益于资源共享。但是,共享分析组件的安全漏洞会导致加密访问密钥和完整存储访问受到损害。因此,大数据分析中的工作必须被沙盒化,以防止安全漏洞升级,从而防止未经授权的存储访问。
(解释理解:大数据存储的合规化转型,本质是从 “数据仓库” 向 “数据法庭” 的升级 —— 不仅要存储数据,更要存储数据的 “前世今生”,并以易于理解的方式向监管者、审计者和业务决策者证明数据的可信性。)
(沙盒和虚拟化技术是大数据环境中访问控制的补充防线,通过将分析任务限制在 “安全气泡” 内,即使某个任务被攻击,也无法扩散至整个系统。)
3)语义数据模型
大量异构数据源增加了数据使用者的开发成本,因为应用程序需要了解每个单独数据来源的单独数据格式。一个新兴趋势是通过语义网应对这一挑战,语义网通过建立不同数据的语义网络实现数据的共享与互操作。数据存储的需求是支持语义数据模型的大规模存储和管理。特别是需要进一步探索表达性和高效存储和查询之间的权衡。
(解释:语义网利用一些技术和标准,如资源描述框架(RDF)、本体语言(如 OWL)等,为数据添加语义信息,使得不同来源、不同格式的数据能够在语义层面上进行关联和理解。)
2. 大数据存储的发展趋势
1)NoSQL 数据库的使用增加
NoSQL 数据库,尤其是图数据库和列式存储,越来越多地用作关系数据库系统的替代或补充。例如,使用语义数据模型以及将数据与许多不同的数据和信息源交叉连接的需求大大推动了能够使用基于图形的模型存储和分析大量数据的需求。然而,这需要克服当前基于图数据库系统的限制。例如,Jim Webber 指出“图形技术将变得非常重要”。
在另一次采访中,时任雅虎欧洲和拉丁美洲研究院副总裁 Ricardo Baeza-Yates 也指出了处理大规模图数据的重要性(Baeza-Yates 2013)。其他项目包括 Google 的知识图谱和 Facebook 的图谱搜索,展示了知识图谱技术的相关性和日益成熟。
2)内存与面向列的设计
许多现代高性能 NoSQL 数据库都基于列式设计。其主要优点是在大多数实际应用中只需要几列来访问数据。因此,将数据存储在列中可以更快地访问。此外,面向列的数据库通常不支持来连接操作。相反,一种常见的方法是使用单个宽列表,该表基于完全非规范化的列式存储数据。
根据 Michael Stonebraker 的说法,“SQL 供应商将全部转向列存储,因为它们比行存储快得多”。
SAP HANA 等高性能内存数据库通常将内存技术与基于列的设计相结合。与在内存中缓存数据的关系系统相比,内存数据库可以使用反缓存等技术。研究表明,执行查询的大部分时间都花在了管理任务上,如缓冲区管理和锁定。
例如,在一个存储用户信息和其订单信息的系统中,如果使用面向列的数据库,可能会将用户的各种属性(如姓名、地址、电话等)以及该用户的所有订单信息(如订单编号、订单日期、商品名称等)都存储在一个宽列表中,而不是像关系型数据库那样将用户信息存储在一个表,订单信息存储在另一个表,然后通过连接操作来获取用户及其订单的完整信息。
3)与分析框架的融合
大数据存储逐渐由纯数据存储系统向集成分析数据库转变。在大数据项目中,越来越多的应用需要更好地分析可用数据以改善各个部门的运营状况。从技术上讲,这意味着对超越简单聚合和统计的复杂分析的需求增加。研究表明,对复杂分析的需求将强烈影响现有的数据存储解决方案。由于面向用例的特定分析是创造实际业务价值的最关键组件之一,因此扩展这些分析以满足性能要求以及降低整体开发复杂性和成本变得越来越重要。
毕设系统定制、课程教学、问题1对1远程解答,可联系村长QQ:330168885
需要购买本课才能留言哦~