科学的规划

PDF
科学的规划/2017年/文章

评论文章|开放获取

体积 2017年 |文章的ID 7392349 | https://doi.org/10.1155/2017/7392349

锡德拉湾费萨尔Mansoor萨瓦尔,Khurram沙赫扎德,沙赫扎德萨瓦尔,Waqar Jaffry,穆罕默德•穆尔塔扎Yousaf, 时间和数据仓库设计发展”,科学的规划, 卷。2017年, 文章的ID7392349, 18 页面, 2017年 https://doi.org/10.1155/2017/7392349

时间和数据仓库设计发展

学术编辑器:马里奥Alviano
收到了 2017年5月30日
接受 2017年10月16日
发表 2017年11月26日

文摘

传统数据仓库的数据模型(正式维度模型)不提供全面支持时态数据管理。根本原因是它需要考虑的几个时间方面,涉及不同的时间戳。事务系统,为数据仓库作为数据源,倾向于改变自己由于不断变化的业务需求。经典的维度模型缺乏处理事务来源的变化。这导致了不同的发展计划,包括进化的数据和数据模型和版本的维度模型的进化。这些模型都有自己的长处和局限性,但没有完全满足上述广泛的方面,很难比较提出方案。分析了方案满足这种挑战方面所面临的数据仓库,提出分类描述时态数据管理的现有模型的数据仓库。本文还讨论了一些开放的挑战。

1。介绍

今天,大多数应用程序相关的金融、记录,调度,天气预报需求时变性质的数据,以确定数据的趋势通过比较当前状态与它之前的状态。这些趋势的分析可能导致底层数据中的模式识别,预测未来,做出明智的决定1]。在缺乏数据的时变性质在交易系统中,用户可能会错过重要的趋势数据,也可能推断出错误的趋势(2- - - - - -4]。然而,时态数据管理这些应用程序是一项非常具有挑战性的任务。这是因为,除了时态数据管理,组织很可能改变自己,适应组织变更相应的信息系统也发生了变化(5]。这些变化的原因可能是新思想的实现,符合市场变化迫使和/或相关标准组织,或政府政策的变化。在这里,重要的是要注意,许多变化的本质不能预见,因为有很多因素相关,包括市场的动态特性,改变天气,政府新标准,不可预见的政策。

等各种时态数据模型(6,7)已经提出了时态数据管理;具体来说,数据库,可以通过使用暂时性存储和管理时变数据类型,称为时态数据库(TDB)。尽管tdb提供时态数据的管理,他们不能支持的基础上,分析历史数据聚合。然而,这些数据库可以作为有用的来源从而支持分析和决策支持。这样的一个数据库被称为数据仓库(DW)。DW是一家专业存储区域捕获处理和集成来自多个异构数据源的数据,其中可能包括tdb,用于分析(8]。Golfarelli组织者和Rizzi [9)认为,DW”迅速蔓延在工业国家由于不可否认的贡献增加决策的有效性和效率。“既然DW用于决策支持的数据,因此数据模型为DW应该设计在某种程度上,它是优化为此(10]。数据仓库的数据模型(也称为明星或multimultidimensional模型)由一个中央事实表和许多维度表围绕它。维度表中的值通常是文本,相对稳定,离散,用作分析输入条件的措施。支持各种水平的分析,维度表可能有层次结构。一个事实表包含所有其他维度表的外键和一个或多个措施描述感兴趣的主题的关键值。措施是nonkey和事实表中的数值。

DW取决于数据源的数据的人口,这是通过这一过程被称为提取、转换和加载(ETL)。然而,具有挑战性的任务是tdb的存在作为数据源。记得从前款规定,一个组织的变化本身和适应组织变更相应的数据库系统也发生了变化。这需要调整到多维模型(10),以适应变化引入的TDB [11]。

进一步调整成为挑战如果数据源异构和他们改变随着时间的推移,彼此独立的。这可能会导致两种类型的DW的修改,内容更改模式变化(4,10]。的内容更改包括插入、更新和删除操作记录模式变化包括添加、修改和删除一个属性或一个表中的数据仓库数据模型。总而言之,tdb的存在和变化导致时态数据仓库的发展(TDW)。DW的TDW需要考虑的几个方面,包括颞支持的数据模型(12- - - - - -16),改变其模式,改变它的数据(17- - - - - -21]。

我们的工作分析所面临的挑战方面TDWs和提出了应对这些挑战的解决方案。目前,研究分析TDW稀缺的功能(9,22),这些研究至少有下列限制:(a)他们关注解释时态数据库的概念和方法处理DW的变化但不旨在提供一个现有方法的比较分析,(b)他们是旧的,因此,不包括该地区的最新发展,以及(c)他们不提供比较颞支持现有方案中根据不同的时间戳。例如,Golfarelli组织者和Rizzi [9]讨论的处理模式和水平的变化数据仓库和数据集市,TDWs设计和查询时间数据。然而,他们不包括最近的努力如(23,24),以及这些方法的比较分析。Wrembel [22也重点关注的一个子集的方法,称为多版本数据仓库(MVDWs)。此外,它包括一个语言查询MVDW,以及共享数据和索引数据的详细结构MVDW。Wrembel [23]只讨论的挑战出现在设计、施工和管理的外部数据源以及ETL的进化层。所有这些方法不能提供比较的时间提供的现有方案的支持。

在本节的其余部分,我们提出一个工作示例来说明时间和演变DW的概念以及更好地理解问题。这是紧随其后的是时间和演变DW的分类法。

1.1。工作示例

今天,大多数应用程序相关的金融、记录、调度、天气预报等等需求时变性质的数据,以确定数据的趋势通过比较当前状态与它之前的状态。这些趋势的分析可能导致底层数据中的模式识别,预测未来,做出明智的决定1]。在缺乏数据的时变性质在交易系统中,用户可能会错过重要的趋势数据,也可能推断出错误的趋势(2- - - - - -4]。然而,时态数据管理这些应用程序是一项非常具有挑战性的任务。这是因为,除了时态数据管理,组织很可能改变自己,适应组织变更相应的信息系统也发生了变化(4]。这些变化的原因可能是新思想的实现,符合市场变化迫使和/或相关标准组织,或政府政策的变化。在这里,重要的是要注意,许多变化的本质不能预见,因为有很多因素相关,包括市场的动态特性,改变天气,政府新标准,不可预见的政策。

现有研究中,如(25),建议使用一个工作示例进行更好的理解DW的变化。因此,为了进一步了解可能发生的一些变化,在DW的结果改变数据源,考虑一个工作示例的销售公司在几个州运营。每个状态分为若干区域。公司有许多员工在这些地区运行。工作人员负责向客户出售许多产品分散在这些地区。销售公司维护客户和数据分析的城市和州。不同品牌的产品卖给客户,分为不同的分类根据其特性。考虑 DW的摘录概念数据模型描述1/1/2012(说 )在图1使用维度事实模型(DFM)形式,提出了(26]。

中央元素Sales_Fact如图1是一个事实表有两个措施,即Sales_Quantity ProfitEarned。围绕中央的五行元素维度,即产品、人员、时间、客户、和Product_Category。每个维度有弧形的层次结构显示了多对一关联,也就是说,多对一关联产品和品牌之间的产品尺寸和公司和品牌。这意味着一个品牌(说 )可以有许多产品说 )。同样,一个公司(说 (比如)可以有多个品牌 )。

调整是指两种类型的变化,可能在DW数据模型,模式变化内容更改(10]。(我)模式变化包括添加、修改和删除一个属性或一个表中的数据仓库数据模型(17]。(2)内容更改包括操作,如插入、更新和删除在DW的记录。

此后,我们使用 如图1说明这两种类型的变化。选择的动机变化的例子是工作示例和相应更改随后用于精细的时间和发展DW的纸。

模式变化。他们指的是DW的数据模型的变化。在定义模式变化的可能的设置操作17)插入,删除,插入属性,删除的属性,将属性连接到一个维度层面上,断开从维度级别属性,属性连接到一个事实,断开属性从一个事实,插入分类关系,删除分类的关系,事实上,删除,插入和删除维度。

对于销售公司的例子,考虑到1/1/2013(说 )分析需求导致DW一些调整数据模型。调整和相应的模式改变操作如下:(一)而不是分析每月的销售业绩,该公司有兴趣分析每周的销售业绩。在这里,改变操作删除水平和添加水平;(b),而不是分析Product_Type的销售业绩,公司分析感兴趣产品的品牌和他们的类型。改变操作因此成为连接属性维度级别和断开属性维度级别;(c)子类中定义每个产品类别。插入相应的操作水平和连接属性维度;(d)的公司分析QtySold不感兴趣。因此,这种情况下的相应的改变操作是删除的水平。DW数据模型生成的这些变化如图2(一个)

1/1/2014(说 )分析需求进一步导致一些调整DW数据模型。调整和相应的模式改变操作如下:(一)而不是分析每周的销售业绩,该公司再次感兴趣分析每月的销售业绩。相应的操作是插入属性变化,插入水平,和删除属性;(b),而不是分析产品的品牌(如在S1)公司由product_type简单地分析产品感兴趣,也就是说,与公司,但公司没有任何联系。类似于前面的变化,这些变化可以被映射到模式变化的操作。这些变化的数据模型生成的结果如图2 (b)

进一步,假设1/1/2015(说 )分析需求导致一些调整DW数据模型。调整是公司品牌的任何产品不感兴趣。DW数据模型生成的这些变化如图2 (c)

内容更改。他们指的是DW的内容的变化。可能设置的内容修改操作如下:插入一条记录,删除记录和更新记录的维度表和事实表。对于销售公司的例子,考虑员工维度表和事实表Sales_Fact图1。员工维度的层次结构中,员工被分配到区域。同样,考虑一组记录时间 (即。,1/1/2012) for 的维度和事实表如表所示1。从内容可以看出有两个分配区域,AR1 AR2。两个员工S1和S2属于AR1,而一个员工S3属于AR2。150年地区AR1 QtySold而AR2是100。


= 1/1/2012
分配区域 工作人员 销售

AR1 S1 One hundred.
S2 50
AR2 S3 One hundred.

考虑时间 (即。,1/1/2013) that a contention change occurs to the DW data model 根据变化,工作人员属于是搬到AR2 S2,表如下所示2。结果,QtySold地区AR1变成100和AR2变成150。这是一个例子的内容变化的DW,可能需要调整。上面介绍的两种类型的变化被用在其他的论文体现现有的方法。


= 1/1/2013
分配区域 工作人员 销售

AR1 S1 One hundred.
AR2 S2 One hundred.
S3 50

1.2。分类的时间和DW进化

回想一下,DW取决于数据源的数据的人口,称为联机事务处理,或OLTP。在OLTP时态数据管理,各种时态数据模型。OLTP,具体地说,可以被称为颞数据库存储和管理时变数据(TDB)。tdb的一个关键特性是,捕获的实体及其关系和维护以及它们的时间戳。这样的一个时间戳有效时间有效时间代表了时间的数据值是有效的。销售公司的例子,考虑一个工作人员 有月薪2000美元从1/1/2014 31/12/2014。同时,考虑到她的薪水增加10%来自1/1/2015使她工资2200美元。在这个例子中,有效时间工资的数额2000美元来自1/1/2014 31/12/2014,和有效时间工资2200美元来自1/1/2015直到新的值被添加。除了有效时间,事务时间TDB是另一种类型的时间戳。以来,DW取决于其数据来源,这可能是TDB;因此时间支持DW的本质是依赖于时间戳被TDB。这意味着,如果有效时间存储的数据项不是TDB,也许是不可能的有效时间DW的数据项。

由于本研究的目的是分析时态数据管理以及处理DW的变化,所以我们建立一个分类群的现有方法根据他们的特征。本文遵循给定的分类图3列出的特性。根据分类,明确区分现有方法的特点,时间支持在一个DW分开处理的变化以及从他们支持商业工具。这是第一级的分类所示。

下面的分类进行了总结。(我)时间支持在DW是必需的,特别是当它的来源是一个TDB (12- - - - - -15]。因此,我们把部分2讨论各种时间戳的洞察时态数据管理。时间戳是贴上暂时性类型的类型图。(2)处理变更在DW(召回模式数据更改),大量的努力(17- - - - - -21]。据埃德尔和Wiggisser [27]和埃德尔和Wiggisser [28),有两种方法可以处理这些变化:(a)更新模式,将现有的数据转换为新模式,丢弃模式,并使用更新后的模式对未来数据人口:这就是所谓的进化计划(2];(b)创建一个新模式,维护模式,和只使用新模式为未来人口数据(24]:然而,DW的模式可用于检索。的被称为版本控制计划。我们变化的分类处理是与讨论如图3。分类方案的细节以及类型的变化部分中讨论3(3)此外,分类法的最后一段是关于评估的适应性研究商业工具DWs。我们提供的概述的工具支持时态数据管理和处理变化DWs的领先供应商4

部分5本文总结并给出了一些未来的研究方向。

2。时态数据仓库

DW人口依赖于其来源数据;因此,如果对一些业务对象的数据,并没有被纳入其来源,业务对象很可能不能使DW设计的一部分。唯一的例外是涉及外部数据源中提取信息缺失。销售公司的例子中,如果Customer_Gender数据没有保存在源OLTP,它不能被设计为DW数据模型的一部分。然而,它是可能的,包括一些外部数据源,如社交网络身份或客户名称,我们可以推导出/提取Customer_Gender。符合,如果时态数据管理不属于数据源,时态数据管理很可能不能使DW的一部分。由于这种依赖性的DW的数据源,我们讨论的时态数据管理以及在DW来源。我们还讨论如何TDB中的时间戳的意思,说有效时间DW的不同。之后,我们讨论了特殊情况一个时间戳可以DW的一部分,即使它不是源OLTP的一部分。下面,我们解释了时间戳的上下文中及其含义OLTP和DW来源。

时间戳的OLTP来源。捕获的数据模型时变信息叫做时态数据模型或时序模型。在时序模型、对象及其关系提供时间戳。对于oltp来源,两个关键时间戳有效时间(VT)和事务时间(TT) [15,29日,30.]。

如果源OLTP快照系统,它支持VT发现变化和比较数据与之前的数据的副本。VT表示这段时间数据保持不变和真正的在现实世界中31日]。用户指定的值的VT。销售公司的例子,考虑一个工作人员 有月薪2000美元从1/1/2014 31/12/2014。同时,考虑到她的薪水增加10%来自1/1/2015使她工资2200美元。在这个例子中,工资的金额2000美元的VT 1/1/2014 31/12/2014, VT的工资2200美元来自1/1/2015直到新的值被添加。

如果数据源是一个日志系统支持TT争取所有活动日志文件。TT tdb定义了时间即时当系统执行一个事务与活动在现实生活中。具体地说,它代表数据是当前的时间戳和可收回并仍在逻辑上存在于数据库31日]。当数据在数据库中修改,其相应的TT也相应的改变了。事实上,TT是完全由系统维护和用户不允许修改它3]。前款规定的工资例子,TT的工作人员 ,有月薪2000美元的有效时间1/1/2014 31/12/2014,是当时的工资2000美元进入了系统。这里重要的是要注意,没有必要的工资数额2000美元进入1/1/2014,这意味着实际工资数额可以进入系统之前或之后,TT 1/6/2014说,它可以适用于从先前的日期,说1/1/2014。同样,适用前的工资数额可以输入时间。

时间戳为DW。DW,数据模型的维度,事实,和/或他们的关系可以提供时间戳。DW,关键时间戳是VT, DW TT,加载时间(DWLT) [15,32]。这三个时间戳的简要描述如下。

DW, VT代表的时间维度和聚合数据仍然是真正的在现实世界中。VT在DW很重要,因为它允许正确的聚合的措施(33];在缺乏VT误导聚合可以生成的措施。销售公司的例子,总金额支付给员工 因为1/1/2014可以乘以计算员工的工资几个月,说18个月。从目前的薪水是2200美元,支付总额 变成了39600美元。然而,考虑到工资2000美元的VT 1/1/2014 31/12/2014和VT的工资2200美元来自1/1/2015迄今为止,给定的聚合的措施是误导性的。正确的金额支付成为37200 ( )。这种差异在两个聚合越来越误导随着时间的流逝。

回想一下,TT用于OLTP表示时数据来源是“当前”;也就是说,TT改变当源中的数据被修改。然而,数据在DW为每个单独的数据变化修改和删除。因此,在DW TT生成TT的OLTP(来源有不同的含义32]。有两种可能性:(a)携带源DW TT和(b)来生成一个新的时间戳,名为DW加载时间(DWLT)。在前一种情况中,TT定义了实例,当数据被记录在OLTP来源;即在DW TT的价值是一样的OLTP的价值来源。在后一种情况下,DWLT生成相同的方式生成TT OLTP的来源。在这里,它定义了即时记录或修改时在DW加载。对于薪水示例,在源OLTP, TT的员工 工资是1/6/2014和TT的人员 工资是2/6/2014。对于这个数据修改,DWLT总是大于TT源OLTP的;也就是说,对于 ,DWLT 1/6/2014午夜(即可以是任何时间。就是) DWLT 2/6/2014午夜后可以在任何时候。因为数据不能提取OLTP,直到插入到OLTP。

2.1。在数据仓库时间支持

DW中提供的时间支持主要取决于源提供的时间支持oltp以及分析的需要。在这里,我们描述了各种可能的可用性时间戳在OLTP和DW的支持特定的时间戳。有六个可能性,如表所示3下面讨论。


情况下 源OLTP DW
VT TT VT TT DWLT

1 没有 没有 没有 没有 是的

2 是的 没有 是的 没有 是的
3 是的 是的

4 没有 是的 没有 是的 是的
5 是的 是的

6 是的 是的 是的 是的 是的

有一个特别的解释(见说明)。

案例1描述的场景当没有时间戳(VT和TT)源OLTP和决策中提供用户想知道源数据的历史。在这种情况下,DW不能支持VT或TT的来源。然而,总体措施可以加上时间戳DWLT代表聚合时被加载到DW。特殊符号( )与DWLT代表的值可能是也可能不是“是的”,根据用户。特殊符号是用来表示这个时间戳是可以使用独立的来源和存在的独立源OLTP的任何时间戳。工资增加的例子中,如果的VT和TT总额支付给员工 不知道是不可能支持VT或在DW TT。然而,它可以加上时间戳标记值加载在第二季度的结束。

案例2描述当VT的场景中提供源OLTP和TT没有提供。在这种情况下,DW可以支持VT但不能支持TT的来源。工资增加的例子中,如果VT的总额支付给员工 在源和TT不是给定的,可以计算的真实价值在DW支出金额。然而,由于现在还不知道工资数额时进入源OLTP前几年期间,不能被更新的时间戳。这意味着真正的总量计算和综合措施可能与DWLT带时间戳的。然而,变化无法追溯。

案例3描述中提供的场景当VT OLTP和TT没有提供来源。在这种情况下,DW可以支持VT但不能支持TT的来源。然而,可以生成一个新的TT在DW TT一样生成OLTP的来源。新的时间戳(正式DWLT)允许知道数据插入时,DW的删除或修改。然而,DW数据删除和修改为每个实例变化;因此这个新的时间戳的确代表了时间的时候加载到DW (7,32]。所以,TT DWLT可以和他们的价值是一样的。这是一个特殊情况与特定的解释TT是带星号( )表3。DWLT的价值是标有星号来表示,每个实例的值将与TT相同。这种情况下的另一个区别是一个时间戳(TT)在这种情况下,可以提供给DW,即使它源OLTP (TT)不可用。工资的例子中,假设,在源OLTP, TT的员工 工资是不得而知,但VT(说,1/1/2014 31/12/2014)而闻名。从这些数据,是不可能知道什么时候输入量在源OLTP但它可以了解插入时因为DWLT DW, 30/06/2014说。因为这是一个插入的DW TT的意义一样,因此,可以说,TT的价值是30/06/2014就是。

例4描述了场景当TT源提供的支持是OLTP和VT没有提供。在这种情况下,DW TT但不能支持VT。这是最简单的情况下,不需要任何说明。

例5描述了场景当TT源提供的支持是OLTP和VT没有提供。在这种情况下,它可以支持TT和VT;也就是说,根据(3]VT可能提供给DW TT和DWLT之外。在这里,TT DW的来源是用作VT。这意味着,当输入的值是在源OLTP,输入值变得有效,直到系统中输入一个新值。这是一个特例,一个时间戳(VT)可以提供DW,即使它在源OLTP (VT)不可用。该病例是与“斜体字体”表中定义。加薪的例子,假设一个薪水2000美元被记录到系统中与TT 1/5/2014价值,没有指定VT。后来,新的2200美元的薪水和TT 1/1/2015值被记录在系统中没有指定VT。在这种情况下,工资2000美元的VT 1/5/2014直到1/1/2015 VT的工资2200美元从1/1/2015到新值记录在系统中。

案例6描述了场景中,当两个时间戳(VT和TT)是OLTP提供的来源。在这种情况下,VT和源移动到DW TT DWLT也生成(32]。这些时间戳的存在提出了一致性问题。为了处理这些问题,布鲁克纳和Tjoa [50)提出一个概念模型来描述如何管理时间的一致性。例如,年薪2000美元的VT 1/1/2014 31/12/2014是记录在1/5/2014 TT(事务时间1)的数据源。后来,2200美元的新工资的VT 1/1/2015直到“现在”记录在1/1/2015 TT(事务时间2)的数据源。在这种情况下,当执行ETL第一季度末(31/3/2014)工资的价值是不清楚。所以是因为薪水2000美元的TT 1/5/2014;即在31/3/2014价值系统中还没有进入。然而,当执行ETL第二季度的末尾(30/06/2014),工资的价值和有效性可用从先前的日期(1/1/2014)。虽然有些VT之间的延迟发生,TT, DWLT,然而,用户可以在不同的时间瞬间分析值。

2.2。分析颞DW的支持

在最初的一部分这一节中,我们解释了各种源OLTP和DW中可用时间戳。前面的小节解释了各种情况下,颞支持可以提供在DW的依赖DW OLTP来源。在本节中,我们分析和比较现有的研究支持这些时间戳。选择现有的研究,我们在主要学术数据库使用时间等几个关键词DW,时态结构在DW,多版本的DW,模式演化在DW,变更管理在DW, DW维护。检索到的文章进行评估的相关性研究运用的范围关联筛选过程(51]。比较研究选择颞DW提出了表的支持4


方法(姓,年) 参考 VT DWLT

(Blaschka, 2000) (2]
(Abello和马丁,2003) (3]
(B̧埃贝尔et al ., 2004) (4]
(Koncilia, 2003) (7]
(Sarda, 1999) (13]
(Ravat和证人,2000) (14]
(布鲁克纳et al ., 2001) (15]
(Blaschka, 1999) (17]
(马洛塔,2000) (18]
(Letz et al ., 2002) (19]
(成熟et al ., 2004) (20.]
(Rechy-Ramirez Benitez-Guerrero, 2006) (21]
(Bliujute et al ., 1998) (29日]
马林诺夫斯基(Zimanyi, 2006) (32]
组织者(Rizzi, 2007) (34]
(Golfarelli et al ., 2004) (35]
(埃德尔et al ., 2003) (36]
(身体et al ., 2003) (37]
(只熊掌,2001) (38]
(Vaisman et al ., 2004) (39]
(皮德森et al ., 2001) (40]
(Mendelzon和只熊掌,2000) (41]
(Chamoni和股票,1999) (42]
(Hurtado et al ., 1999) (43]
(Solodovnikova, 2007) (44]

在表4,列出了研究考虑的比较第一个列。的第二个列解释源OLTP的VT是否显式地包含在DW与否。的第三列表示TT源是否加载在DW TT的来源。值“+”代表TT从源加载在DW TT。在这种情况下,它可能分析值改变时OLTP的来源。例如,工资增加的例子中,当工资数额记录源OLTP,价值“−”意味着在DW TT不可用;而不是像DWLT生成一个新值。在这种情况下,它是不可能分析当工资被记录的价值来源但可以记录当加载在DW的价值。的第四列表示是否DW TT的来源是用作VT。值“+”意味着在DW TT从源加载VT。在这种情况下,有可能分析工资的真正价值基于TT记录在来源。值“−”表示,该计划不允许DW TT用作VT。在这种情况下,它是不可能分析的有效性时间工资和误导性的总量可能生成。

从表4可以看出,近一半的研究计划支持VT和另一半没有。不支持VT的计划,这将是具有挑战性的,以避免误导总量的一代。除此之外,DWLT可以用作时间戳即使没有时间戳的OLTP来源。然而,它可以观察到,多数计划不支持DWLT。对于这些方法,它将不可能直接决定和通知调整的时机DW实例化(即。、调整负载频率)。在某些情况下,决策者可能会延迟信息。例如,在销售公司的例子也不可能立即知道销售额的上升或下降,当他们发生时,直到下个季度。因此,什么时候股票的决定应该可用可能没有时间。另一个观察的惯例是忽略TT来自来源。然而,用这种方法可追溯性程序,如欺诈检测无法实施。 Therefore, it is discouraged to ignore the TT coming from source in cases where it may be required to retrack events that might happen. Abello and Martín [3TT)变换从源系统代表了TDW VT。这在语义上是不正确的,因为数据可能被包括在数据库后有效期过期了,例如,客户之前的地区。

观察水平趋势显示,如果计划支持TT然后它还支持VT;如果不支持VT那么所有其他不支持时间戳。这表明现有方案支持暂时性重视VT因为它可能产生误导的总量。

然而,较少的研究(15支持所有的时间戳。这些都是有效的技术,通过使用正确的聚合,提供事件可以retracked和调整加载频率。

3所示。处理数据仓库元数据的变化

2.1我们阐述了依赖的DW OLTP各种时间戳,6例。同样,如果源OLTP改变随着时间的推移,DW可能导致维护异常(52)和DW可能需要调整。开发、实例化和维护是为了促进决策者查询DW的决策支持。因此,除了DW处理、查询数据的模式和内容变化成为一个重要的任务。

各种解决方案关于DW调整可用来处理模式数据更改在oltp来源。调整DW的另一个原因可能是不断变化的业务需求。例如,措施可能会变得过时,维度级别上删除,添加新的水平,或者时间粒度是改变。在销售公司的例子中,删除日期和星期从时间维度是时间粒度变化的一个例子。这种变化可以观察到的数据2(一个)2 (b)。总收入在图2(一个)成为过时的图2 (b)这是一个测量变得过时的例子。同样,删除维度级别的例子中可以看到,添加新的水平数据2(一个)2 (b)

埃德尔和Wiggisser(2010)描述了两种方案的调整DW: (a)更新模式,将现有的数据转换成新模式,丢弃模式,并使用更新后的模式对未来数据人口:这些被称为发展计划(17];(b)第二方案包括创建一个新的模式,维护模式,和只使用新模式为未来人口数据(24]。然而,这两个模式可以用于DW的检索。这些被称为版本控制方案。类似于时间的情况下,有6例改变处理方案如表所示5之后,他们解释说。


情况下 DW的变化 改变处理方案
模式 数据 进化 版本控制

是的 是的 是的 是的

是的 没有 是的 是的

没有 是的 没有 没有
是的 是的

没有 没有 没有 没有
是的 是的

特别的解释(见例描述)。

案例1描述了场景当DW模式和数据都改变了由于源OLTP的变化。在这种情况下,两者都有进化版本控制可以使用方案。如果发展计划,DW模式发生了变化,现有的数据转换到一个新的模式,和之前的模式就会被丢弃。这种情况下的一个关键限制模式变化不供决策者的使用和数据的变化可能是也可能不是提供给用户。销售公司的例子,考虑图2 (b)改变的方式品牌被移除(模式变化)并对品牌也丢弃的数据(数据改变)形成图2 (c)。进化之后,品牌属性以及属性中的数据不会被提供给用户,这意味着QtySold和ProfitEarned无法对品牌进行了分析。然而,如果一个版本控制方案,创建一个新的DW模式和维护模式,但对于未来的实例化图2 (c)就会被使用。销售公司的例子,丢弃品牌的变化,图2 (b)模式以及图2 (c)模式将保持。之后,它仍将可以分析QtySold和ProfitEarned品牌时间 然而,随后分析将不会提供给用户。

案例2描述了场景当DW模式改变但是数据不会改变。在这种情况下,两者都有进化版本控制可以使用方案。如果一个发展计划使用现有的数据转换为新模式和先前的模式就会被丢弃。然而,这种变化不需要任何数据DW的变化。类似于前面的情况下,模式变化没有决策者,但数据不需要发生变化。销售公司的例子,考虑图2(一个)改变的方式添加(模式变化)形成图2 (c),但在DW的数据不需要任何改变(没有数据改变)。这种演变后,新添加的属性将用于未来的实例化。这意味着这两个指标,QtySold ProfitEarned,不能分析状态,但这些措施的分析将在未来的实例化。如果一个版本控制方案,创建一个新的DW模式和维护模式,和图吗2 (b)模式将被用于未来的实例化。销售公司的例子,在这个时刻,它将不可能来分析这两个指标,QtySold ProfitEarned,对国家,但这些措施的分析将在未来可能的实例化。

案例3描述了场景DW模式没有改变,但数据时发生了变化。这是新记录的情况下被添加到DW, ETL过程的结果。如果是这样的话,那么两个进化版本控制计划可能不需要。

例4描述了场景DW模式没有改变,但数据时发生了变化。这是一个特殊的可能性数据的修改这可能导致模式的改变。对于这样一个变化,例3转化为例1,模式和内容都发生了变化。在[4)提出了一个解决方案来处理这个特殊的可能性数据的修改多版本数据仓库。由于这种区别这个模式的价值变化是标记( )。

例5描述的场景在DW模式和数据不会发生变化。在这种情况下进化版本控制不需要计划。然而,DW变成一个快照;也就是说,没有变化发生在DW的内容。在这种情况下,分析逐渐过时的措施,减少对用户有用。销售公司的例子,这时可以分析这两个指标,QtySold ProfitEarned,对状态,直到最后更新,31/6/2015说。然而,这些措施将成为过时的值之后如果不更新,减少对用户有用。

案例6描述的场景在DW模式和数据不会发生变化;然而这两个进化版本控制可以使用方案。在这种情况下,变化的原因需要调整DW的不断发展的业务需求。不断变化的业务需求,例如,改变了时间粒度,维度级别上删除,添加一个新的水平。这些不断变化的业务需求可能导致DW的变化模式。由于这种区别,这种模式的价值变化是标记( )。

在本节的其余部分,我们进一步阐述进化版本控制计划与一个说明性的例子模式数据变化和比较现有方法相应的方案。

3.1。发展计划

进化计划只支持一个版本的DW模式(即。,当前版本)模式数据的变化。在进化过程中,首先更新模式,然后从旧模式转换的数据到新的模式,并丢弃的旧模式。然而,它涉及很高的维护成本。这些计划时间戳数据在不同时期并将它们存储在新模式。研究[2,13,17- - - - - -20.,39,43)描述的一些方法可以用于这一目的。计划管理的比较研究模式数据更改需要分析的各种参数。之前进行不同方案的比较,我们描述相对应的操作模式和数据更改。

模式变化模式变化如增加每周分析修改源OLTP模式和这种变化也可以导致DW的结构调整。模式变化的一个说明性的例子可以看到通过比较数据的时间维度12(一个)模式变化可以创建/删除维度,事实上,等级,级别,成员属性,测量,和层次结构的水平运动。这些变化是进化后用于比较现有方案,如表所示6。五个原子更新运营商应对这些变化与水平,unrelate水平,删除水平,概括,专业。这些操作是解释和说明在本节的其余部分。插图,我们依赖于销售公司提出的工作示例部分1。2。具体来说,摘录的销售公司,也就是说,产品尺寸,见表2是用来说明原子操作符。


发展计划
(姓)
引用 水平的变化 模式水平变化
模式 数据 事实 层次结构 水平 属性 测量 水平运动

(Blaschka, 2000) (2]
(Sarda, 1999) (13]
(Blaschka et al ., 1999) (17]
(马洛塔,2000) (18]
(Letz et al ., 2002) (19]
(成熟et al ., 2004) (20.]
(Rechy-Ramirez Benitez-Guerrero, 2006) (21]
(Bliujute et al ., 1998) (29日]
(只熊掌,2001) (38]
(Vaisman et al ., 2004) (39]
(Hurtado et al ., 1999) (43]

请注意。在[18),从源模式和支持属性和关系的变化。其他计划支持的变化出现由于不断变化的业务需求。

与水平运算符指定两个维度之间的上卷操作水平。变化是在这样一种方式,所有变化前的水平仍然是可获得的。在图4 (b)、品牌和类别产品的两个层次维度。建立一个品牌和类别之间的关系,用一个箭头表示,就是一个例子与水平操作符。除此之外,Prod.ID和分类关系被作为抵押品的行动,因为它仍是有可能从Prod.ID达到类别通过品牌。这个删除关系用虚线表示在图4 (b)

unrelate水平运营商删除两个水平之间的关系。类似于前面的情况下,变化是在这样一种方式,改变前的水平仍然是可获得的。在图的例子4 (c)unrelate类别和公司水平,类别之间的关系和公司水平被删除。为了确保可达性,创建一个新的类别和之间的关系。由于这种新关系,仍然可以达到所有即使类别和公司之间的关系被移除。

删除水平运营商删除水平及其与其他的关系水平。的变化是在这样一种方式完成删除以上水平还可以。在图的例子4 (d)、删除操作在品牌层面上删除Prod.Id和品牌和品牌和公司之间的关系。Prod.Id然后创建一个新的关系和公司实现企业水平,原本可以通过品牌的水平。

概括操作符添加了一个新台阶,卷起现有水平。最后,专业操作符创建一个水平和演习的最低水平,从而使维度层次结构中的最低水平。

6提供了一个比较分析各种进化基于支持计划模式变化。表中“+”符号代表的类型变化是由该方法和“−”标志代表的类型变化不是由该方法处理。这些参数是DW的元模型元素设计中描述53]。指示元素的水平进化DW中提供支持。的元素作为参数维度,事实上,层次结构,水平,属性和度量。

表显示,多数计划的支持模式内容更改。在这些方案中,在21)概念模型提出了DW模式,促进了DW的修改模式以实现独立的方式,而不影响其业务。同样,作者在29日)处理缓慢变化维度以及state-oriented数据没有从根本上改变设计。Letz et al。19]另一方面阐述如何更新操作维度可以用来保持一致性,而Sarda [13和Hurtado et al。43)提供一个正式的模型定义为维度更新模式和原始操作符。大多数这些计划的一个关键不足是他们专注于处理维度变化而忽略聚合物(措施),尽管真正的使用DW与聚集相关联。这当然并不意味着维度更新并不重要,而是我们认为足够的不注意总量。Sarda [13)是重要的例外,显式地定义了修改操作员插入和删除等事实事实或插入维度级别的事实。

数据更改数据更改如插入的新产品数据源的数据不能修改源OLTP模式。然而,这些变化可以修改DW的结构。表中给出了一个说明性的例子,这种效应12分配区域的工作人员在哪里 从AR1 AR2。这种变化需要调整DW的处理模式。包括实例级的变化转换,合并,分裂,重新分类,创建,删除(s)的成员。例如,一个品牌的可能分裂成两个或两个以上的品牌,或两个品牌合并后的成一个品牌。类似地,可能是一个成员改变了由于一个属性改变名称或含义,或一个维度成员重新分类的维度结构。此外,一个品牌添加或现有的品牌删除。这些变化是用来比较现有进化处理方案的能力数据更改

7提供了一个比较分析各种进化基于支持计划实例的变化。相比较而言,我们主要使用可以在可能的变化实例级在前款规定的讨论。这些成员的创建、删除、转换、合并、分裂,或重新分类。此外,我们还考虑是否共享维度。


发展计划
(姓)
引用 实例级的变化 共享维度
成员创造 删除成员 转换 合并 分裂 重新分类

(Blaschka, 2000) (2]
(Sarda, 1999) (13]
(Letz et al ., 2002) (19]
(成熟et al ., 2004) (20.]
(Rechy-Ramirez Benitez-Guerrero, 2006) (21]
(Bliujute et al ., 1998) (29日]
(只熊掌,2001) (38]
(Vaisman et al ., 2004) (39]
(Hurtado et al ., 1999) (43]

从表中我们观察到实例的水平转换、合并和分裂不支持现有的方案。另外,减少维度支持星座模式,即共享维度与多个事实表。然而,一些方法如(19支持创建和删除维度成员同时保持一致性。这是通过分析模式,检测可能发生冲突的水平,通过插入或重新分类和执行修改。

3.2。版本控制方案

版本控制方案支持多个版本的DW模式。版本可能是隐式或显式。

版本控制方案支持多个版本的DW模式两种模式数据的变化。在版本控制,模式更改为一个新模式,同时保持模式。为将来的使用实例化新模式,但是这两个模式可以用于查询。版本不涉及高维护成本相比,进化,但来自多个版本的查询和显示结果的方式成为一个具有挑战性的任务,也会影响结果的解释(细节部分3.2。1)。

根据Solodovnikova [44),有两个版本DW的方法,隐式的版本管理和显式的版本控制。在隐式的维护版本,两个版本的模式和转换函数定义记录调整DW (54]。在显式的版本,两个版本的模式以及数据维护(48]。每个版本都代表一个模式和数据版本。由于版本的存在,比较基于DW的版本控制方案设计元素(用于部分2)不是很有趣。另一方面,由于存在多个版本的更大的挑战是查询DW和解释结果。在版本控制的存在只从数据分析数据的关注以及变化分析。因此,对于版本控制方案的比较我们依靠另一组元素,如cross-versioning查询,增强模式和多版本的事实。下面,我们分别讨论了两种类型的版本控制方案。

3.2.1之上。隐式的版本控制

隐式的版本控制方案、版本记录含蓄地通过提供时间只对DW的扩展模式。Chmiel [45)提出了一个位图方法之间共享数据的多个版本。组织者然而,Rizzi [55)认为,使用位图方法的限制假设分析,因为处理查询检索的数据跨多个版本共享是一项非常具有挑战性的任务。由于查询版本的具有挑战性的性质,这些计划需要进行比较研究,分析各种参数对查询DW。查询多版本DW(隐式版本)可以切一个版本查询搜索数据在一个版本,或一个历史查询,搜索进化版本,或两者的结合。Cross-version跨越多个模式版本的查询。Golfarelli et al。25]提出的使用增强模式查询cross-version数据时增加灵活性。根据这种方法,每当一个新生成模式版本,一个增广的模式是由代表新模式和扩展了以前的模式。增强模式存储在一起模式版本。除了增强模式,一些方法,例如,(21),提出了一个扩展DW SQL查询。一旦检索数据,解释结果也是具有挑战性的。因为在版本控制的存在只从数据分析数据的关注以及变化分析。

销售公司的例子,工作人员 员工维度的重新分配的分配地区AR1 AR2在2012年至2013年之间,如图5。假设2012年和2013年的数据,表中给出8


2012年 2013年
分配区域 工作人员 销售 分配区域 工作人员 销售

AR1 S1 One hundred. AR1 S1 One hundred.
S2 50 AR2 S2 One hundred.
AR2 S3 One hundred. S3 50

销售这个词是QtySold测量的一个别名。

样例查询”找出每个地区和销售总额年”可以解释在三种不同的可能的方法。的第一个解释给每个特定区域相对应的销售金额,如表所示9(一个)。第二个解释返回销售额的基础上,考虑分配地区一直是结构化的,这些都是在2012年,作为代表在表9(b)。最后,第三解释返回基于假设分配区域的销售额一直随着这些现在2013年,如表所示9(c),上,下,和水平箭头“进化”列显示销售是否分配地区上升,下降,从2012年至2013年或保持不变。

(一)查询解释我

分配区域 2012年 2013年 进化

AR1 150年 One hundred.
AR2 One hundred. 150年

(b)查询解释二世

分配区域 2012年 2013年 进化

AR1 150年 200年
AR2 One hundred. 50

(c)查询解释三世

分配区域 2012年 2013年 进化

AR1 One hundred. One hundred.
AR2 150年 150年

上面的例子表明,结果可能极大地改变或甚至可能是矛盾的,这取决于查询的解释。因此,它是必要的指导关于可能的解释的最终用户的选择。让我们假设分配地区AR1 AR11分成两个区域,AR12 2014年,如表所示10


2013年 2014年
工作人员 分配区域 销售 工作人员 分配区域 销售

S1 AR1 One hundred. S1 AR11 150年
AR12 50

相同的查询”找出每个地区和销售总额年”又可以解释在三种不同的可能的方法。的第一个解释给每个特定区域相对应的销售金额,如表所示11(一个)。第二个解释返回销售额的基础上,考虑分配地区一直是结构化的,这些都是在2013年,如表所示11(b)。这信件非常简单,只需追加收购AR11和AR12分配区域的销售。的第三解释返回结果的基础上,考虑分配地区一直是现在这些都是在2010年,如表所示11(c)。在这里,需要额外的信息来计算分配区域的销售额AR11和AR12在2013年。额外的信息可以在估计百分比的形式。

(一)查询解释我

分配区域 2013年 2014年 进化

AR1 One hundred. - - - - - - 吗?
AR11 - - - - - - 150年 吗?
AR12 - - - - - - 50 吗?

(b)查询解释二世

分配区域 2013年 2014年 进化

AR1 One hundred. 200年

(c)查询解释三世

分配区域 2013年 2014年 进化

AR11 (AR1的40%) 40 150年
AR12 (AR1的60%) 60 50

上面的例子表明,第一个解释结果不太详细,但显示真实的数据相比过去解释近似。然而,它不能促进的发展数据,因此,数据结构映射到最新版本。此外,它还显示了显著的要求从源和映射数据,最后,数据可靠性。

进行分析和解释,可以使用详细和聚合数据。由于需要详细的数据日常决策任务,因此当前数据应该和访问延迟应该最小化。DWs促进这种支持是主要任务(6]。它是如此,因为延迟的发现真实的变化导致延迟传播DW的这些变化。因此,DWs可能遭受时序一致性的问题当真实的变化被发现后延迟。一致性的原因,分析应用程序需要时间组件的数据模型。暂时的一致的信息表示是一个稳定的历史数据在任何时候不管传播延迟。因此暂时一致的信息的一个关键方面的比较。

方案的比较研究,隐式地记录DW版本,应该考虑各种参数的分析。但是,由于版本的存在,DW设计元素(用于部分2)基础比较有趣。从上面的讨论,我们得出结论相反,更大的挑战是查询DW,解释结果,暂时一致信息的可用性。是这种情况因为没有版本的决策用户没有访问跨版本和数据,因此,分析的类型,可以支持是有限的。对应于这些挑战,版本控制方案的比较我们依靠以下参数:cross-version查询,增强模式,多版本事实表,暂时一致表示的信息(TCR)。表12总结了各种方案的比较分析基于上述参数。


TDW方法
(姓)
参考 水平的变化 版本支持
模式 数据 Cross-version查询 增强模式 MV事实表 细胞受体

(Koncilia, 2003) (7]
(Solodovnikov et al ., 2015) (10]
(Manousis et al ., 2015) (24]
马林诺夫斯基(Zimanyi, 2006) (32]
(埃德尔et al ., 2002) (33]
(身体et al ., 2003) (37]
(只熊掌,2001) (38]
(Mendelzon和只熊掌,2000) (41]
(Chamoni和股票,1999) (42]
(Solodovnikova, 2007) (44]
(Chmiel, 2010) (45]
(康和钟,2002) (46]
(Quass Widom教授,1997) (47]

请注意。在[44隐式和显式版本都支持。

从表中,可以观察到,多数计划支持模式和数据的变化。也可以看出,没有研究提出增强模式的使用,因为这些计划隐式地记录时间扩展和数据是共享的,例如,通过位图的方法(45]。这限制了“改变”的历史分析。然而,一些研究如(33,41,44)识别的挑战感兴趣的查询数据时,数据分布和共享版本。其中,作者在33)提供时间属性的所有元素DW元模型和支持cross-version查询,以及fact-constellation方案。Chmiel [45]另一方面集中在优化查询。另一个观察是几个方法,37,38),支持多版本事实表。身体et al。37支持模式和实例级变化和复杂的层次结构。同时,研究介绍了信心的观念因素,暂时一致的表示信息(TCR),多版本事实表,时间维度,和时间的关系。自信的价值因素区分映射的数据从源和描述数据的可靠性。例如,一个可以描述的范围值的信心因素作为源数据,暂时一致的数据,精确或近似映射数据,或未知的映射关系。

3.2.2。明确的版本控制

在明确的版本计划,DW版本保持明确,导致更好的查询性能,因为这些计划不需要模式转换功能。这样的计划处理DW的变化内容结构通过使用多版本DW (MVDW),代表模式数据在一个特定的时间。处理数据的版本的一个方法是物理数据的副本存储在DW的每个版本。在DW版本明确存储和不需要转换函数,cross-version查询运行得更快。但这种方法是不合适的,如果大小的DW tb,需要大量的额外的磁盘存储为每个版本存储数据。因此,一个时空查询性能和磁盘存储之间存在权衡。此外,它会导致更新异常,数据冗余,系统开销持续管理多个数据拷贝。

明确的版本计划支持的假设功能明确维护记录所有模式版本的身体保持不同的数据版本。DW可以采用改变操作,比如插入、更新和删除。此外,复杂的操作,如分割、合并、和移动也可以使用这些基本操作执行。图6显示了如何通过改变这些操作。在结构版本SV3维度成员的猫2已经分裂成猫3和猫4用猫的删除操作2猫和插入操作3和猫4。在SV4维度成员的猫3和猫4合并在一起,形成成员猫吗2。合并的目的是通过两个操作,删除猫3和猫4和插入猫2

类似于隐式版本控制计划,明确的版本控制方案的比较研究,我们依靠以下参数:cross-version查询,增强模式,多版本事实表,暂时一致表示的信息(TCR)。表13总结了方案的比较分析,明确每个DW版本的存储数据。


TDW方法
(姓)
参考 水平的变化 版本支持
模式 实例 Cross-version查询 增强模式 MVFact表 细胞受体

(Solodovnikova, 2007) (44]
组织者(Rizzi Golfarelli, 2007) (34]
(Wrembel Bębel, 2007) (48]
(Golfarelli et al ., 2006) (25]
(Rechy-Ramirez Benitez-Guerrero, 2006) (21]
(Morzy Wrembel, 2004) (5]
(海et al ., 2016) (1]
(Bellahsene, 1998) (49]

从表中我们观察到两项研究中,25,34),实现使用增强模式支持cross-version查询。Golfarelli et al。25)提供证据,输入查询可以映射在版本和讨论了summarizability DW航行时崩溃的问题。具体地说,它使用图表来表示DW模式和定义了代数模式操作。每当创建一个新版本,创建一个增强模式增加cross-version查询的灵活性。它讨论了一致的运动模式之间的数据版本控制。此外,作者的34)讨论一个原型的开发管理和查询在DW版本。原型的概念是基于增强模式增加cross-version查询的灵活性。

另一个观察是两项研究,5,21),扩展SQL查询DW的多个版本。Rechy-Ramirez和Benitez-Guerrero21)提出了一个类似于sql的语言,允许用户表达进化需求。语言的范围仅限于多维数据集的创建和修改版本。Morzy和Wrembel5]另一方面扩展SQL语言,并构建一个接口来表达cross-version查询。查询分为几个独立的部分查询,每个特定的DW版本上执行。后,局部查询的结果结合得到所需结果。同时,他们开发一个GUI可视化查询和结果。查询扩展在增强模式的好处是,它提供了灵活的查询和查询规范,更多的控制而增加的复杂性同时查询规范。

4所示。商业数据仓库工具

有几个商业DW系统在市场上和OLAP工具。市场价值而言,最重要的是IBM DB2, SAP业务仓库,Oracle Express服务器,安格尔决定基本OLAP服务器,NCR Teradata, Sybase服务器自适应企业,亥伯龙神Essbase OLAP服务器。表14显示了一个比较的工具的支持对DW处理更改。类似于前面的表,表中“+”符号表示支持各自的变化是可用的工具,“−”迹象表明支持变化不是可用的工具,和“+ /−”符号表示支持的变化取决于类型的变化;即支持改变可能是也可能不是可用的工具


工具 发展计划 版本控制方案
模式的改变 数据的修改 模式的改变 数据的修改 Cross-versioning查询

IBM DB2
SAP业务仓库
甲骨文Express服务器
安格尔决定基本OLAP服务器
NCR Teradata
Sybase服务器自适应企业
亥伯龙神Essbase OLAP服务器

DW的表是所有工具支持演化模式。这是因为进化的方法不需要任何额外的功能在商业工具;在进化DW模式更新和转移从旧到新模式。这个功能可以在所有DW系统。此外,从表中可以看出,大多数这些工具不提供支持来管理版本的DW模式和支持cross-version查询。然而,SAP业务仓库提供支持跟踪维度数据变化,允许用户选择一个版本的查询的层次结构,而商业工具还提供边际支持模式变化,像SQL比较,可以对比和同步SQL Server数据库模式和推动本地数据库模式变化到一个远程数据库。甲骨文的假设分析使用条款表达模型假设的分析或创建记录的假想的排名查询(56]。甲骨文变更管理包比较数据库模式和跟踪进化元数据并允许脚本生成和执行进行必要的改变。然而,cross-version查询支持不可用SQL比较或Oracle变更管理包。

5。结论和未来的工作

在这项研究中,我们分析时态数据管理和DW如何处理更改设计,。为此,现有的分类方法已经建成。根据分类,明确区分现有方法的特点,时间支持在DW分开处理的变化以及从他们支持商业工具。随后,我们已经确定了大量的DW设计方案在文学和分析他们的能力来支持和处理时间方面的变化。

DW的时态数据使我们能够执行假设分析。时间戳,如有效时间(VT),事务时间(TT),和DW加载时间,用来捕捉时变状态。原始时态数据模型表示和转换后的数据项和它们的结构和时间戳。虽然将时间有效性与维度和事实可以满足时间要求,然而,它是有用的定义维度“时间”在DW的显式表示日历、时间层次结构和事件。我们的现有设计方案的研究表明,只有一半的研究计划支持VT。因此,这些方法的使用是可能产生误导的总量。进一步的研究表明,大多数方案不支持TT和DWLT这限制了DW提供的分析支持。然而,一些设计方案支持所有的时间戳。我们认为,这些设计方案应考虑实现DW,特别是对于那些敏感的组织变化。

众所周知,许多外部因素发挥关键作用在引人注目的组织变化,执行操作数据源的变化以及DW的变化。对于DW,这些变化可以是两种类型,模式变化内容更改。的模式变化包括创建和删除一个维度、层次结构、水平,测量,或成员属性层次结构和水平运动。的内容更改包括创建一个新的维度成员,删除旧的维度成员,成员合并,分裂,转换,或重新分类的成员。我们有第一手的经验观察组织变化导致DW的变化。加强对读者的理解,下面,我们简要介绍简单而多样变化的例子,DW和概述DW的这些变化是如何处理的。例子如下。(一)一家制造公司开始制造新产品以满足市场需求。这种变化导致内容DW的变化;即数据的每一个新产品被添加到维度表和维度表的结构发生了改变。(b),该公司建造了一个新的生产单位tax-relaxed工业区。这种变化导致了DW模式变化;也就是说,添加了一个新的维度成员为了分析和比较多个单位的生产性能。 (c) The company transferred selected employees to the new unit. This change resulted in schema change as well as content changes in the DW. As a schema change, a new member attribute was added to a dimension table indicating the unit to which the employee belongs. As a content change, employees were assigned to the new unit.

有两种类型的方案来处理模式和内容DW的变化。这些都是进化版本控制计划。DW的进化方案支持一个版本模式为模式和内容的变化。在进化过程中,DW模式更新和数据传输从旧到新模式。发展计划的好处如下:查询机制不改变,可以使用可用的商业工具。然而,该方案缺乏保护历史和维护成本高。相比之下,版本控制方案支持多个版本的DW模式为每个模式变化和内容的变化,不能适应现有的版本。版本计划的好处是历史保留下来。然而,检索的数据需要编写cross-version查询不能由使用可用的商业工具。我们因此建议两个方案的权衡(进化和版本)应仔细检查。改变处理方案的比较揭示了一些方案设计来处理变化维度数据,支持部分可用的工具; however, no common framework has been proposed for schema and factual data changes.

基于合成我们确定以下为未来的学术研究方向:(a)的使用数据挖掘技术是一种可伸缩的方法来检测DWs结构性改变,(b)自适应方法的探索发现的结构性变化DWs是一个开放的研究领域,(c)用于检索和显示数据的通用框架暂时一致的方式,和(d)的支持cross-version查询和它们对解释结果的影响需要进一步探索。医生,研究建立,没有商业DW cross-version查询提供支持。查询支持监测可以提供不同类型的变化,以支持战略决策。

的利益冲突

作者宣称没有利益冲突。

引用

  1. w·海z Zeshui、h . Jujita和l . Shousheng”向恰当的决策:大数据的挑战和趋势,概述”信息科学卷,367 - 368,747 - 765年,2016页。视图:出版商的网站|谷歌学术搜索
  2. m . Blaschka嘉年华:在多维数据库模式演化的框架(博士。论文)慕尼黑技术大学,慕尼黑,德国,2000年。
  3. a . Abello和c·马丁,“数据仓库:面向对象的时态数据库”第八届会议进行jornada Ingenieria del软件y de拿督基地(JISBD ' 03),页675 - 684,阿利坎特,西班牙,2003。视图:谷歌学术搜索
  4. B B̧埃贝尔,j·埃德尔,c . Koncilia t . Morzy和r . Wrembel”创建和管理多版本数据仓库版本的”程序的应用计算2004 - 2004年学报ACM研讨会上应用计算,页717 - 723,纽约,纽约,美国,2004年3月。视图:谷歌学术搜索
  5. t . Morzy和r . Wrembel多版本数据仓库的查询版本,”学报》第七届ACM国际研讨会上数据仓库和OLAP (DOLAP ' 04),页92 - 101,纽约,纽约,美国,2004年。视图:谷歌学术搜索
  6. w·艾哈迈德·e·Zimanyi, r . Wrembel”使用多版本和时间的功能,造型数据仓库”第五届欧洲商业情报学报》暑期学校(ebi 15)2015年,页1 - 2,巴塞罗那,西班牙,。视图:谷歌学术搜索
  7. c . Koncilia“双时态数据仓库模型,”学报15先进信息系统工程国际会议(CAiSE ' 03)克拉根福,页77 - 80年,奥地利,2003年。视图:谷歌学术搜索
  8. w . Oueslati和j . Akaichi”查询多版本的轨迹数据仓库”,国际业务信息系统杂志》上,21卷,不。4、403 - 417年,2016页。视图:出版商的网站|谷歌学术搜索
  9. m . Golfarelli和组织者美国Rizzi时间调查数据仓库”,国际期刊的数据仓库和采矿,5卷,不。1,1卷,2009页。视图:谷歌学术搜索
  10. d . Solodovnikov l . Niedrite, n . Kozmina“数据仓库处理不断变化的需求,”学报东欧会议进展数据库和信息系统(ADBIS)卷,539年,页334 - 345,Springer CCIS, 2015年。视图:谷歌学术搜索
  11. g . Garani和c . e . Atay”,比较不同的时态数据仓库方法。”在线科学和技术杂志》上,7卷,不。2,17-27,2017页。视图:谷歌学术搜索
  12. w·艾哈迈德和e . Zimanyi“查询多版本数据仓库”学报东欧会议进展数据库和信息系统(ADBIS)卷,539年,页346 - 357,Springer CCIS, 2015年。视图:谷歌学术搜索
  13. n . Sarda“时间问题在数据仓库系统中,”《1999年国际研讨会在非传统数据库应用程序环境(但丁99)、页27-34日本京都。视图:出版商的网站|谷歌学术搜索
  14. f . Ravat o .证人,“时间面向对象的数据仓库模型,”学报》第11届国际会议上数据库和专家系统应用程序(用“00),页583 - 592,伦敦,英国,2000年。视图:谷歌学术搜索
  15. r·m·布鲁克纳b名单,j . Schiefer和a . m . Tjoa”在数据仓库建模时间一致性,”学报》第12届国际研讨会数据库和专家系统应用程序,用2001,页901 - 905,德国慕尼黑,2001年9月。视图:出版商的网站|谷歌学术搜索
  16. w·艾哈迈德·e·Zimanyi, r . Wrembel“多版本的数据仓库的逻辑模型,”学报》第16届国际会议上数据仓库和知识发现(DaWaK),卷8646,页23 - 24日,施普林格信号,慕尼黑,德国,2014年。视图:谷歌学术搜索
  17. m . Blaschka c Sapia, g . Hofling“在多维数据库模式演化,”学报第一国际会议上数据仓库和知识(DaWaK ' 99)卷,1676年,页153 - 164,施普林格信号,佛罗伦萨,意大利,1999年。视图:谷歌学术搜索
  18. a·马洛塔数据仓库设计和维护通过模式转换(硕士论文),2000年大学de la那时乌拉圭。
  19. c . Letz e . t .嗯,g . Vossen“一致性在数据仓库维度”《IEEE数据库工程应用国际研讨会(想法' 02)华盛顿特区,页224 - 232,美国2002年。视图:谷歌学术搜索
  20. c .成熟、t·b·皮德森和b·拉斯穆森“星星和雪花模式演化,”企业信息系统国际会议(ICEIS ' 04)葡萄牙波尔图,页425 - 433,,2004。视图:谷歌学术搜索
  21. E.-J。Rechy-Ramirez和大肠Benitez-Guerrero”模型为双时态和语言模式版本控制在数据仓库中,”第15届国际会议上计算的程序,中投20062006年11月,页309 - 314。视图:出版商的网站|谷歌学术搜索
  22. r . Wrembel”的调查管理数据仓库的发展,“国际期刊的数据仓库和矿业(IJDWM),5卷,不。2,24-56,2009页。视图:出版商的网站|谷歌学术搜索
  23. r . Wrembel”处理外部数据源的进化在数据仓库架构,”集成的数据仓库、数据挖掘和数据库技术:创新方法d . Taniar l·陈,Eds。,pp. 106–147, Information Science Reference, Hershey, PA, USA, 2011.视图:谷歌学术搜索
  24. p . Manousis p . Vassiliadis a Zarras, g . Papastefanatos”数据库和数据仓库模式演化,”第五届欧洲商业情报学报》暑期学校(ebi, 2015)西班牙,巴塞罗那,2015年。视图:谷歌学术搜索
  25. m . Golfarelli j . Lechtenborger组织者美国Rizzi, g . Vossen”模式在数据仓库版本控制:使cross-version查询通过模式,”数据与知识工程卷,59号2、435 - 459年,2006页。视图:出版商的网站|谷歌学术搜索
  26. m . Golfarelli d Maio组织者美国Rizzi,”维事实模型:数据仓库的概念模型,”国际合作信息系统杂志》上,7卷,不。2 - 3、215 - 247年,1998页。视图:出版商的网站|谷歌学术搜索
  27. j•埃德尔和k . Wiggisser“数据仓库维护、进化和版本控制”施普林格百科全书数据库系统,第669 - 664页,2009年。视图:谷歌学术搜索
  28. j•埃德尔和k . Wiggisser“数据仓库维护、进化和版本控制”数据仓库的设计和先进的工程应用程序:对于复杂的施工方法,l . Bellatreche Ed,页171 - 188,IGI全球2010人。视图:谷歌学术搜索
  29. r . Bliujute s Saltenis、g . Slivinskas和c·s·延森”在空间数据仓库系统的变更管理,”学报3日波罗的海国际研讨会数据库和信息系统,27-41,1998页。视图:谷歌学术搜索
  30. g . Garani g·k·亚当,d . Ventzas“时态数据仓库逻辑模型,”国际期刊的数据挖掘、建模和管理,8卷,不。2、144 - 159年,2016页。视图:出版商的网站|谷歌学术搜索
  31. w·艾哈迈德·e·Zimanyi, r . Wrembel”时态数据仓库:逻辑模型和查询”学报的法语人11日Journees苏尔les转口港数据等分析en界线(EDA)布鲁塞尔,比利时,2015年。视图:谷歌学术搜索
  32. 马林诺夫斯基·e·e . Zimanyi,“一个概念性的解决方案在数据仓库维度代表时间,”第三届亚太会议程序概念建模(APCCM 06年),45 - 54页。53卷施普林格信号,Darlinghurst,澳大利亚,2006年。视图:谷歌学术搜索
  33. j•埃德尔、c . Koncilia和t . Morzy“彗星时态数据仓库元模型,”学报14先进信息系统工程国际会议(CAiSE ' 02)卷,2348年,页83 - 99,施普林格信号,多伦多,加拿大,2002。视图:谷歌学术搜索
  34. 组织者美国Rizzi和m . Golfarelli“x乘以:模式版本控制和cross-version查询在数据仓库中,”学报》第23届国际会议上数据工程,ICDE 20072007年4月,页1471 - 1472。视图:出版商的网站|谷歌学术搜索
  35. m . Golfarelli诉Maniezzo,组织者美国Rizzi”实体化支离破碎的观点在多维数据库中,“数据与知识工程卷,49号3、325 - 351年,2004页。视图:出版商的网站|谷歌学术搜索
  36. j•埃德尔、c . Koncilia和d . Mitsche”自动检测数据仓库的结构变化”《第五届国际会议上数据仓库和知识(DaWaK ' 03)Pargue,页119 - 128年,捷克Republich, 2003年。视图:谷歌学术搜索
  37. m .身体,m . Miquel y Bedard说,a . Tchounikine“处理多维结构的演进,”19国际会议数据Ingineering学报》上,页581 - 591,班加罗尔,印度,2003年3月。视图:出版商的网站|谷歌学术搜索
  38. 答:只熊掌,多维数据库视图更新,维护和时间管理[博士。论文)布宜诺斯艾利斯大学,2001。
  39. a . a . Vaisman a . o . Mendelzon w . Ruaro和s . g . Cymerman”OLAP服务器支持维度更新”,信息系统卷,29号2、165 - 185年,2004页。视图:出版商的网站|谷歌学术搜索
  40. 彼得森t . b . c . s . Jensen和c . e . Dyreson”捕捉和查询复杂多维数据的基础,“信息系统,26卷,不。5,383 - 423年,2001页。视图:出版商的网站|谷歌学术搜索
  41. a . o . Mendelzon和a . a . Vaisman“时间在OLAP查询”学报》第26届国际会议上非常大的数据基地,VLDB 2000253年,页242 -开罗,埃及,2000年9月。视图:谷歌学术搜索
  42. p . Chamoni和美国股票,“时间在数据仓库结构,”第一届国际会议论文集上数据仓库和知识发现(DaWaK ' 99)激飞信号,页353 - 358年,佛罗伦萨,意大利,1999年。视图:谷歌学术搜索
  43. a·o·c·a·Hurtado Mendelzon, a . a . Vaisman“多维数据集维度下更新,维护数据”学报》第15届国际会议上数据工程,icde - 99,页346 - 355年,悉尼,澳大利亚,1999年3月。视图:谷歌学术搜索
  44. d . Solodovnikova“数据仓库演化框架,”《春天年轻研究员的讨论会在数据库和信息系统(SYRCoDIS ' 07)2007年,页6 - 12,莫斯科,俄罗斯。视图:谷歌学术搜索
  45. j . Chmiel“多版本数据仓库,数据结构”诉讼进展国际会议上的数据库和信息系统(ADBIS ' 09)卷,5968年,页202 - 210,施普林格信号,里加,拉脱维亚,2010。视图:谷歌学术搜索
  46. h·康和c·钟”,利用在线数据仓库维护MOLAP服务器的版本,”学报》第28届国际会议上非常大的数据库(VLDB ' 02),页742 - 753,香港,中国,2002。视图:谷歌学术搜索
  47. d . Quass和j . Widom教授“在线仓库视图维护”SIGMOD记录,26卷,不。2、393 - 404年,1997页。视图:谷歌学术搜索
  48. r . Wrembel和b . Bębel多版本数据仓库元数据管理”,期刊数据的语义,8卷,第157 - 118页,2007年。视图:谷歌学术搜索
  49. z Bellahsene”观点适应在数据仓库系统中,“第九届国际会议上学报》数据库和专家系统应用程序(用98)卷,1460年,页300 - 309,施普林格信号,维也纳,奥地利,1998年。视图:谷歌学术搜索
  50. r·m·布鲁克纳和a . m . Tjoa”捕获延迟和有效的在数据仓库,对及时分析一致,”智能信息系统杂志》上,19卷,不。2、169 - 190年,2002页。视图:出版商的网站|谷歌学术搜索
  51. r . j . b . Vanwersch k·沙赫扎德,k Vanhaecht et al .,“方法论的支持业务流程重新设计在卫生保健:一个文献综述协议,”国际护理协调杂志》上,15卷,不。4、119 - 126年,2011页。视图:出版商的网站|谷歌学术搜索
  52. Rundensteiner和e·a·陈,b . Liu,“Multiversion-based视图维护分布式数据源,”ACM事务在数据库系统(tod)卷,29号4、675 - 709年,2004页。视图:出版商的网站|谷歌学术搜索
  53. d . Fasel和k·沙赫扎德,”集成的数据仓库模型模糊概念的元表结构,”学报17 IEEE国际会议和研讨会在以计算机为基础的系统的工程,2010年欧洲央行牛津大学,页100 - 109年,英国,2010年3月。视图:出版商的网站|谷歌学术搜索
  54. a . Gosain和k . Soraha存储结构来处理在时态数据仓库模式版本,”诉讼的进展在智能计算技术:理论、实践,和应用程序,施普林格智能系统的发展和计算卷,518年,第511 - 501页,2017年。视图:谷歌学术搜索
  55. 组织者美国Rizzi,“假设分析,”百科全书的数据库系统l .刘和t . Ozsu Eds。施普林格,2009年。视图:谷歌学术搜索
  56. p•莱恩Oracle数据库数据仓库的向导,2005年10 g版本1。

版权©2017锡德拉湾费萨尔等。这是一个开放分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。

相关文章

对本文没有相关内容可用。
PDF 下载引用 引用
下载其他格式更多的
订单打印副本订单
的观点4506年
下载1016年
引用

相关文章

对本文没有相关内容可用。

文章奖:2021年杰出的研究贡献,选择由我们的首席编辑。获奖的文章阅读