您的当前位置:首页正文

持续数据保护_CDP_技术的发展综述定稿[1]

2020-05-10 来源:爱go旅游网
第6卷第6期 信息技术快报 Vol.6 No.6 Information Technology Letter Nov. 2008

持续数据保护(CDP)技术的发展综述

王树鹏 云晓春 郭莉

摘要:随着数据信息重要性的不断提高,传统数据保护技术的恢复时间目标(RTO)和恢复点目标(RPO)无法满足数据保护的需求,因此产生了持续数据保护技术。本文对持续数据保护技术的特点、应用场景、发展现状进行了总结,并对未来的发展进行了分析。 关键词:持续数据保护;准CDP;真CDP

1 引言

随着信息化水平的不断提高,数据信息逐渐成为企业赖以生存的基础,数据丢失所造成的损失也日益严重,9.11事件所造成的灾难性的后果使人们更加深刻地认识到数据信息的价值和意义。为了保护重要的数据信息,人们一直采用数据复制、备份、恢复等数据保护技术[1~3],定时地进行数据备份和复制,这成为了很多企业应付数据丢失的法宝。但是这种在“固定时间间隔”进行数据备份的方式有很大缺陷:当数据真地需要恢复的时候,两个“固定时间”中间的数据肯定会丢失。随着数据量的增大,尤其是数据量增长速度的加快,使得单位时间内增加的数据量有可能非常大。在这种情况下,传统的备份方法的恢复点目标1和恢复时间目标2 [4,5]就显得太长,对于一些关键的信息系统是无法接受的。这类信息系统一般要求7x24小时的运行,短时的停机或者少量数据的丢失都会导致巨大的损失。最近的研究调查发现在很多行业中,数据丢失或者不可用造成的损失往往达到每个小时上百万美元[4,6]。因此,就需要将数据备份的“固定时间间隔”尽可能地缩小,甚至缩为零, 持续数据保护(CDP, Continuous Data Protection)就是为了满足这样的需求而出现的数据保护技术。

全球网络存储工业协会(SNIA,Storage Networking Industry Association)数据保护论坛(DMF,Data Management Forum)的持续数据保护特别兴趣小组(CDP SIG,CDP Special Interest Group)对持续数据保护的定义是:持续数据保护是一套方法,它可以捕获或跟踪数据的变化,并将其在生产数据之外独立存放,以确保数据可以恢复到过去的任意时间点。持续数据保护系统可以基于块、文件或应用实现,可以为恢复对象提供足够细的恢复粒度,实现几乎无限多的恢复时间点。

持续数据保护技术的关键词是持续,其主要功能是实现故障瞬间完成对任何时间点数据的快速恢复,保证业务的连续性。因此,能够从根本上解决传统备份中恢复能力低和非精确时间策略(如按照天的备份)的先天弱点。就给定的数据集而言,持续数据保护提供连续的恢复点,能够存取任何时间点上的数据,允许应用恢复到任意的时间点之前,而不仅仅针对那些由备份流程预先确定的特殊时刻,且恢复点在时间发生后选定并动态重建。因此持续数据保护能够提供无限密集的恢复点,有些情况下可以提供接近即时的恢复。

RPO(Recovery Point Objective),把数据恢复到过去的目标时间点,即备份回溯时间窗口的“前端点”。PRO直接影响发生意外灾难事件时可能丢失的数据量。 2

RTO (Recovery Time Objective),灾难发生后,从IT系统停机导致业务停顿开始,到IT系统恢复可以支持业务恢复运营之时,所需要的时间。

24

1

持续数据保护(CDP)技术的发展综述

2 数据备份保护技术的比较

2.1 传统的备份技术

数据备份和恢复一直采用阶段性的备份[7,8]和快照[9]来实现。由于数据备份过程会降低应用的性能并且非常耗时,数据备份一般会安排在夜间进行。在备份过程中,数据会被备份到磁带、虚拟磁带或者磁盘[7,10]。为了节省存储空间,一般会采用每个月或者每周做一次全量备份,而每天只做一次增量备份。

快照技术能够实现数据的即时影像(point-in-time image),快照影像可以支持在线备份。全量快照是实现所有数据的一个完整的只读副本;为了降低快照所占用的存储空间,人们提出了写时拷贝(COW ,Copy-On-Write)和ROW(Redirect on Write,写时重定向)快照技术,写时拷贝快照中只保存建立快照后被新的写操作覆盖的数据[11],而ROW快照只包括新的写操作数据。快照技术对于应用性能的影响较小[9,12],每天可以建立多个快照[13]。快照可以在磁盘阵列[14,15,16]、文件系统[17~24]、卷管理器[25,26]、NAS系统[27,28,29]或者备份软件中实现。 在过去的20年中,虽然计算机技术获得了巨大的发展,但是数据备份技术却是和20年之前没有太大变化。数据备份操作代价和成本仍然比较高,并且会消耗大量的时间和资源。数据备份的恢复时间目标和恢复点目标都比较长。

这类备份恢复技术被称为指定时间点(Assigned Point-in-time)备份技术。

2.2 文件版本技术

除了阶段性的数据备份之外,文件系统层次实现的多版本文件也是实现数据备份的重要技术,该技术通过记录文件变化历史来实现对文件的保护。

早期的多版本文件系统有Cedar[20]、3DFS[30]和CVS[31]等,这类文件系统需要用户手动创建文件历史版本;写时拷贝多版本文件系统有Tops-20[32]、VMS[33]等,这类文件系统能够自动建立文件操作的历史版本;Elephant系统在对一个打开的文件进行第一次写操作时创建一个版本[24];CVFS使用高效的数据结构来记录每个写操作或者元数据的版本信息[34];OceanStore不但将版本技术用于数据恢复还用于简化复制和缓存中的一些问题[33];LBFS文件系统通过找到文件与其版本中的相似部分来节省对网络带宽的占用[35];皮特森(Z. Peterson)和伯恩斯(R. C. Burns)实现了开源的文件系统ext3cow,系统提供了快照功能和文件版本功能;rsync、rdiff和diff等系统也提供了文件版本功能;为了提高文件版本的有效性、灵活性和可移植性,穆尼斯沃密-瑞迪(Muniswamy-Reddy)等人实现了被称为Versionfs的轻量级版本文件系统[36],该系统能够支持用户配置的各种存储策略。

文件版本技术允许系统恢复到以前的状态,具有可控的恢复时间目标和恢复点目标,但是都依赖于具体的文件系统,无法直接应用到使用不同文件系统或者数据库的企业数据中心。和传统的数据备份相比,文件版本主要在文件层次实现,无法在块设备层次实现数据保护。

2.3 数据块的持续数据保护技术

块设备层次的数据备份和任意时间点数据恢复需要将更改过的所有块数据按时间顺序保存下来[5,37,38]。每次写操作都会生成带有时间戳的数据块版本。因为写操作都被记录保存下来,因此能够动态地访问任意一个时间点的数据状态,可以有效拉近恢复点目标。数据块级的持续数据保护技术的优点是与应用的藕合比较松,性能和效率比较高(特别是对于直接

25

第6卷第6期 信息技术快报 Vol.6 No.6 Information Technology Letter Nov. 2008

访问块设备的应用,例如数据库等更加明显)。缺点是对存储空间的要求比较高,这也是限制数据块级持续数据保护技术广泛应用的根本原因。

3 持续数据保护的技术特点

持续数据保护技术是对传统数据保护技术的一个重大突破,和传统的数据保护技术相比,持续数据保护具有以下几个关键的技术特征:

1 ) 2 ) 3 ) 4 )

连续备份、持续捕捉数据变化;

瞬间和即时的恢复,大大优化恢复的进程; 多点的快照技术,历史数据瞬间可用; 可以实现系统不间断连续运行的目标。

传统的数据保护解决方案专注于数据的周期性备份,因此无法避免存在备份窗口、难以确保数据一致性以及会影响生产系统等问题。备份技术实现的数据保护间隔一般为24小时[1,3],因此用户会面临丢失多达24小时所产生的数据的风险,采用快照技术[29],可以将数据的风险丢失量降低到几个小时之内,而持续数据保护是一种精细化多点跟踪技术,会不断监测关键数据的变化,捕获和保护数据中所有的变化,而非仅仅是某个预先选定的时间点,能将数据风险丢失量降低到几秒。实际上,在传统数据保护技术中采用的是对“单时间点(SPIT,Single Point-In-Time)”的数据拷贝进行管理的模式,而持续数据保护可以实现对“任意时间点(APIT,Any Point-In-Time)”的数据访问。这样就可以随时访问数据,减少数据损失并消除代价高昂的停机损失。持续数据保护不断地自动实现数据的保护,使我们无须关注数据的备份过程,当灾难发生后,我们仅简单地选择需要恢复到的数据备份时间点,即可实现数据的快速恢复。

复制技术可以通过与生产数据的同步来获得数据的最新状态,但无法防止由人为的逻辑错误或病毒攻击所造成的数据丢失。当生产数据由于以上原因遭到破坏时(例如数据被误删除),复制技术会将遭到破坏的数据状态同步到后备数据存储系统,使后备数据也受到破坏。持续数据保护系统可以使数据状态恢复到数据遭到破坏之前的任意一个时间点,也就可以消除上述风险。

持续数据保护技术侧重点不仅仅是在于备份,更重要的一点是瞬间恢复。持续数据保护的无缝恢复技术能够实现一定业务连续性指标,这是传统的备份技术所不具备的。持续数据保护技术能够确定恢复点目标指标,可以按照用户的要求,恢复到指定的时间点,能够为用户提供不同类型的数据保护机制和系统保护机制。

传统的备份策略都是维护一个完全的数据拷贝,而持续数据保护则跟踪那些变化的数据——通常对应到一些读/写事件。通过记录磁盘中的数据变化,存储管理员可以将服务器或者存储阵列(或者其它受持续数据保护的存储系统)恢复到前面的一个正常点;从前几秒到前几天都可以。技术工人可以非常容易地平衡粒度来从一些可能由网络或者服务器错误引起的数据错误,比如丢失文件、病毒破坏或者数据损失中恢复数据。

虽然持续数据保护可以支持各种粒度的重建,但是它并不保护一个错误从产生到被发现中间所发生的变化以及事务。比如,持续数据保护不能够阻止一个病毒感染一个文件,但是它可以将感染的文件恢复到之前的点上——问题就是重建点之后的所有工作都会丢失了。依赖于错误以及对数据的影响,一些数据的重建也许是必要的。从某种程度上说,持续数据保护和快照(snapshot)技术非常相似,但是两种方法又有所不同,不同点在于快照是以事件来

26

持续数据保护(CDP)技术的发展综述

对待,也许每天一次或者每天两次,或者每小时一次。当一个错误发生时,在快照和错误发生时刻中间产生的数据就会丢失了,这一点很像传统的数据备份;相比而言,持续数据保护是一个持续的过程,记录了实时的所有活动,并且可以回到之前的错误发生点上。快照通常可以看作是持续数据保护的一个“幻灯片(slice) ”。

4 持续数据保护的实现模式、相关问题和应用场景

4.1 从数据变化的记录角度分类

持续数据保护实现的关键技术是对数据变化的记录和保存,以便实现任意时间点的快速恢复。一般来讲,从该角度可以将持续数据保护实现模式分为以下三类:

1. 基准参考数据模式,执行过程为:

1 ) 建立供恢复时参考用的数据拷贝(仅一次);

2 ) 在参考的数据拷贝基础上开始顺序向前记录数据差异事件日志;

3 ) 需要恢复时,在参考的数据拷贝基础上,依据数据差异日志进行数据恢复。 2. 复制参考数据模式,执行过程为:

1 ) 供恢复用的参考数据实时与生产数据同步;

2 ) 同步的同时,在当前数据的基础上记录数据的回退事件; 3 ) 需要恢复时,在当前数据的基础上,依据数据回退差异记录日志将数据回退到

过去的任意时间点。 3. 合成参考数据模式,执行过程为:

1 ) 2 ) 3 ) 4 )

建立初始参考数据拷贝;

在供参考的数据拷贝基础上开始循序向前记录数据差异事件日志;

定期将初始参考数据拷贝向前移动(由上次的参考数据拷贝和记录日志合成); 如果必要,重新解析合成参考数据拷贝时间点之前的记录(由向前变为向后)。

基准参考数据模式原理简单,实现起来比较容易,但由于数据恢复时需要从最原始的参

考数据开始,逐步进行数据恢复,因此恢复时间比较长,尤其是恢复时间点越靠近当前的时间,恢复所需要的时间就越长。

复制参考数据模式和基准参考数据模式在实现原理上恰好相反。复制参考数据模式在数据恢复时,恢复的时间点越靠近当前,所需要的恢复时间越短。但在数据的保存过程中,需要同时进行数据和日志记录的同步,需要较多的系统资源。

合成参考数据模式是以上两种模式的折衷,较好地实现了以上两种模式的妥协,因此可以节省资源占用和缩短恢复时间。但需要复杂的软件管理和数据处理功能,实现起来比较复杂。

4.2 从实现层次进行分类

持续数据保护技术可以在不同的层次实现,具体来说,可以分为如下几类:

● 基于应用的持续数据保护 ● 基于文件的持续数据保护 ● 基于数据块的持续数据保护

4.2.1 基于应用实现持续数据保护

27

第6卷第6期 信息技术快报 Vol.6 No.6 Information Technology Letter Nov. 2008

实现基于应用的持续数据保护时,在需要保护的关键应用程序中直接嵌入和运行持续数据保护功能。持续数据保护功能可以由软件厂商将其直接嵌入在软件产品中,也可以是软件厂商提供应用程序接口(API),由第三方软件开发商来开发完成。 基于应用的持续数据保护最大好处是与能和应用程序深度整合,确保应用数据在持续保护中的一致性,管理也比较灵活,易于用户部署和实施。目前基于应用程序的持续数据保护解决方案大部分是针对成熟的应用开发的。已经有某些产品可以支持微软公司的Office、Exchange、IBM的DB2,以及Oracle数据库等。 4.2.2 基于文件实现持续数据保护

基于文件的持续数据保护功能作用在文件系统上。它可以捕捉文件系统数据或者元数据的变化事件(例如创建、修改、删除等),并及时记录文件的变动信息,以便将来实现任意时间点的文件恢复。

IBM公司的VitalFile、Storactive公司的LiveBackup for Desktop/Laptops、TimeSpring公司的TimeData等产品,都能提供基于文件的持续数据保护功能。VSS是微软公司基于Windows操作系统的一项准持续数据保护功能实现模块,VSS提供了实现准持续数据保护(尽管其备份时间粒度比较大)的应用程序接口,第三方软件可以在其基础上进行开发,目前基于VSS的产品有微软的DPM和赛门铁克(Symantec)的Backup Exec 10D等。 4.2.3 基于数据块实现持续数据保护

基于块的持续数据保护功能直接运行在物理的存储设备或逻辑的卷管理器上,甚至也可以运行在数据传输层上。当数据块写入生产数据的存储设备时,持续数据保护系统可以捕获数据的拷贝并将其存放在另外一个存储设备中。

基于数据块的数据保护又有基于主机层、基于传输层和基于存储层三类实现方式。一般来讲,基于块的持续数据保护除在主机层实现的以外,相关的产品和技术比较复杂,实施成本也相应地比较高,因此适合于有持续数据保护需求的大中型企业。

基于块和文件的持续数据保护解决方案可以利用一种相同的通用方法来支持多种不同的应用。基于应用的持续数据保护则只为某种应用提供持续数据保护能力,但通常的表现形式是一种更为深入的集成方式。

4.3 从软硬件角度分类

持续数据保护可以通过硬件或者软件来实现。基于软件的持续数据保护一般是通过所需保护的每一个服务器(比如数据库服务器)上的代理(agent)来实现。基于硬件的持续数据保护应用包括带内(在数据通路上)以及带外(不在数据通路上)两类。基于硬件的持续数据保护可以避开对代理的需要,然而对于带外应用还是要用到某些软件 [44]。

4.4 相关问题

持续数据保护的实现还涉及到以下几个关键因素和问题: 4.4.1 恢复的精细程度

不同的持续数据保护方案提供多种不同精细程度的恢复能力。恢复精细程度可以分为如下几种(按由低到高的顺序排列):卷组、单个卷或文件系统、单个文件夹或文件组、单个文件或应用对象(如电子邮件或日历项目)。

28

持续数据保护(CDP)技术的发展综述

4.4.2 恢复点目标的应用感知技术(RPO Application-awareness)

若干持续数据保护产品提供了恢复点目标的应用感知技术,即在在恢复时刻持续数据保护产品可以帮助用户识别应用程序历史数据最佳的恢复点。这类应用集成可以是完全自动的,也可以是可扩展的。

内置应用感知是一种全自动的方法。例如,具有数据库感知功能的持续数据保护产品可能会自动探测并记录最近连贯事件的信息,如检查点或执行交易等。

另外一种机制是通过一些外部的输入信息或流程来指定重要的应用恢复点。这类集成是可扩充的。例如,可以利用用户界面活动(或命令行工具)等方式来指定当前是一个重要的时间点,如病毒扫瞄结束,或者是公司财务季度结束等。

基于应用的持续数据保护解决方案通常可以自动了解重要应用的恢复点。然而,基于文件和块的持续数据保护解决方案还可以通过一种自动或可扩展的方式来提供深层的应用集成。

4.4.3 主机代理程序

为了在数据发生变化时进行访问,一些持续数据保护解决方案要求在需要受保护的主机上安装一种特殊的“代理程序”软件;另一些持续数据保护解决方案则使用已经内置到受保护主机或网络中的数据传输协议(如NFS、CIFS、FC或iSCSI)来实现这一功能。 4.4.4 库架构

许多持续数据保护解决方案的架构都有一个持续数据保护存储库(CDP storage

,而且这种存储库是局域网、repository,也就是说,将所有数据中的变化存储在独立的地点)

广域网或存储区域网上的专用节点。还有一些产品依靠受保护的主机直接将数据写入独立的持续数据保护存储器上。 4.4.5 复制库

一些持续数据保护解决方案还提供将持续数据保护库复制到另外一个远程库的能力。这样就可以提供更高的灵活性,防止主持续数据保护库可能出现的损坏或丢失对恢复能力产生影响。

4.5 应用场景

对于持续数据保护的应用范围,目前大体可以归纳为三类:

为数据中心内的文件服务器/ 网络附连存储(Network Attached Storage,NAS)提供普通的数据保护。在这种应用中,持续数据保护逐渐取代了以前那种夜间的磁盘或磁带备份任务。虽然,有些人认为持续数据保护只是为那些关键的数据而准备的。但是我们发现有些持续数据保护产品要比那些传统的备份方法更加易于使用,并且效果也更好。因此完全可以用于普通的文件服务器的备份。

为远程的分支机构进行集中化的备份。将持续数据保护用于远程分支机构备份应用的最大好处就是避免了远距离转移磁带介质的风险。我们使用同总部一样的复制技术将分支机构的备份数据同步传输回来;同时集中化的控制也让异地之间的数据安全管理工作变得更加主动、高效。

帮助实现笔记本电脑上的数据备份。也许我们曾经使用过很多方法来保护笔记本电脑上

29

第6卷第6期 信息技术快报 Vol.6 No.6 Information Technology Letter Nov. 2008

的数据,但都收效甚微。如今,我们可以使用持续数据保护来将数据的变化统统保留在笔记本电脑自带的硬盘上,然后在连接办公室网络的时候,自动地将它们发送到远端的中心服务器。不过,从技术定义上讲,这并不能成为持续数据保护。因为这类产品只有在笔记本电脑与网络连接的时候,才能上传改变的数据。不过,像IBM Tivoli CDP这样的产品,即使在没有连接网络的时候,依然可以很好地对数据进行保护。

5 持续数据保护技术的研究现状

持续数据保护技术的主要问题是对存储空间的要求非常高,这也是该技术无法广泛使用的原因。据统计,正常情况下,每个卷上每天有20%的部分有改动操作,改动的数据块平均会被覆盖5~0次。如果我们有一个1T的数据卷,则每天需要1~2T的空间来存储持续数据保护数据,一周就需要5~10T的空间。

目前已经针对如何降低存储空间展开了一些研究工作。文献[37]实现了一个被称为Peabody的网络块存储设备,基于该设备对磁盘写操作进行的研究发现写数据块中有84%与以前数据块的内容是相同的,因此可以通过消除内容相同的磁盘数据来提高存储空间的利用率。Morrey III、Grunwald等[2]观察到对于一些操作过程来说,写操作的大部分磁盘扇区的内容与以前的内容相同,通过保持磁盘内容的128位索引哈希(Hash)值,可以有效避免写入重复的数据。Zhu、Li和Patterson提出了一个能够识别以前存储过的数据分片的高效存储架构来节省存储空间[39]。这些技术通常需要在进行写操作之前进行搜索操作,虽然已经出现了一些搜索算法和智能缓存技术来提高搜索效率,但是这样搜索操作仍然是比较耗时的[37,39]。

文献[40]设计了被称为TRAP(Timely Recovery to Any Point-in-time)的磁盘阵列架构,该系统提供了持续数据保护功能,但并不是保存更新数据块的所有历史版本,而是对更新数据块信息执行异或(XOR)操作来提高性能和空间利用率。通常情况下不同版本的数据块之间仅有很小的一部分不相同,因此异或操作后的结果中包含大量的0,对这样的数据进行压缩能够获得较好的压缩效果,与目前的连续数据保护技术相比,TRAP通过简单而快速的编码技术在磁盘空间占用方面节省了1~2个数量级,并且能够基于一个数据镜像实现两个方向的数据恢复,而目前的快照和增量备份技术只能够实现单向的数据恢复。这种方法的缺陷是获取某个数据块版本的时间与从当前版本到目标版本之间的版本数目成正比。

文献[41]基于TRAP系统框架实现了一个块设备层次的持续数据保护驱动,并对空间占用开销和恢复时间进行了深入分析。该文献通过一个数学模型来优化空间占用和恢复时间,并提出了在奇偶编码链中插入周期性快照的组织方法,来降低因为奇偶编码链打断而导致失效的可能。

拉登(Guy Laden)提出了存储控制器中实现持续数据保护的四种不同的架构,并从写性能和空间利用开销方面对其进行分析和比较[47]。朱(N. Zhu) 和阙(T. Chiueh )提出了用户层次实现的有效的并且可移植的持续数据保护架构,针对NFS服务实现了四种不同的持续数据保护架构,并且对其性能进行了比较[42]。

鲁茂华(译音,Maohua Lu)等人提出了基于ATA硬盘和G级以太网技术实现的综合的持续数据保护系统Mariner[45],该系统是基于iSCSI的存储系统,在ATA磁盘或者千兆以太网技术来实现综合的数据保护。该系统支持持续数据保护,为了使与持续数据保护相关的性能开销达到最小,该系统将用于持续数据保护的长期日志和用于降低磁盘写延迟的短期日志技术结合起来,追求在空间使用、磁盘写延迟和历史数据访问等几个方面获得最优的平衡。

文献[43]描述了一个通过使用扇区块哈希聚集写操作数据来节省空间的系统Venti,Venti

30

持续数据保护(CDP)技术的发展综述

和文献[37]描述的Peabody在实现方面存在着几个重要的不同。Venti用于备份设备,每24小时做一次快照,因此Venti就无法和Peabody一样将磁盘状态回滚到过去的任意一个状态;在发生写操作时,Venti系统计算写磁盘扇区的MD5值与之前的扇区数据进行比较,如果相同,就将该磁盘扇区覆盖写到具有相同数据的扇区位置,如果内容不同,就写到一个新的位置;另外,Venti是和Plan 9操作系统绑定在一起的,因此不能够被用做Windows和Linux系统的后端存储设备。

此外,弗罗瑞斯和比拉斯(Michail D. Flouris and Angelos Bilas)针对目前存储架构中版本管理只能在高层或者应用层次实现,因而影响了系统的可扩展性的问题,提出了在块设备层次提供透明自动的数据版本管理存储架构-Clotho [46],系统记录所有的数据变化日志,并在预定的时刻将一段时间内的日志合并形成一个版本,数据版本会在离散的时间点上建立,并不是真正的持续数据保护;其中一个比较大的贡献是,该系统通过二进制差异压缩技术提高了存储空间的利用率,该技术的思想就是仅保存与以前版本不同的数据。

6 总结和发展趋势

持续数据保护技术是对传统数据保护技术的一个重大突破,是数据保护技术的发展趋势。我们自从2007年开始研究数据保护技术,在一年多的时间里,突破了在线磁盘映像技术、文件块级的在线增量备份和镜像技术、磁盘块及文件级的准持续数据保护技术,获得了多项专利和软件著作权,开发了面向桌面终端的备份系统和持续数据保护系统,该系统能够提供准持续数据保护功能。目前,持续数据保护技术的未来发展主要体现在以下几个方面:

1. 向新的保护范畴延伸。一方面扩展到更多的操作系统平台,例如从基于微软的各类

操作系统平台延伸到更多企业级系统所采用的UNIX平台;另一方面拓展更多应用的持续保护技术,例如Exchange系统的恢复、数据库系统的恢复、以及单实例恢复等; 2. 拉杆式的日志恢复。使精细点的恢复超越最近的快照点,而走向任何的历史点,为

一些高端的、以秒级错误恢复为目标的应用带来一种真正的数据保护解决方案; 3. 完善历史数据的存档机制。利用持续数据保护技术进行高级数据保护的同时,完善

历史数据的存档机制,完善在线数据和离线数据的分级保护体系。 随着持续数据保护技术的应用范围的扩大和人们认知的深入,持续数据保护技术将会作为在线数据的重要保护手段而独立开辟一条通道,成为一种新的、贴近用户目标的高级数据保护方式,逐渐为人们所认同。

参考文献:

[1] [2] [3]

M. Rock and P. Poresky. “Shorten your backup window,” Storage, Special Issue on Managing the information that drives the enterprise, pp. 28-34, Sept. 2005

G. Duzy. “Match snaps to apps,” Storage, Special Issue on Managing the information that drives the enterprise, pp. 46-52, Sept. 2005

A.L. Chervenak, V. Vellanki, and Z. Kurmas. “Protecting file systems: A survery of backup techniques,” In Proc. of Joint NASA and IEEE Mass Storage Conference, College Park, MD, March 1998

K. Keeton, C. Santos, D. Beyer, J. Chase, J. Wilkes. “Designing for disasters,” In Proc. of 3rd Conference on File and Storage Technologies, San Francisco, CA, 2004

J. Damoulakis. “Continuous protection,” Storage, Vol. 3, No. 4, pp. 33-39, June 2004

D. Patterson. \"A New Focus for a New Century: Availability and Maintainability >> Performance,\" In

31

[4] [5] [6]

第6卷第6期 信息技术快报 Vol.6 No.6 Information Technology Letter Nov. 2008

FAST Keynote, January 2002, www.cs.berkeley.edu/ ~patterson/talks/keynote.html [7] [8]

M. Rock and P. Poresky. “Shorten your backup window,” Storage, Special Issue on Managing the

information that drives the enterprise, pp. 28-34, Sept. 2005

A.L. Chervenak, V. Vellanki, and Z. Kurmas. “Protecting file systems: A survery of backup techniques,” In Proc. of Joint NASA and IEEE Mass Storage Conference, College Park, MD, March 1998

G. Duzy. “Match snaps to apps,” Storage, Special Issue on Managing the information that drives the enterprise, pp. 46-52, Sept. 2005

[9]

[10] L. P. Cox, C. D. Murray, B. D. Noble. “Pastiche: making backup cheap and easy,” In Proc. of the 5th

USENIX Symposium on Operating System Design and Implementation, Boston, MA, Dec. 2002 [11] A.J.Lewis, J.Thormer, and P.Caulfield. “LVM How-To,” 2006, http://www.tldp.org/HOWTO/LVM-HOWTO.html

[12] D. Hitz, J. Lau, and M. Malcolm. “File system design for an NFS file server appliance,” In Proc. of

the USENIX Winter Technical Conference, San Francisco, CA, 1994, pp. 235-245 [13] A. Sankaran, K. Guinn, and D. Nguyen. “Volume Shadow Copy Service,” March 2004,

http://www.microsoft.com.

[14] E. K. Lee and C. A. Thekkath. “Petal: Distributed virtual disks,” In Proc. of the 7th International

Conference on Architecture Support for Programming Languages an Operating Systems (ASPLOS-7), Cambridge, MA, 1996 [15] EMC Corporation. “EMC TimeFinder Product Description Guide,” 1998, http://www.emc.com/products/product_pdfs/timefinder_pdg. pdf [16] Hitachi Ltd. “Hitachi ShadowImage implementation service,” June 2001,

http://www.hds.com /pdf_143_implem_shadowimage.pdf

[17] L. P. Cox, C. D. Murray, B. D. Noble. “Pastiche: making backup cheap and easy,” In Proc. of the 5th

USENIX Symposium on Operating System Design and Implementation, Boston, MA, Dec. 2002 [18] J. J. Kistler and M. Satyanarayanan. “Disconnected operation in the Coda file system,” In Proc. of

13th ACM Symposium on Operating System Principles, Pacific Grove, CA, Oct. 1991 [19] Z. Peterson and R. C. Burns. “Ext3cow: A Time-Shifting File System for Regulatory Compliance”,

ACM Transactions on Storage, Vol.1, No.2, pp. 190-212, 2005 [20] D.K. Gifford, R.M. Needham and M.D. Schroeder. “Cedar file system,” Communication of the ACM,

Vol.31, No.3, pp. 288-298, March 1988 [21] J.H.Howard, M.L. Kazar, S.G. Menees, D.A. Nichols, M. Satyanarayanan, R.N.Sidebotham, and

M.J.West. “Scale and performance in a distributed file system,” ACM Transactions on Computer Systems, Vol.6, No.1, pp.51-81, Feb. 1988 [22] N.C. Hutchinson, S. Manley, M. Federwisch, G. Harris, D. Hitz, S. Kleiman, and S. O’Malley.

“Logical vs. Physical file system backup,” In Proc. of 3rd Symposium. on Operating system Design and Implementation, New Orleans, LA, Feb 1999, pp. 239-250 [23] S. Quinlan and S. Dorward. “Venti: a new approach to archival storage,” In Proc of the 2002

Conference on File and Storage Technologies, Monterey, CA, Jan. 2002, pp. 89-101 [24] D. S. Santry, M.J. Feeley, N.C. Hutchinson, A.C. Veitch, R.W. Carton, and J. Ofir. “Deciding when

to forget in the Elephant file system,” In Proc. of 17th ACM Symposium on Operating System Principles, Charleston, SC, Dec. 1999, pp. 110-123 [25] A. Sankaran, K. Guinn, and D. Nguyen. “Volume Shadow Copy Service,” March 2004, http://www.microsoft.com. [26] A.J.Lewis, J. Thormer, and P. Caulfield. “LVM How-To,” 2006, http://www.tldp.org/HOWTO/LVM-HOWTO.html

[27] D. Hitz et al. File system design for an nfs file server appliance. In USENIX winter 1994 conference,

pages 235–246, Chateau Lake Louise, Banff, Canada, 1994 [28] W. Xiao, Y. Liu, Q. Yang, J. Ren, and C Xie. “Implementation and Performance Evaluation of Two

Snapshot Methods on iSCSI Target Storages,” in Proc. Of NASA/IEEE Conference on Mass Storage Systems and Technologies, May, 2006

32

持续数据保护(CDP)技术的发展综述

[29] G.A. Gibson and R.V. Meter. “Network Attached Storage Architecture,” Communications of the ACM,

Vol. 43, No 11, pp.37-45, November 2000 [30] D. G. Korn and E. Krell. “The 3-D file system,” In Proc. of the USENIX Summer Conference,

Baltimore, DC, Summer 1989, pp.147-156 [31] B. Berliner and J. Polk. “Concurrent Versions System (CVS),” 2001, http://www.cvshome.org [32] K. McCoy. “VMS File System Internals,” Digital Press, 1990

[33] S. Rhea, P. Eaton, D. Geels, H. Weatherspoon, B.Zhao, and J. Kubiatowicz. “Pond: The OceanStore

prototype,” In Proc. of the 2nd USENIX Conference on File and Storage Technologies (FAST), San Francisco, CA, March 2003 [34] C.A.N. Soules et al. Metadata efficiency in a comprehensive versioning file system. In 2nd USENIX

Conference on File and Storage Technologies, Mar2003 [35] A. Muthitacharoen, B. Chen, and D. Mazières. \"A low-bandwidth network file system,\" In Proc. of

the Eighteenth ACM symposium on Operating systems principles, Alberta, Canada, October 2001 [36] K. Muniswamy-Reddy, C. P. Wright, A. Himmer, and E. Zadok. A Versatile and User-Oriented

Versioning File System [37] C. B. Morrey III and D. Grunwald. Peabody: The time travelling disk. In IEEE Symposium on Mass

Storage Systems, pages 241–253, 2003 [38] J. Damoulakis. “Time to say goodbye to backup?”Storage, Vol. 4, No. 9, pp.64-66, Nov. 2006 [39] M. B. Zhu, Kai Li, R. H. Patterson. “Efficient data storage system,” US Patent No. 6,928,526 [40] Q. Yang, W. Xiao, and J. Ren. TRAP-Array: A disk array architecture providing timely recovery to

any point-in-time. In Proceedings of International Symposium on Computer Architecture, 2006 [41] Xu Li, Changsheng Xie, Qing Yang. Optimal Implementation of Continuous Data Protection (CDP)

in Linux Kernel, Data Storage Div., Huazhong Univ. of Sci. & Technol., Wuhan; 2008. NAS '08. International Conference on Networking, Architecture, and Storage, pp. 28-35, June 12-14,2008 [42] N. Zhu and T. Chiueh. \"Portable and Efficient Continuous Data Protection for Network File Servers,\"

In Proc. of the 37th Annual IEEE/IFIP International Conference on Dependable Systems and Networks (DSN 07), Edinburgh, UK, June 2007 [43] S. Quinlan and S. Dorward. “Venti: a new approach to archival storage,” In Proc of the 2002

Conference on File and Storage Technologies, Monterey, CA, Jan. 2002, pp. 89-101 [44] Stephen J. Bigelow, Features Writer,“CDP overview,”

http://searchdatabackup.techtarget.com/news/article/0,289142,sid187_gci1300292,00.html

[45] Maohua Lu, Shibiao Lin, Tzi-cker Chiueh, “Efficient Logging and Replication Techniques for

Comprehensive Data Protection,” Proceedings of the 24th IEEE Conference on Mass Storage Systems and Technologies [46] Michail D. Flouris and Angelos Bilas: “Clotho: Transparent Data Versioning at the Block I/O Level”.

In NASA/IEEE Conference on Mass Storage Systems and Technologies (MSST2004), 13-16 April 2004, College Park, MD, USA. [47] Guy Laden, Paula Ta-Shma, Eitan Yaffe, Michael Factor, Shachar Fienblit, “Architectures for

controller based CDP, “ Proceedings of the 5th USENIX conference on File and Storage Technologies, p.21-21, February 13-16, 2007, San Jose, CA

作者简介:

王树鹏: 博士,中国科学院计算技术研究所信息智能与信息安全研究中心博士后,数据

保护研发小组组长

云晓春: 中国科学院计算技术研究所研究员

郭 莉: 中国科学院计算技术研究所研究员级高级工程师,信息安全研究中心主任

33

因篇幅问题不能全部显示,请点此查看更多更全内容