技术热点分析:重复数据删除
2008-08-21 11:58:33 来源:WEB开发网解决临时区域内文件重复的方案是增量备份。尽管我们很喜欢这样做,尤其是喜欢选择Tivoli Storage Manager 采用的永久增量备份的方法,但当我们考虑到RAID灾难恢复时,我们想到的是重复数据删除,而不是增量备份。增量备份主要是避免重复。
重复数据删除最基本的形式是出现在CAS(内容寻址存储)设备中的单一实例存储(single-instance store),例如,EMC的 Centera。当每个文件存储到CAS系统上时,CAS系统会为存储的文件内容生成一个散列(hash);如果系统中已经存在具有相同散列(hash)的文件,系统就会再创建一个表示副本的指针指向已存在的文件,而不是保存另一个副本。
微软Windows Storage Server的最新版本,Windows服务器的OEM NAS(网络附加存储)版本,采用了与删除重复文件略微不同的方法。当写入数据时,WSS不识别重复文件,而是运行一个后台程序SIS (单一实例存储) Groveler,该程序通过部分文件散列函数(采用二进制比较法)识别重复文件,将重复文件移到公用存储区,原始位置上的文件用连接到公用存储区文件的链接代替。
尽管文件级SIS能够节省一些空间,但是如果我们不只消除重复文件而且还消除了文件内存储的重复数据,那事情可就变得让人有兴趣了。想想Outlook的 .PST文件。例如一个典型的Outlook用户可以拥有300-MB或更大的.PST文件,文件上保存着他过去所有的电子邮件;每天他都会收到一个或更多新的邮件,就因为那天他的.PST文件改变了,你的备份程序就把这个.PST文件包括在增量备份里了,即使这个300MB的文件只有25 KB 的改变。
重复数据删除产品能够识别这个25 KB的新数据,并且剔除其余没有改变的旧的数据,只保存25 KB的新数据,从而节省大量磁盘空间。再进一步设想一下,550KB的附件在20个用户的 .PST文件内,如果它们能够被消除,您就可以缩减大量的数据。象下述这样的一组解决方案是Data Domain倡导的采用“重复数据删除”技术进行备份的目标。即这些采用“重复删除”技术的设备管理 VTL (虚拟磁带库) 或 NAS等备份设备,它们从这些备份应用设备(VTL或NAS设备等)中获取数据,透明地执行“重复删除”处理。
更多精彩
赞助商链接