DoSTOR专家观点:A-SIS 重复数据删除应运而生
2008-08-21 11:58:22 来源:WEB开发网有时,如果您未使用过 NetApp 存储,您会发现 Snapshot 副本的 NetApp"纯增量"方法在所有主要的存储供应商中独树一帜,并且是我们的 SnapVault 和 SnapMirror 产品背后的基本技术,也是它们成功的主要原因。
压缩
在将数据写入磁盘之前进行压缩是一种节约空间的好方法。很多算法(如 gzip)可将文件压缩到一半或更小,即使没有可供共享的重复数据也能做到。压缩的缺点是它需要耗用大量 CPU 资源。而且,有些类型的数据(如映像)已经过压缩,不能得到这种优势。由于 A-SIS 重复数据删除可将数据的数百份副本压缩成一份,在拥有很多副本的环境中这可能比压缩节约远远更多的空间。
NetApp 目前在 Decru[R] 和 VTL 产品中提供了压缩功能。
内容寻址存储 (CAS)
尽管内容寻址存储的实施方法常常很不一样,但它在概念上与 A-SIS 重复数据删除相似。数据的"斑点"经过哈希处理后,哈希值将用于对其进行识别。对于指定哈希值的数据只会存储一个副本。一个文件可能包含许多斑点。
从某种意义上说,CAS 比 A-SIS 重复数据删除更灵活,因为 CAS 斑点不必是整个文件系统块。但是,在某个很重要的方面,CAS 却不够灵活。借助 A-SIS 重复删除功能,WAFL 可使用指纹作为密钥来共享块,但其基本数据结构仍然不变并且该共享是隐蔽的。(当然,您可随时关闭 A-SIS 重复数据删除功能。) 反之,在大多数 CAS 实施中,始终是通过哈希值来找到斑点。这就使它很难获得较高的性能,因此 CAS 通常是用于大部分为写入操作的归档应用程序,而不是需要对电子发现和数据恢复等即时读取作出快速反应的应用程序。
CAS 有一个方面有时会引起争议,即如果两个斑点具有相同的哈希密钥,则将其视为相同。如果两个不同的斑点碰巧具有相同的哈希值,那么数据就会丢失。这叫做"哈希冲突"或"误判"。有些统计数据可以很好地说明这种情形极不可能出现,但许多人还是不以为然。A-SIS 重复数据删除因此采取了一种保守的方法,只有块的内容(不单单是指纹)相同时才会共享块。在删除作为副本的块之前,A-SIS 逐个字节进行了比较以确保该数据确实相同。
总结
A-SIS 重复数据删除利用 WAFL 的独有特征来节省磁盘空间,同时保持较低系统开销。在许多环境中,可以大量地节约空间。即使在主目录环境等主存储应用程序中,A-SIS 重复数据删除也经常可以节约大量空间。
比如借助 NetApp Snapshot 技术,A-SIS 重复数据删除机制一定会为将来开发新颖的新应用程序(如克隆文件)奠定基础。WAFL 的持续演进是一个令人兴奋的发展过程。
更多精彩
赞助商链接