技术热点分析:重复数据删除
2008-08-21 11:58:33 来源:WEB开发网核心提示: 不要惧怕冲突我们之前一直听说用户害怕使用基于散列的重复删除,因为有可能发生散列冲突两组数据生成相同的散列,技术热点分析:重复数据删除(7),从而导致数据损毁,尽管有因为散列冲突导致数据损毁的风险,例如电池备份缓存和RAID 6,对重复删除目标来说,但是它发生的概率与每天存在的存储管理风险相
不要惧怕冲突
我们之前一直听说用户害怕使用基于散列的重复删除,因为有可能发生散列冲突----两组数据生成相同的散列,从而导致数据损毁。尽管有因为散列冲突导致数据损毁的风险,但是它发生的概率与每天存在的存储管理风险相比是非常小的。
重复删除技术通常采用MD-5 (a 128 字节的散列) 或 SHA-1 (a 160字节的散列) 算法。生成相同的MD5散列的两个随机数据块的可能性大约是1/1037。如果一个PB的数据采用 MD-5算法,以平均大小为4KB的数据块进行“重复删除”处理,两个块生成相同MD-5散列的可能性大约是1/1020。
通过比较,具有一百万小时MTBF(平均故障间隔时间)的两个互为镜像的驱动器在彼此一小时内发生故障的可能性是都是1/1020---比发生散列冲突的机会几乎高10亿倍。通过以太网或FC发送的数据受CRC-32检验和的保护,其未检出数据差错的概率大约是1/4x109。
记住存在散列冲突是很重要,但并不意味着数据会全部丢失。如果重复删除系统错误地把两个数据块识别成含有相同数据的块,当它们不被存储时,系统会继续执行操作。但当存储数据时,数据被错误识别的这个文件会被破坏。所有其它的数据会被正确地恢复。发生散列冲突的概率应该小于行星碰撞或黄石公园大火山喷发的概率。
存在于数据重复删除中更大的风险是来自硬件故障的灾难性的数据损失。因为任何特定的备份工作的数据,实事上,是任何特定的大文件被切成块,分散在整个重复数据删除设备中,它不关心你备份了那个服务器多少次,如果你在重复删除设备中损失了一个RAID设置,你会损失很多数据。于是增强的数据保护功能,例如电池备份缓存和RAID 6,对重复删除目标来说,比对基本的存储应用更重要。
更多精彩
赞助商链接