WEB开发网
开发学院服务器存储技术 解决存储错误管理的困境 阅读

解决存储错误管理的困境

 2008-08-20 11:57:37 来源:WEB开发网   
核心提示: 因此,我还在想,解决存储错误管理的困境(3),这种情况会不会有什么问题?我觉得是有一些问题和值得担忧的地方,● 就像培根先生所说的那样,也许我问得太多了,但是如果这个问题得到了解决,知识就是力量,我想知道RAID控制器里所发生的事情

因此,我还在想,这种情况会不会有什么问题?我觉得是有一些问题和值得担忧的地方。

● 就像培根先生所说的那样,知识就是力量。我想知道RAID控制器里所发生的事情,决策是如何做出的,以及为什么磁盘控制器会出现故障。

● RAID厂商们在看到一些情况后一般会怎么做呢?在过去的10年中,我看到了很多次故障率非常高的情况,特别是在新驱动器的早期发布上。如果我早知道这些统计数据,我就可以更加积极主动地和厂商沟通这些故障(当然,他们很可能不想让我知道)。

● 错误信息都没有被整合到环境中去,而我所能获得的就是一些SNMP警告,或者如果登录到RAID控制器本身,我可能会得到更多的细节。

因此,基于这些理由,我非常希望RAID厂商能够提供关于他们底层所做的事情方面的数据,这样我可以做出更好的决策。问题是你如何让所有这些信息都进入到企业监测框架中去呢?答案是:不容易。

信道误码率

光纤通道和一些其他技术有10E12th比特的信道误码率,但是通过错误纠正代码,可以获得更高的正确率。就我所闻而言,光纤通道的误码率可以纠正到大约10E21st比特。也就是说,在每10E21st比特的信息中可能会因为没有将一个误码监测为误码,或者因为错误地纠正一个误码而得到一个误码。

这个比特数很高,这是一件好事,但是一直以来我所面临的问题是:如果信道开始衰减(见《当比特变坏》)那么会发生什么?如果误码率为10E12th的信道开始衰减,那么会如何影响10E21st的误码纠错率,而信道会何时开始衰减?如果误码率为10E11th或者10E10th时又如何呢?至少,我还没有从公开的渠道中获得任何答案。无论是什么数字,误码纠错率都会以非线性的形式急速下降。在这个领域中,我还是没有发现公开的答案,但我自己估计,大概会以4到5倍的数量级下降。这也就是我为什么希望搜集这种类型的错误信息的原因,因为这样我就可以对整个数据通路进行相关分析。

实际上,在整个数据通路上,都可以得到很多的错误统计数据和信息,问题是没有一个统一的管理工具来获得所有这些信息。我经常要利用很多工具和脚本来确定问题所在并进行相关分析。随着存储环境越来越复杂,将低层次数据、所有的数据通路错误以及警告联系起来肯定是一件非常好的事情。SNMP警告则仅仅是警告,因为几乎任何时候,它们都不会提供足够的信息来告诉你是因为什么原因导致了警告。也许我问得太多了,但是如果这个问题得到了解决,那么肯定会有很多人从中受益。

上一页  1 2 3 

Tags:解决 存储 错误

编辑录入:爽爽 [复制链接] [打 印]
赞助商链接