你对可靠性测试的分析结果有多大的信心?

Date: September 15,2020

　　如何评估故障率的风险

　　当我们经由测试数据估计出一个产品或设备的“故障率”时，这个故障率是一个单个数字，例如0.001/小时 (每1000 小时有一个失效)。虽然这可能是我们所能得出的最佳估计值，但它本身并没有给出精确度，也不能帮助我们了解这个估计值的风险有多大。

　　故障率的定义为 λ = （测试故障总次数）/（总测试小时数）。假设我们计算出的值为0.001/小时（每1000 小时有一个失效），如果λ 的真实值会高达到估计值的10 倍，那就是0.01，每100 小时就有一个失效了！反之，如果λ 的真实值只会高到估计值的 1.2倍，那就是0.0012，也就是约每833 小时有一个失效。这里头的差别是很大的。我们想知道λ 的真实值有可能会高达到这个最佳估计值的几倍？这对于以后产品的保修费用和备件数量的准备都有不一样的影响！

　　“置信度”的概念

　　要帮助我们了解这个估计值的风险有多大，我们需要知道一个称为"置信区间"?(Confidence Interval) 的概念。?其实就是对于这个故障率来估计一个区间范围，有上限及下限。90%"置信区间"是基于?90%?的置信度?(Confidence Level)而来的。意思是说，如果你重复相同的实验很多次（譬如说100?次），并且你一次又一次地使用相同的估计方法来建构一个对于故障率λ?的区间，那么你将得到100个区间。这?100个区间都会有着不同的中心点估计值和宽度（上限及下限的差决定了宽度）。?那么这100个区间里面会有90个区间将包含真实的故障率?λ?值，另外的10个区间没有包含真实的故障率λ?，所以这叫做?90%??（=?90个区间/100?个区间）的?置信度。?很重要的一点是，其实我们是并不知道真实的λ值是多少的，我们只能用这个实验得出的数据来估计它。

　　一般来说我们仅会做一次实验，而不是100次相同的实验。根据这一次的实验，我们可以用既定的统计手法得出一个区间（一个90%的置信区间），?于是我们说“这个区间有90%?的置信度会包含真实的λ?值?”，而且λ的真实值不在这个区间里的风险只有百分之十（10%）。

　　我们知道随机和变异是存在实验过程之中的，所以概率的描述是相对应于实验的过程，而不是相对应于一次实验的数据所计算出来的区间值上。因此我们用置信度来描述这个实验算出来的区间值，而不是用概率来描述。

　　我们不说“这个区间值有90% 的概率会包含真实的λ值”。我们说“这个区间值有90% 的置信度会包含真实的λ值”

　　举个例子

　　如果我们有 25 个计算机内存磁盘的高温老化测试，也有相对应的失效时间。我们可以计算出故障率的估计值为λ = 0.001/小时（每1000 小时有1个故障）。我们也用可靠性的统计手法构建出一个90%的"置信区间“，每1000 小时的下限为0.78个故障，上限为1.25个故障。我们是这样描述的：对于这个计算机内存磁盘在高温老化测试下的故障率，90%的"置信区间“为每 1000 小时 0.78 到 1.25 个故障。

　　你可以把90%的置信度看作是描述赌局的赔率（Odds）的一种方式。赔率也就是收益与赌注的比率。假设你是赌局中的庄家，赌局的赔率是9比1，也就是收益（9）与赌注（1）的比。对手下注一元，他赢了，你就得赔他9倍，就是9元。如果对手下注100元，他赢了，你就赔他900元。从庄家的角度来说，庄家赢的可能性是90% = 9/(9+1)，对手赢的可能性是10% = 1/(9+1)。你可以把90%置信度看成是你（庄家）赢的可能性。当对手下注十万元，你有百分之九十的“信心”你会赢，只有百分之十的可能性你会输掉九十万元。你之所以有这么大的信心，是因为你对你手上的好牌坚信不移，你的信心越大，你就越敢“赌”。

　　回到计算机内存磁盘的故障率，90%的"置信区间“为每 1000 小时0.78到1.25 个故障（这是由25个样本测试所得到的，你相信你的测试及结果，这是你手上的好牌）。因此你深信十次有九次（90%置信度，也是你会赢的信心），这个真实的故障率，最小不会低于0.78，最大不会大于1.25。也就是说，你的信心满满（90%），愿意“赌”一下这个0.78到1.25的这个区间值。

　　如果你选用的置信度是99%，那么相对应的赔率是99比1，这是一个非常高的赔率，也就是说你手中的牌得非常好，那你赢的可能性是99% = 99/(99+1)这么高！当对手下注是十万元，你有信心你（庄家）会赢。你也知道，你若输了，你就要赔对手九百九十万元！那么你如何能具备这么高的信心呢？关键在于你的牌得好！

　　从工程和技术的层面来说，你就要有许多的证据（如测试数据）给你的信心做支撑。同时，置信区间的宽度也取决于实验样本数量的多寡。样本数量越大，获得的置信区间越窄，估算的准确度相对也高，风险就降低。对于故障率，我们通常使用置信区间的上限，因为我们想要知道故障率最高会有多高。对于 MTBF（平均失效时间），我们通常使用置信区间的下限，因为我们想要知道这个时间到底会有多低。

Reliasoft RAM分析支持列车修程优化

可靠性分析和管理软件

你对可靠性测试的分析结果有多大的信心?

Date: September 15,2020

获取试用体验