磁盘故障预测方法、装置及计算机可读存储介质与流程

专利2022-06-29  61


本发明涉及计算机技术领域,具体涉及磁盘故障预测方法、装置及计算机可读存储介质。



背景技术:

随着计算机技术的不断发展,服务器中需要存储的数据越来越多。服务器均包括中央处理器(centralprocessingunit,cpu)、内存、存储介质等部件。cpu和内存的寿命一般在8~10年,而磁盘作为一种重要的存储介质,寿命一般在3~5年。根据统计大规模集群系统中的数据可知,50%~60%以上的故障来源于磁盘等存储介质,剩下40%~50%的故障来源于其他部件的总和,如cpu、主板、图形处理器(graphicsprocessingunit,gpu)、阵列卡等部件。此外,相对于其他部件,磁盘的数量较多,在大规模集群系统中由于磁盘故障而对集群性能影响较大。



技术实现要素:

本发明实施例提供磁盘故障预测方法、装置及计算机可读存储介质,用于预测磁盘出现故障的概率。

第一方面提供一种磁盘故障预测方法,包括:获取磁盘检测数据,所述磁盘检测数据包括磁盘的当前检测数据和历史检测数据;从所述磁盘检测数据中获取多组目标检测数据;基于所述多组目标检测数据,得到所述磁盘的第一故障预测类别;基于所述磁盘的第一故障预测类别,得到所述磁盘出现故障的概率。在本公开实施例中,可以从磁盘的检测数据中获取多组目标检测数据,基于多组目标检测数据得到磁盘的故障预测类别,并基于故障预测类别得到磁盘出现故障的概率,从而实现较为准确的磁盘故障预测。

作为一种可能的实施方式,所述方法还包括:基于所述磁盘所在服务器的类型、所述磁盘的使用年限、所述磁盘所在服务器上的运行业务、所述磁盘的坏块率和所述磁盘的性能参数中的至少一种,校正所述磁盘出现故障的概率。由于磁盘出现故障的概率不仅与磁盘当前的运行状态有关,还与磁盘的使用环境、使用年限、性能参数、坏块率等信息有关,因此,在根据磁盘的运行状态数据预测出磁盘出现故障的概率之后,可以使用上述信息对预测出的概率进行修正,以便提高磁盘出现故障的概率的准确性。

作为一种可能的实施方式,所述基于所述磁盘所在服务器的类型、所述磁盘的使用年限、所述磁盘所在服务器上的运行业务、所述磁盘的坏块率和所述磁盘的性能参数中的至少一种,校正所述磁盘出现故障的概率包括:若所述磁盘所在服务器的类型为特定类型、所述磁盘的使用年限大于第一阈值、所述磁盘所在服务器上的运行业务为特定业务、所述磁盘的坏块率大于第二阈值和所述磁盘的性能参数满足特定条件中的至少一项满足,将所述磁盘出现故障的概率校正为第二故障预测类别对应的概率。

作为一种可能的实施方式,所述方法还包括:在所述磁盘出现故障的概率达到第三阈值的情况下,触发针对所述磁盘的预故障处理流程。在预测出的磁盘出现故障的概率较大的情况下,可以触发针对磁盘的预故障处理流程,进行相应的处理,以便可以对出现故障较大的磁盘进行提前处理,从而可以尽量地避免磁盘出现故障的可能。

作为一种可能的实施方式,所述基于所述磁盘的第一故障预测类别,得到所述磁盘出现故障的概率包括:基于所述磁盘的第一故障预测类别以及预设的故障预测类别与故障概率区间之间的对应关系,得到所述磁盘出现故障的概率区间。

作为一种可能的实施方式,所述多组目标检测数据包括多个目标种类的检测数据,所述从所述磁盘检测数据中获取多组目标检测数据包括:确定所述磁盘检测数据包括的多个种类的数据中每个种类的检测数据与参考数据之间的关联度;对所述多个种类对应的所述关联度进行平均处理,得到平均关联度;将所述磁盘检测数据包括的多个目标种类的检测数据确定为多组所述目标检测数据,其中,所述目标种类为所述多个种类中对应的所述关联度大于所述平均关联度的种类。磁盘检测数据包括的种类较多,但并不是所有种类都对磁盘的影响较大,因此,可以从所有种类中选取对磁盘影响较大的种类,这样不仅不会影响预测磁盘出现故障的概率,而且还会减少需要处理的数据量,从而可以提高预测效率。

作为一种可能的实施方式,所述基于所述多组目标检测数据,得到所述磁盘的第一故障预测类别包括:将所述多组目标检测数据中包括的不同时间的检测数据作为不同的样本,对所述多组目标检测数据对应的多个样本进行聚类处理,得到聚类结果;基于所述聚类结果,确定所述多组目标检测数据中当前时间的检测数据所对应样本所属的类别;基于所述对应样本所属的类别,确定第一故障预测类别。

作为一种可能的实施方式,所述方法还包括:剔除所述当前检测数据中的异常数据;对所述历史检测数据中包含的所述异常数据所属类别的历史数据进行处理,得到所述所属类别的更新后的当前数据;所述从所述磁盘检测数据中获取多组目标检测数据包括:从更新后的磁盘检测数据中获取多组目标检测数据,其中,所述更新后的磁盘检测数据包括所述所属类别的更新后的当前数据。磁盘检测数据中采集的有些数据并不合理,而这些数据有可能影响预测结果,因此,可以对异常数据进行处理,以便提高预测的准确性。

作为一种可能的实施方式,所述从所述磁盘检测数据中获取多组目标检测数据,包括:在所述磁盘的当前检测数据中指定种类的数据的数值小于第四阈值的情况下,从所述磁盘检测数据中获取多组目标检测数据;所述方法还包括:在所述当前检测数据中所述指定种类的数据的数值大于或等于所述第四阈值的情况下,触发所述磁盘的预故障处理流程。在磁盘检测数据中的某些种类对磁盘的影响非常大,在这些种类的数据较大的情况下,表明磁盘出现故障的概率非常大,可以不需要后续的预测,从而可以减少预测流程,提高处理效率。

第二方面提供一种磁盘故障预测装置,包括:第一获取单元,用于获取磁盘检测数据,所述磁盘检测数据包括磁盘的当前检测数据和历史检测数据;第二获取单元,用于从所述磁盘检测数据中获取多组目标检测数据;第一得到单元,用于基于所述多组目标检测数据,得到所述磁盘的第一故障预测类别;第二得到单元,用于基于所述磁盘的第一故障预测类别,得到所述磁盘出现故障的概率。

第三方面提供一种磁盘故障预测装置,包括处理器和存储器,存储器用于存储计算机程序,处理器用于调用存储器存储的计算机程序执行如第一方面或第一方面中任一种可能的实施方式提供的磁盘故障预测方法。

第四方面提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序代码,该程序代码当被处理器执行时使该处理器执行第一方面或第一方面中任一种可能的实施方式提供的磁盘故障预测方法。

第五方面提供一种应用程序,该应用程序用于在运行时执行第一方面或第一方面中任一种可能的实施方式提供的磁盘故障预测方法。

附图说明

图1是本发明实施例提供的一种磁盘故障预测方法的流程示意图;

图2是本发明实施例提供的另一种磁盘故障预测方法的流程示意图;

图3是本发明实施例提供的一种基于多组目标检测数据和聚类算法得到磁盘的第一故障预测类别的流程示意图;

图4是本发明实施例提供的一种磁盘故障预测装置的结构示意图;

图5是本发明实施例公开的另一种磁盘故障预测装置的结构示意图。

具体实施方式

本发明实施例提供磁盘故障预测方法、装置及计算机可读存储介质,用于预测磁盘出现故障的概率。以下分别进行详细说明。

请参阅图1,图1是本发明实施例提供的一种磁盘故障预测方法的流程示意图。其中,该磁盘故障预测方法可以应用于任意电子设备,如终端、服务器、计算机设备等。如图1所示,该磁盘故障预测方法可以包括以下步骤。

101、获取磁盘检测数据。

可以实时地或周期性地获取磁盘检测数据。磁盘检测数据可以包括磁盘的当前检测数据和历史检测数据。磁盘的历史检测数据为已经用于预测过磁盘出现故障的概率的磁盘的检测数据。磁盘的历史检测数据可以只包括一个时间采集的检测数据,即一次历史检测数据,也可以包括多个不同时间采集的检测数据,即多个历史检测数据。磁盘的当前检测数据为未用于预测过磁盘出现故障的概率的磁盘的检测数据。当前检测数据和历史检测数据可以包括多个种类的数据。磁盘检测数据可以为一个磁盘的检测数据,也可以为多个磁盘的检测数据。后续是针对一个磁盘的检测数据进行说明的,但是针对多个磁盘的检测数据同样适用。在磁盘检测数据为多个磁盘的检测数据的情况下,多个磁盘可以为大规模集群系统中一个服务器上的多个磁盘,也可以为大规模集群系统中多个服务器上的多个磁盘,在此不加限定。历史检测数据可以是经过处理的检测数据,也可以是未经过处理的原始检测数据。历史检测数据可以存储在本地,也可以存储在云端服务器,还可以存储在其它设备。

获取磁盘的当前检测数据,可以是先向大规模集群系统中的一个或多个服务器发送第一数据获取请求,大规模集群系统中的一个或多个服务器接收到第一数据获取请求之后,可以将采集的磁盘检测数据进行上报。也可以是大规模集群系统中的一个或多个服务器主动上报采集的磁盘检测数据。磁盘检测数据可以采用自我监测、分析及报告技术(self-monitoringanalysisandreportingtechnology,s.m.a.r.t)进行采集,也可以采用其它方法进行采集,在此不加限定。

获取磁盘的历史检测数据,可以是向存储磁盘的历史检测数据的设备发送第二数据获取请求,之后接收该设备发送的该磁盘的历史检测数据。第二数据获取请求可以携带磁盘的标识。第二数据获取请求与第一数据获取请求可以是同时发送的,也可以是接收到磁盘的当前检测数据之后发送的。

102、从磁盘检测数据中获取多组目标检测数据。

由于磁盘检测数据包括的种类较多,但并不是所有种类的数据对磁盘的影响都比较大,只有部分种类的数据对磁盘的影响较大。因此,获取到磁盘检测数据之后,可以从磁盘检测数据中获取多组目标检测数据,以便从磁盘检测数据中选取出对磁盘影响较大的种类的数据。多组目标检测数据可以包括多个目标种类的检测数据,可以先确定磁盘检测数据包括的多个种类的数据中每个种类的检测数据与参考数据之间的关联度,对多个种类对应的关联度进行平均处理得到平均关联度,将磁盘检测数据包括的多个目标种类的检测数据确定为多组目标检测数据,一组目标检测数据即一个目标种类的检测数据。其中,目标种类为多个种类中对应的关联度大于平均关联度的种类。每个种类的参考数据是为每个种类人为设定的比较理想的数据。多个目标种类可以如表1所示:

表1特定种类的信息

多个目标种类也可以包括磁盘检测数据包括的种类中的其它种类,在此不作限定。

可选地,多组目标检测数据可以包括多个目标类别的检测数据,其中,每个目标类别的检测数据可以包括该目标类别的历史数据和当前数据,历史数据包括在至少一次历史故障检测中获取到或提取的数据。

103、基于多组目标检测数据,得到磁盘的第一故障预测类别。

从磁盘检测数据中获取到多组目标检测数据之后,可以基于多组目标检测数据,得到磁盘的第一故障预测类别。可以将多组目标检测数据中包括的不同时间的检测数据作为不同的样本,对多组目标检测数据对应的多个样本进行聚类处理得到聚类结果,基于聚类结果确定多组目标检测数据中当前时间的检测数据所对应样本所属的类别,基于当前时间的检测数据所对应样本所属的类别确定第一故障预测类别。

可以预先设置好多个故障预测类别,对多组目标检测数据对应的多个样本进行聚类,即将多组目标检测数据对应的多个样本中的每个样本分别归类至多个故障预测类别中的一个故障预测类别。

104、基于磁盘的第一故障预测类别,得到磁盘出现故障的概率。

基于多组目标检测数据,得到磁盘的第一故障预测类别之后,可以基于磁盘的第一故障预测类别,得到磁盘出现故障的概率。在设置多个故障预测类别的同时,可以为多个故障预测类别中的每个故障预测类别分别设置一个故障概率区间,并建立多个故障预测类别中每个故障预测类别与对应的故障概率区间之间的对应关系。因此,基于多组目标检测数据得到磁盘的第一故障预测类别之后,可以基于磁盘的第一故障预测类别以及预设的故障预测类别与故障概率区间之间的对应关系,得到磁盘出现故障的概率区间,即根据预设的故障预测类别与故障概率区间之间的对应关系,获取磁盘的第一故障预测类别对应的磁盘出现故障的概率区间。

例如,预设了4个故障预测类别,分别为故障预测类别1、故障预测类别2、故障预测类别3和故障预测类别4,故障预测类别1对应磁盘出现故障的概率在0%~40%之间,故障预测类别2对应磁盘出现故障的概率在40%~60%之间,故障预测类别3对应磁盘出现故障的概率在60%~80%之间,故障预测类别4对应磁盘出现故障的概率在80%~100%之间。可见,一个故障预测类别对应一个磁盘出现故障的概率范围。

在图1所描述的磁盘故障预测方法中,可以根据磁盘的当前检测数据和历史检测数据预测磁盘出现故障的概率。此外,由于使用了磁盘的当前检测数据和历史检测数据,所用数据比较丰富,因此,可以提高预测的准确性。

请参阅图2,图2是本发明实施例提供的另一种磁盘故障预测方法的流程示意图。其中,该磁盘故障预测方法可以应用于任意电子设备,如终端、服务器、计算机设备等。如图2所示,该磁盘故障预测方法可以包括以下步骤。

201、获取包括磁盘的当前检测数据和历史检测数据的磁盘检测数据。

可以实时地或周期性地获取磁盘检测数据。磁盘检测数据可以包括磁盘的当前检测数据和历史检测数据。磁盘的历史检测数据为已经用于预测过磁盘出现故障的概率的磁盘的检测数据。磁盘的历史检测数据可以只包括一个时间采集的检测数据,即一次历史检测数据,也可以包括多个不同时间采集的检测数据,即多个历史检测数据。磁盘的当前检测数据为未用于预测过磁盘出现故障的概率的磁盘的检测数据。当前检测数据和历史检测数据可以包括多个种类的数据。磁盘检测数据可以为一个磁盘的检测数据,也可以为多个磁盘的检测数据。后续是针对一个磁盘的检测数据进行说明的,但是针对多个磁盘的检测数据同样适用。在磁盘检测数据为多个磁盘的检测数据的情况下,多个磁盘可以为大规模集群系统中一个服务器上的多个磁盘,也可以为大规模集群系统中多个服务器上的多个磁盘,在此不加限定。历史检测数据可以是经过处理的检测数据,也可以是未经过处理的原始检测数据。历史检测数据可以存储在本地,也可以存储在云端服务器,还可以存储在其它设备。

获取磁盘的当前检测数据,可以是先向大规模集群系统中的一个或多个服务器发送第一数据获取请求,大规模集群系统中的一个或多个服务器接收到第一数据获取请求之后,可以将采集的磁盘检测数据进行上报。也可以是大规模集群系统中的一个或多个服务器主动上报采集的磁盘检测数据。磁盘检测数据可以采用s.m.a.r.t进行采集,也可以采用其它方法进行采集,在此不加限定。

获取磁盘的历史检测数据,可以是向存储磁盘的历史检测数据的设备发送第二数据获取请求,之后接收该设备发送的该磁盘的历史检测数据。第二数据获取请求可以携带磁盘的标识。第二数据获取请求与第一数据获取请求可以是同时发送的,也可以是接收到磁盘的当前检测数据之后发送的。

202、判断磁盘的当前检测数据中是否存在缺失数据。

获取到包括磁盘的当前检测数据和历史检测数据的磁盘检测数据之后,可以先判断磁盘的当前检测数据中是否存在缺失数据,在判断出磁盘的当前检测数据中不存在缺失数据的情况下,表明采集的数据没有问题,可以执行步骤203,在判断出磁盘的当前检测数据中存在缺失数据的情况下,表明采集的数据不全,或者该数据由于是异常数据而已经被剔除,此时,可以结束流程,并且删除磁盘的当前检测数据,或者,也可以重新执行步骤201,还可以使用磁盘的历史检测数据中该缺失数据所属类别对应的数据补全该缺失数据,等等。

203、判断磁盘的当前检测数据中指定种类的数据的数值是否小于第四阈值,在判断出磁盘的当前检测数据中指定种类的数据的数值小于第四阈值的情况下,执行步骤204,在判断出磁盘的当前检测数据中指定种类的数据的数值大于或等于第四阈值的情况下,执行步骤209。

获取到包括磁盘的当前检测数据和历史检测数据的磁盘检测数据之后,或者在判断出磁盘的当前检测数据中不存在缺失数据的情况下,可以继续判断磁盘的当前检测数据中指定种类的数据的数值满足预设的故障判定条件,其中,该故障判定条件可以基于需要预先设置,例如,指定种类的数据的数值达到第四阈值,可选地,在判断出磁盘的当前检测数据中指定种类的数据的数值小于(或者小于或等于)第四阈值的情况下,表明无法确定磁盘出现故障的概率的大小,可以执行步骤204,在判断出磁盘的当前检测数据中指定种类的数据的数值大于或等于(或者大于)第四阈值的情况下,表明磁盘出现故障的概率非常大,可以执行步骤209。或者,故障判定条件也可以包括其他条件,本公开实施例对此不做限定。

204、从磁盘检测数据中获取多组目标检测数据。

由于磁盘检测数据包括的种类较多,但并不是所有种类的数据对磁盘的影响都比较大,只有部分种类的数据对磁盘的影响较大。因此,获取到包括磁盘的当前检测数据和历史检测数据的磁盘检测数据之后,或者在判断出磁盘的当前检测数据中不存在缺失数据的情况下,或者在判断出磁盘的当前检测数据中指定种类的数据的数值不满足上述故障判定条件的情况下,可以从磁盘检测数据中获取多组目标检测数据,以便从磁盘检测数据中选取出对磁盘影响较大的种类的数据。多组目标检测数据可以包括多个目标种类的检测数据,可以先确定磁盘检测数据包括的多个种类的数据中每个种类的检测数据与参考数据之间的关联度,对多个种类对应的关联度进行平均处理得到平均关联度,将磁盘检测数据包括的多个目标种类的检测数据确定为多组目标检测数据,一组目标检测数据即一个目标种类的检测数据。其中,目标种类为多个种类中对应的关联度大于平均关联度的种类。每个种类的参考数据是为每个种类人为设定的比较理想的数据。多个目标种类可以如表1所示。多个目标种类也可以包括磁盘检测数据包括的种类中的其它种类,在此不作限定。

从磁盘检测数据中获取多组目标检测数据之前,还可以先判断磁盘检测数据中是否存在异常数据,在判断出磁盘检测数据中存在异常数据的情况下,可以对异常数据进行处理。在磁盘的历史检测数据为采集的原始检测数据的情况下,对异常数据进行处理,即剔除当前检测数据和历史检测数据中的所有异常数据,并在剔除异常数据的位置添加磁盘检测数据中该异常数据所属类别的所有非异常数据的平均值。在磁盘的历史检测数据为处理后的检测数据,即磁盘的历史检测数据是已经对异常数据进行处理过的检测数据,的情况下,对异常数据进行处理,即剔除磁盘的当前检测数据中的异常数据,对磁盘的历史检测数据中包含的异常数据所属类别的所有历史数据进行平均数据,得到异常数据所属类别的更新后的当前数据。从磁盘检测数据中获取多组目标检测数据,即从更新后的磁盘检测数据中获取多组目标检测数据,其中,更新后的检测数据包括异常数据所属类别的更新后的当前数据。可以为剔除当前检测数据中的所有异常数据,并在剔除异常数据的位置添加历史检测数据中该异常数据所属类别的所有数据的平均值。

判断磁盘检测数据中是否存在异常数据时,是按照种类为单位进行判断的,可以是每个种类对应一个阈值范围,判断每个种类的数据中是否存在超出这个种类对应的阈值范围的数据,在一个种类的数据超出这个种类对应的阈值范围的情况下,表明这个种类的数据为异常数据。也可以是先计算每个种类的所有数据的平均值,判断每个种类的数据中与这个平均值之间的差值的绝对值是否大于一个阈值的数据,在一个种类的数据中与这个平均值之间的差值的绝对值大于一个阈值的情况下,表明这个种类的数据为异常数据。还可以根据每个种类的数据的方差进行判断,还可以使用其他方法进行判断,在此不加限定。

由于磁盘的不同种类的数据的物理意义不同,导致数据的量钢可能不同,不便于比较,或在比较时难以得到正确的结论。因此,为了避免上述问题。对异常数据进行处理之后,可以对处理后的磁盘检测数据进行归一化处理。从磁盘检测数据中获取多组目标检测数据,即从归一化处理后的磁盘检测数据中获取多组目标检测数据。

假设有k个故障预测类别,磁盘检测数据包括n个种类的检测数据,磁盘检测数据包括m个不同时间的检测数据,k、m和n为大于1的整数。同一时间的n个种类的检测数据可以确定为一个样本。假设对异常数据进行处理后的磁盘检测数据可以表示如下所示:

x′i(k)为第k样本中的第i个种类的检测数据,经过归一化处理的xi(k)可表示如下:

归一化处理后的磁盘检测数据可以表示如下:

归一化处理后的磁盘检测数据为[0,1]之间的值。之后可以获取参考数据x0=(x01(1),x0(2),…,x0(m))。参考数据是预先为上面的m个样本中的每个样本设置的值。由参考数据和归一化处理后的磁盘检测数据可以组合成如下的矩阵:

之后计算上述矩阵中每个种类的检测数据与参考数据的关联度,可以表示如下:

ρ为分辨系数,0<ρ<1。ρ越小,ζi(k)之间的差异越大,区分能力越强。ρ可以为0.5,也可以为其它值,在此不加限定。之后计算这些关联度之间的平均值,可以表示如下:

之后将n个种类中对应的关联度大于平均值的种类确定为目标种类。

205、基于多组目标检测数据,得到磁盘的第一故障预测类别。

从磁盘检测数据中获取到多组目标检测数据之后,或者在判断出磁盘的当前检测数据中不存在缺失数据的情况下,或者在判断出磁盘的当前检测数据中指定种类的数据的数值不满足故障判定条件的情况下,可以基于多组目标检测数据,得到磁盘的第一故障预测类别。可以将多组目标检测数据中包括的不同时间的检测数据作为不同的样本,对多组目标检测数据对应的多个样本进行聚类处理得到聚类结果,基于聚类结果确定多组目标检测数据中当前时间的检测数据所对应样本所属的类别,基于当前时间的检测数据所对应样本所属的类别确定第一故障预测类别。

可以预先设置好多个故障预测类别,对多组目标检测数据对应的多个样本进行聚类,即将多组目标检测数据对应的多个样本中的每个样本分别归类至多个故障预测类别中的一个故障预测类别。

206、基于磁盘的第一故障预测类别,得到磁盘出现故障的概率。

基于多组目标检测数据,得到磁盘的第一故障预测类别之后,可以基于磁盘的第一故障预测类别,得到磁盘出现故障的概率。在设置多个故障预测类别的同时,可以为多个故障预测类别中的每个故障预测类别分别设置一个故障概率区间,并建立多个故障预测类别中每个故障预测类别与对应的故障概率区间之间的对应关系。因此,基于多组目标检测数据得到磁盘的第一故障预测类别之后,可以基于磁盘的第一故障预测类别以及预设的故障预测类别与故障概率区间之间的对应关系,得到磁盘出现故障的概率区间,即根据预设的故障预测类别与故障概率区间之间的对应关系,获取磁盘的第一故障预测类别对应的磁盘出现故障的概率区间。

例如,预设了4个故障预测类别,分别为故障预测类别1、故障预测类别2、故障预测类别3和故障预测类别4,故障预测类别1对应磁盘出现故障的概率在0%~40%之间,故障预测类别2对应磁盘出现故障的概率在40%~60%之间,故障预测类别3对应磁盘出现故障的概率在60%~80%之间,故障预测类别4对应磁盘出现故障的概率在80%~100%之间。可见,一个故障预测类别对应一个磁盘出现故障的概率范围。

207、基于磁盘所在服务器的类型、磁盘的使用年限、磁盘所在服务器上的运行业务、磁盘的坏块率和磁盘的性能参数中的至少一种,校正磁盘出现故障的概率。

基于磁盘的第一故障预测类别得到磁盘出现故障的概率之后,可以基于磁盘所在服务器的类型、磁盘的使用年限、磁盘所在服务器上的运行业务、磁盘的坏块率和磁盘的性能参数中的至少一种,校正磁盘出现故障的概率。可以先执行步骤208,在判断出磁盘出现故障的概率达到(大于或等于,或者大于)第三阈值的情况下,可以执行步骤209,在判断出磁盘出现故障的概率未达到(小于,或者小于或等于)第三阈值的情况下,可以执行步骤207。

基于磁盘所在服务器的类型、磁盘的使用年限、磁盘所在服务器上的运行业务、磁盘的坏块率和磁盘的性能参数中的至少一种,校正磁盘出现故障的概率,即获取磁盘所在服务器的类型、磁盘的使用年限、磁盘所在服务器上的运行业务、磁盘的坏块率和磁盘的性能参数中的至少一种,在磁盘所在服务器的类型为特定类型、磁盘的使用年限满足第一预设条件(例如大于第一阈值)、磁盘所在服务器上的运行业务为特定业务、磁盘的坏块率满足第二预设条件(例如大于第二阈值)和磁盘的性能参数满足特定条件中的至少一项满足的情况下,将磁盘出现故障的概率校正为第二故障预测类别对应的概率。第二故障预测类别对应的概率大于第一故障预测类别对应的概率。第二故障预测类别对应的概率可以是比第一故障预测类别对应的概率大于一个概率区间的概率区间,也可以是概率区间最大的概率区间,还可以是比第一故障预测类别对应的概率大于两个或两个以上概率区间的概率区间。

由于服务器的类型不同,服务器上的磁盘的作用不同,在磁盘所在服务器的类型为特定类型的情况下,磁盘的使用率较高,因此,磁盘出现故障的概率较高,可以调高磁盘出现故障的概率。特定类型的数量可以为一个,也可以为多个,在特定类型的数量为多个的情况下,不同特定类型可以调高磁盘出现故障的概率的数值也可以不同。由于磁盘的使用年限越长,磁盘出现故障的概率越大,因此,在磁盘的使用年限大于第一阈值的情况下,可以调高磁盘出现故障的概率。不同类型的磁盘,第一阈值可以不同,调高磁盘出现故障的概率的数值也可以不同。由于有些业务使用磁盘的次数较多,有些业务使用磁盘的次数较少,因此,在磁盘所在服务器上的运行业务为特定业务的情况下,表明使用磁盘的次数较多,磁盘出现故障的概率较大,可以调高磁盘出现故障的概率。磁盘上运行的业务不同,调高磁盘出现故障的概率的数值可以不同。由于磁盘的坏块率越多,意味着磁盘出现故障的概率越大,因此,在磁盘的坏块率大于第二阈值的情况下,表明磁盘出现故障的概率较大,可以调高磁盘出现故障的概率。磁盘的坏块率(或坏块率区间)不同,调高磁盘出现故障的概率的数值可以不同。磁盘的性能参数可以包括大文件读写带宽和小文件读写带宽,在大文件读写带宽大于(大于或等于)一定阈值,或者小文件读写带宽小于(小于或等于)一定阈值或一定比例的情况下,表明磁盘出现故障的概率较大,可以调高磁盘出现故障的概率。

208、判断磁盘出现故障的概率是否达到第三阈值,在判断出磁盘出现故障的概率达到第三阈值的情况下,执行步骤209,在判断出磁盘出现故障的概率未达到第三阈值的情况下,结束。

基于磁盘的第一故障预测类别得到磁盘出现故障的概率之后,或者基于磁盘所在服务器的类型、磁盘的使用年限、磁盘所在服务器上的运行业务、磁盘的坏块率和磁盘的性能参数中的至少一种,校正磁盘出现故障的概率之后,可以判断磁盘出现故障的概率是否达到第三阈值,在判断出磁盘出现故障的概率达到第三阈值的情况下,表明磁盘出现故障的概率较大,可以执行步骤209,在判断出磁盘出现故障的概率未达到第三阈值的情况下,表明磁盘出现故障的概率较小,可以结束。此外,还可以存储磁盘的当前检测数据,以便后续使用。

209、触发针对磁盘的预故障处理流程。

在判断出磁盘的当前检测数据中指定种类的数据的数值满足故障判定条件的情况下,或者在判断出磁盘出现故障的概率达到第三阈值的情况下,可以触发针对磁盘的预故障处理流程,可以是发送警报或提示信息,以便相关人员根据警报或提示信息对磁盘进行更换或维护,从而可以避免由于磁盘出现故障导致服务器存储数据丢失等的问题。

步骤205具体可以基于多组目标检测数据和聚类算法,得到磁盘的第一故障预测类别。在聚类算法为k均值聚类算法(k-meansclusteringalgorithm)的情况下,请参阅图3,图3是本发明实施例提供的一种基于多组目标检测数据和聚类算法得到磁盘的第一故障预测类别的流程示意图。假设从磁盘检测数据中获取到了l组目标检测数据,l为大于1的整数。如图3所示,可以包括以下步骤:

301、计算m个样本中每个样本与k个故障预测类别中每个故障预测类别的当前中心点之间的距离。

故障预测类别的最初中心点可以预先设置或者随机设置的,其中,这里的样本可以包括多组目标检测数据中对应于某个时间或某次故障检测的多个类别的数据,即每个样本包括l个元素。上述距离可以是欧氏距离,也可以是其它距离,在此不加限定。

302、将m个样本分别归类至对应的距离最小的故障预测类别。

303、计算归类至每个故障预测类别的样本包括的数据的平均值,得到每个故障预测类别的下一个中心点。

计算归类至每个故障预测类别的样本包括的数据的平均值,得到每个故障预测类别的下一个中心点,即计算归类至第三故障预测类别的所有样本的第一种类的数据的平均值,得到第三故障预测类别的下一个中心点。第三故障预测类别为k个故障预测类别中的任一故障预测类别。第一种类为n个种类中任一种类。

304、判断每个故障预测类别的下一个中心点与当前中心点是否均相同,在判断出k个故障预测类别中存在故障预测类别的下一个中心点与当前中心点不同的情况下,执行步骤305,在判断出每个故障预测类别的下一个中心点与当前中心点均相同的情况下,执行步骤306。

305、将每个故障预测类别的下一个中心点确定为每个故障预测类别的当前中心点。

将每个故障预测类别的下一个中心点确定为每个故障预测类别的当前中心点之后,可以重复执行上述步骤,直到将磁盘的当前检测数据对应的样本归类的故障预测类别确定为磁盘的第一故障预测类别。

306、将磁盘的当前检测数据对应的样本归类的故障预测类别确定为磁盘的第一故障预测类别。

从归一化处理后的n个种类的数据中选取出多个目标种类的数据之后,可以初始化k个故障预测类别中每个故障预测类别的中心点,中心点的维度与多个目标种类包括的种类的数量相同。之后可以计算m个样本与k个故障预测类别中每个故障预测类别之间的欧氏距离,可以表示如下:

lkj为第k个样本与第j个类别之间的欧氏距离,可以将第k个样本归类至欧氏距离最小的故障预测类别。将m个样本分别归类至k个故障预测类别之后,可以更新k个故障预测类别中每个故障预测类别的中心点,更新方法可以参考图3对应的描述。

请参阅图4,图4是本发明实施例提供的一种磁盘故障预测装置的结构示意图。如图4所示,该磁盘故障预测装置可以包括:

第一获取单元401,用于获取磁盘检测数据,磁盘检测数据包括磁盘的当前检测数据和历史检测数据;

第二获取单元402,用于从磁盘检测数据中获取多组目标检测数据;

第一得到单元403,用于基于多组目标检测数据,得到磁盘的第一故障预测类别;

第二得到单元404,用于基于磁盘的第一故障预测类别,得到磁盘出现故障的概率。

在一些实施例中,该磁盘故障预测装置还可以包括:

校正单元405,用于基于磁盘所在服务器的类型、磁盘的使用年限、磁盘所在服务器上的运行业务、磁盘的坏块率和磁盘的性能参数中的至少一种,校正磁盘出现故障的概率。

在一些实施例中,校正单元405,具体用于若磁盘所在服务器的类型为特定类型、磁盘的使用年限大于第一阈值、磁盘所在服务器上的运行业务为特定业务、磁盘的坏块率大于第二阈值和磁盘的性能参数满足特定条件中的至少一项满足,将磁盘出现故障的概率校正为第二故障预测类别对应的概率。

在一些实施例中,该磁盘故障预测装置还可以包括:

第一触发单元406,用于在磁盘出现故障的概率达到第三阈值的情况下,触发针对磁盘的预故障处理流程。

在一些实施例中,第二得到单元404,具体用于基于磁盘的第一故障预测类别以及预设的故障预测类别与故障概率区间之间的对应关系,得到磁盘出现故障的概率区间。

在一些实施例中,多组目标检测数据包括多个目标种类的检测数据,第二获取单元402具体用于:

确定磁盘检测数据包括的多个种类的数据中每个种类的检测数据与参考数据之间的关联度;

对多个种类对应的关联度进行平均处理,得到平均关联度;

将磁盘检测数据包括的多个目标种类的检测数据确定为多组目标检测数据,其中,目标种类为多个种类中对应的关联度大于平均关联度的种类。

在一些实施例中,第一得到单元403具体用于:

将多组目标检测数据中包括的不同时间的检测数据作为不同的样本,对多组目标检测数据对应的多个样本进行聚类处理,得到聚类结果;

基于聚类结果,确定多组目标检测数据中当前时间的检测数据所对应样本所属的类别;

基于对应样本所属的类别,确定第一故障预测类别。

在一些实施例中,该磁盘故障预测装置还可以包括:

剔除单元407,用于剔除当前检测数据中的异常数据;

处理单元408,用于对历史检测数据中包含的异常数据所属类别的历史数据进行处理,得到所属类别的更新后的当前数据;

第二获取单元402,具体用于从更新后的磁盘检测数据中获取多组目标检测数据,其中,更新后的磁盘检测数据包括所属类别的更新后的当前数据。

在一些实施例中,第二获取单元402,具体用于在磁盘的当前检测数据中指定种类的数据的数值小于第四阈值的情况下,从磁盘检测数据中获取多组目标检测数据;

该磁盘故障预测装置还可以包括:

第二触发单元409,用于在当前检测数据中指定种类的数据的数值大于或等于第四阈值的情况下,触发磁盘的预故障处理流程。

本实施例可对应于本申请实施例中方法实施例描述,并且各个单元的上述和其它操作和/或功能分别为了实现图1-图3中各方法中的相应流程,为了简洁,在此不再赘述。

请参阅图5,图5是本发明实施例公开的另一种磁盘故障预测装置的结构示意图。如图5所示,该磁盘故障预测装置可以包括:至少一个处理器501,如cpu,存储器502、收发器503以及至少一个总线504。总线504,用于实现这些组件之间的连接通信。其中:

存储器502中存储有一组计算机程序,处理器501用于调用存储器502中存储的计算机程序执行以下操作:

获取磁盘检测数据,磁盘检测数据包括磁盘的当前检测数据和历史检测数据;

从磁盘检测数据中获取多组目标检测数据;

基于多组目标检测数据,得到磁盘的第一故障预测类别;

基于磁盘的第一故障预测类别,得到磁盘出现故障的概率。

在一些实施例中,处理器501还用于调用存储器502中存储的计算机程序执行以下操作:

基于磁盘所在服务器的类型、磁盘的使用年限、磁盘所在服务器上的运行业务、磁盘的坏块率和磁盘的性能参数中的至少一种,校正磁盘出现故障的概率。

在一些实施例中,处理器501基于磁盘所在服务器的类型、磁盘的使用年限、磁盘所在服务器上的运行业务、磁盘的坏块率和磁盘的性能参数中的至少一种,校正磁盘出现故障的概率包括:

若磁盘所在服务器的类型为特定类型、磁盘的使用年限大于第一阈值、磁盘所在服务器上的运行业务为特定业务、磁盘的坏块率大于第二阈值和磁盘的性能参数满足特定条件中的至少一项满足,将磁盘出现故障的概率校正为第二故障预测类别对应的概率。

在一些实施例中,处理器501还用于调用存储器502中存储的计算机程序执行以下操作:

在磁盘出现故障的概率达到第三阈值的情况下,触发针对磁盘的预故障处理流程。

在一些实施例中,处理器501基于磁盘的第一故障预测类别,得到磁盘出现故障的概率包括:

基于磁盘的第一故障预测类别以及预设的故障预测类别与故障概率区间之间的对应关系,得到磁盘出现故障的概率区间。

在一些实施例中,多组目标检测数据包括多个目标种类的检测数据,处理器501从磁盘检测数据中获取多组目标检测数据包括:

确定磁盘检测数据包括的多个种类的数据中每个种类的检测数据与参考数据之间的关联度;

对多个种类对应的关联度进行平均处理,得到平均关联度;

将磁盘检测数据包括的多个目标种类的检测数据确定为多组目标检测数据,其中,目标种类为多个种类中对应的关联度大于平均关联度的种类。

在一些实施例中,处理器501基于多组目标检测数据,得到磁盘的第一故障预测类别包括:

将多组目标检测数据中包括的不同时间的检测数据作为不同的样本,对多组目标检测数据对应的多个样本进行聚类处理,得到聚类结果;

基于聚类结果,确定多组目标检测数据中当前时间的检测数据所对应样本所属的类别;

基于对应样本所属的类别,确定第一故障预测类别。

在一些实施例中,处理器501还用于调用存储器502中存储的计算机程序执行以下操作:

剔除当前检测数据中的异常数据;

对历史检测数据中包含的异常数据所属类别的历史数据进行处理,得到所属类别的更新后的当前数据;

处理器501从磁盘检测数据中获取多组目标检测数据包括:

从更新后的磁盘检测数据中获取多组目标检测数据,其中,更新后的磁盘检测数据包括所属类别的更新后的当前数据。

在一些实施例中,处理器501从磁盘检测数据中获取多组目标检测数据,包括:

在磁盘的当前检测数据中指定种类的数据的数值小于第四阈值的情况下,从磁盘检测数据中获取多组目标检测数据;

处理器501还用于调用存储器502中存储的计算机程序执行以下操作:

在当前检测数据中指定种类的数据的数值大于或等于第四阈值的情况下,触发磁盘的预故障处理流程。

在一些实施例中,收发器503,用于收发信息。

上述磁盘故障预测装置还可以用于执行前述方法实施例中执行的各种方法,不再赘述。

在一些实施例中提供了一种计算机可读存储介质,该存储介质用于存储应用程序,应用程序用于在运行时执行图1-图2的磁盘故障预测方法。

在一些实施例中提供了一种应用程序,该应用程序用于在运行时执行图1-图2的磁盘故障预测方法。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、rom、ram、磁盘或光盘等。

以上对本发明实施例进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。


技术特征:

1.一种磁盘故障预测方法,其特征在于,包括:

获取磁盘检测数据,所述磁盘检测数据包括磁盘的当前检测数据和历史检测数据;

从所述磁盘检测数据中获取多组目标检测数据;

基于所述多组目标检测数据,得到所述磁盘的第一故障预测类别;

基于所述磁盘的第一故障预测类别,得到所述磁盘出现故障的概率。

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

基于所述磁盘所在服务器的类型、所述磁盘的使用年限、所述磁盘所在服务器上的运行业务、所述磁盘的坏块率和所述磁盘的性能参数中的至少一种,校正所述磁盘出现故障的概率。

3.根据权利要求2所述的方法,其特征在于,所述基于所述磁盘所在服务器的类型、所述磁盘的使用年限、所述磁盘所在服务器上的运行业务、所述磁盘的坏块率和所述磁盘的性能参数中的至少一种,校正所述磁盘出现故障的概率包括:

若所述磁盘所在服务器的类型为特定类型、所述磁盘的使用年限大于第一阈值、所述磁盘所在服务器上的运行业务为特定业务、所述磁盘的坏块率大于第二阈值和所述磁盘的性能参数满足特定条件中的至少一项满足,将所述磁盘出现故障的概率校正为第二故障预测类别对应的概率。

4.根据权利要求1-3任一项所述的方法,其特征在于,所述方法还包括:

在所述磁盘出现故障的概率达到第三阈值的情况下,触发针对所述磁盘的预故障处理流程。

5.根据权利要求1-4任一项所述的方法,其特征在于,所述基于所述磁盘的第一故障预测类别,得到所述磁盘出现故障的概率包括:

基于所述磁盘的第一故障预测类别以及预设的故障预测类别与故障概率区间之间的对应关系,得到所述磁盘出现故障的概率区间。

6.根据权利要求1-5任一项所述的方法,其特征在于,所述多组目标检测数据包括多个目标种类的检测数据,所述从所述磁盘检测数据中获取多组目标检测数据包括:

确定所述磁盘检测数据包括的多个种类的数据中每个种类的检测数据与参考数据之间的关联度;

对所述多个种类对应的所述关联度进行平均处理,得到平均关联度;

将所述磁盘检测数据包括的多个目标种类的检测数据确定为多组所述目标检测数据,其中,所述目标种类为所述多个种类中对应的所述关联度大于所述平均关联度的种类。

7.根据权利要求1-6任一项所述的方法,其特征在于,所述基于所述多组目标检测数据,得到所述磁盘的第一故障预测类别包括:

将所述多组目标检测数据中包括的不同时间的检测数据作为不同的样本,对所述多组目标检测数据对应的多个样本进行聚类处理,得到聚类结果;

基于所述聚类结果,确定所述多组目标检测数据中当前时间的检测数据所对应样本所属的类别;

基于所述对应样本所属的类别,确定第一故障预测类别。

8.根据权利要求1-7任一项所述的方法,其特征在于,所述方法还包括:

剔除所述当前检测数据中的异常数据;

对所述历史检测数据中包含的所述异常数据所属类别的历史数据进行处理,得到所述所属类别的更新后的当前数据;

所述从所述磁盘检测数据中获取多组目标检测数据包括:

从更新后的磁盘检测数据中获取多组目标检测数据,其中,所述更新后的磁盘检测数据包括所述所属类别的更新后的当前数据。

9.一种磁盘故障预测装置,其特征在于,包括:

第一获取单元,用于获取磁盘检测数据,所述磁盘检测数据包括磁盘的当前检测数据和历史检测数据;

第二获取单元,用于从所述磁盘检测数据中获取多组目标检测数据;

第一得到单元,用于基于所述多组目标检测数据,得到所述磁盘的第一故障预测类别;

第二得到单元,用于基于所述磁盘的第一故障预测类别,得到所述磁盘出现故障的概率。

10.根据权利要求9所述的装置,其特征在于,所述装置还包括:

校正单元,用于基于所述磁盘所在服务器的类型、所述磁盘的使用年限、所述磁盘所在服务器上的运行业务、所述磁盘的坏块率和所述磁盘的性能参数中的至少一种,校正所述磁盘出现故障的概率。

11.根据权利要求10所述的装置,其特征在于,所述校正单元,具体用于若所述磁盘所在服务器的类型为特定类型、所述磁盘的使用年限大于第一阈值、所述磁盘所在服务器上的运行业务为特定业务、所述磁盘的坏块率大于第二阈值和所述磁盘的性能参数满足特定条件中的至少一项满足,将所述磁盘出现故障的概率校正为第二故障预测类别对应的概率。

12.根据权利要求9-11任一项所述的装置,其特征在于,所述装置还包括:

触发单元,用于在所述磁盘出现故障的概率达到第三阈值的情况下,触发针对所述磁盘的预故障处理流程。

13.根据权利要求9-12任一项所述的装置,其特征在于,所述第二得到单元,具体用于基于所述磁盘的第一故障预测类别以及预设的故障预测类别与故障概率区间之间的对应关系,得到所述磁盘出现故障的概率区间。

14.根据权利要求9-13任一项所述的装置,其特征在于,所述多组目标检测数据包括多个目标种类的检测数据,所述第二获取单元具体用于:

确定所述磁盘检测数据包括的多个种类的数据中每个种类的检测数据与参考数据之间的关联度;

对所述多个种类对应的所述关联度进行平均处理,得到平均关联度;

将所述磁盘检测数据包括的多个目标种类的检测数据确定为多组所述目标检测数据,其中,所述目标种类为所述多个种类中对应的所述关联度大于所述平均关联度的种类。

15.根据权利要求9-14任一项所述的装置,其特征在于,所述第一得到单元具体用于:

将所述多组目标检测数据中包括的不同时间的检测数据作为不同的样本,对所述多组目标检测数据对应的多个样本进行聚类处理,得到聚类结果;

基于所述聚类结果,确定所述多组目标检测数据中当前时间的检测数据所对应样本所属的类别;

基于所述对应样本所属的类别,确定第一故障预测类别。

16.根据权利要求9-15任一项所述的装置,其特征在于,所述装置还包括:

剔除单元,用于剔除所述当前检测数据中的异常数据;

处理单元,用于对所述历史检测数据中包含的所述异常数据所属类别的历史数据进行处理,得到所述所属类别的更新后的当前数据;

所述第二获取单元,具体用于从更新后的磁盘检测数据中获取多组目标检测数据,其中,所述更新后的磁盘检测数据包括所述所属类别的更新后的当前数据。

17.一种磁盘故障预测装置,其特征在于,包括处理器和存储器,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序执行如权利要求1-8任一项所述的磁盘故障预测方法。

18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-8任一项所述的磁盘故障预测方法。

技术总结
本发明实施例提供了磁盘故障预测方法、装置及计算机可读存储介质,包括:获取磁盘检测数据,所述磁盘检测数据包括磁盘的当前检测数据和历史检测数据;从所述磁盘检测数据中获取多组目标检测数据;基于所述多组目标检测数据,得到所述磁盘的第一故障预测类别;基于所述磁盘的第一故障预测类别,得到所述磁盘出现故障的概率。本发明实施例,可以预测磁盘出现故障的概率。

技术研发人员:易建亮;赵伟;颜深根
受保护的技术使用者:上海商汤智能科技有限公司
技术研发日:2020.01.17
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-27587.html

最新回复(0)