一种分布式文件系统的验证方法、装置、设备及存储介质与流程

专利2022-06-29  115


本发明涉及数据存储技术领域。本发明进一步涉及一种分布式文件系统的验证方法、装置、设备及存储介质。



背景技术:

随着hadoop(大数据)社区技术发展,hdfs(hadoopdistributedfilesystem,分布式文件系统)从开始存储目录列表同构存储结构,到存储策略新增异构存储,随之后内存存储、内存分层存储、档案存储、纠删码存储、外部存储、外部分层存储等等,其中已陆续实现,以后还会有更多存储方式。根据已实现的部分来看,对于用户而言,这些数据存储方式的确是有用的,但是它们有一个共同的问题:需要外界主动触发。为解决当前hdfs存储策略不智能的问题,hadoop社区已提出了hdfssmartstoragemanagement智能化管理,ssm是一个智能化管理的机制,核心原理为根据文件历史访问情况数据,例如最近一次访问时间等,作为数据存储的一个评判标准。如果说要真正做文件存储方式的预测分析,可能还需要结合文件的大小、属性信息等更多因素的信息,然后做一个综合所有因素的一个预测。

hdfssmartstoragemanagement智能化管理存储策略仅实现框架设计并未发布,细节部分还未实现,该架构现在还在实验阶段。但此类以hadoop系统生态圈为代表的大数据革命级技术,将会提高当前hdfs存储技术一个维度。将用户写入集群的数据直接就自适应地以最合适的存储策略存储到最合适的存储介质上,而且对于用户而言它是无感知的。随着大数据日益剧增,随着该功能的完善、hadoop社区补丁的更新以及后续新版本的发布,hdfssmartstoragemanagement智能化管理存储策略会越来越完善。然而,针对如此智能化又复杂的系统,如何评估该系统是否能达到对应的存储策略,集群中的数据是否已被智能化地管理,如何评估该管理策略的效益,是目前有待实现的一个非常重要的主题。

因此,基于上述情况,需要提出一种有效的分布式文件系统的验证或测试方法,从而评估生产环境中hdfssmartstoragemanagement智能化管理存储策略是否能达到所述效益,以准确评估智能化管理存储策略达到的效果,进而验证分布式文件系统的性能,为hdfs领域技术革新提供评估结果,提高企业平台存储利用率。



技术实现要素:

一方面,本发明基于上述目的提出了一种分布式文件系统的验证方法,其中该方法包括以下步骤:

测试节点基于从分布式文件系统集群获取的存储策略列表确定指标参数-存储规则对照表;

测试节点根据所述存储策略列表中包含的存储策略生成测试数据,并将测试数据依据存储策略分别上传至分布式文件系统集群的相应存储路径下;

对分布式文件系统集群中的测试数据分别多次执行影响测试数据的指标参数的指定操作;

根据分布式文件系统集群日志分别计算测试数据的当前指标参数,并记录测试数据的当前存储路径;

根据当前指标参数、当前存储路径和指标参数-存储规则对照表验证分布式文件系统集群的存储策略的生效性。

根据本发明的分布式文件系统的验证方法的实施例,其中该方法进一步包括:

响应于经验证分布式文件系统的存储策略生效,将分布式文件系统集群中的测试数据下载至测试节点;

根据下载的测试数据和生成的测试数据验证分布式文件系统集群的数据一致性。

根据本发明的分布式文件系统的验证方法的实施例,其中根据分布式文件系统集群日志分别计算测试数据的当前指标参数,并记录测试数据的当前存储路径进一步包括:

遍历分布式文件系统集群的文件编辑日志和文件调用日志;

根据测试数据在文件编辑日志和文件调用日志中出现的频次以及文件编辑日志和文件调用日志对应的权重分别计算测试数据的当前指标参数。

根据本发明的分布式文件系统的验证方法的实施例,其中对分布式文件系统集群中的测试数据分别多次执行影响测试数据的指标参数的指定操作进一步包括:

对分布式文件系统集群中的测试数据分别以不同次数执行数据读写和/或数据计算和/或样本任务执行操作。

另一方面,本发明还提出了一种分布式文件系统的验证装置,其中该装置包括:

验证标准生成模块,该验证标准生成模块配置为在测试节点基于从分布式文件系统集群获取的存储策略列表确定指标参数-存储规则对照表;

测试数据推送模块,该测试数据推送模块配置为在测试节点根据存储策略列表中包含的存储策略生成测试数据,并将测试数据依据存储策略分别上传至分布式文件系统集群的相应存储路径下;

测试操作执行模块,该测试操作执行模块配置为对分布式文件系统集群中的测试数据分别多次执行影响测试数据的指标参数的指定操作;

测试参数获取模块,该测试参数获取模块配置为根据分布式文件系统集群日志分别计算测试数据的当前指标参数,并记录测试数据的当前存储路径;

生效性验证模块,该生效性验证模块配置为根据当前指标参数、当前存储路径和指标参数-存储规则对照表验证分布式文件系统集群的存储策略的生效性。

根据本发明的分布式文件系统的验证装置的实施例,其中该装置进一步包括:

测试数据下载模块,该测试数据下载模块配置为响应于经验证分布式文件系统的存储策略生效,将分布式文件系统集群中的测试数据下载至测试节点;

一致性验证模块,该一致性验证模块配置为根据下载的测试数据和生成的测试数据验证分布式文件系统集群的数据一致性。

根据本发明的分布式文件系统的验证装置的实施例,其中测试参数获取模块进一步配置为遍历分布式文件系统集群的文件编辑日志和文件调用日志;根据测试数据在文件编辑日志和文件调用日志中出现的频次以及文件编辑日志和文件调用日志对应的权重分别计算测试数据的当前指标参数。

根据本发明的分布式文件系统的验证装置的实施例,其中测试操作执行模块进一步配置为对分布式文件系统集群中的测试数据分别以不同次数执行数据读写和/或数据计算和/或样本任务执行操作。

又一方面,本发明还提出了一种设备,其中该设备包括

至少一个处理器;和

存储器,该存储器存储有处理器可运行的程序指令,该程序指令在被处理器运行时执行前述任一项分布式文件系统的验证方法的实施例的步骤。

此外,本发明进一步提出了一种存储介质,该存储介质存储有处理器可运行的程序指令,该程序指令在被处理器运行时执行前述任一项分布式文件系统的验证方法的实施例的步骤。

采用上述技术方案,本发明至少具有如下有益效果:根据不同集群所支持的存储策略生成相应的测试数据,通过强制改变测试数据的指标参数使测试数据匹配相应的存储策略,并根据经过处理的测试数据与指标参数-存储规则对照表以及原本生成的测试数据的对比评价分布式文件系统的存储策略生效性和数据一致性,从而实现了对生产环境中hdfssmartstoragemanagement智能化管理存储策略是否能达到效益的评估,以准确评估智能化管理存储策略达到的效果,进而验证了分布式文件系统的性能,为hdfs领域技术革新提供了评估结果,提高了企业平台存储利用率。

本发明提供了实施例的各方面,不应当用于限制本发明的保护范围。根据在此描述的技术可设想到其它实施方式,这对于本领域普通技术人员来说在研究以下附图和具体实施方式后将是显而易见的,并且这些实施方式意图被包含在本申请的范围内。

下面参考附图更详细地解释和描述了本发明的实施例,但它们不应理解为对于本发明的限制。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对现有技术和实施例描述中所需要使用的附图作简单地介绍,附图中的部件不一定按比例绘制,并且可以省略相关的元件,或者在一些情况下比例可能已经被放大,以便强调和清楚地示出本文描述的新颖特征。另外,如本领域中已知的,结构顺序可以被不同地布置。

图1示出了根据本发明的分布式文件系统的验证方法的实施例的示意性框图;

图2示出了根据本发明的分布式文件系统的验证装置的实施例的示意图。

具体实施方式

虽然本发明可以以各种形式实施,但是在附图中示出并且在下文中将描述一些示例性和非限制性实施例,但应该理解的是,本公开将被认为是本发明的示例并不意图将本发明限制于所说明的具体实施例。

在下文就本发明的实施例的说明中需要注意的是,其中提到的步骤的编号在没有特殊说明的情况下,仅用于便捷明确地指示该步骤,并不限定所述步骤的顺序。

图1示出了根据本发明的分布式文件系统的验证方法的实施例的示意性框图。在图1所示的实施例中,该方法至少包括以下步骤:

s1:测试节点基于从分布式文件系统集群获取的存储策略列表确定指标参数-存储规则对照表;

s2:测试节点根据存储策略列表中包含的存储策略生成测试数据,并将测试数据依据存储策略分别上传至分布式文件系统集群的相应存储路径下;

s3:对分布式文件系统集群中的测试数据分别多次执行影响测试数据的指标参数的指定操作;

s4:根据分布式文件系统集群日志分别计算测试数据的当前指标参数,并记录测试数据的当前存储路径;

s5:根据当前指标参数、当前存储路径和指标参数-存储规则对照表验证分布式文件系统集群的存储策略的生效性。

本发明的验证方法适用于各类分布式文件系统集群。而由于不同分布式文件系统集群的需求存在差异,同时分布式文件系统本身是一个开源的系统,因此不同分布式文件系统集群中所能支持的存储策略也多有不同。所以,本发明针对分布式文件系统的验证也需要基于相应的系统而进行,即首先s1测试节点基于从分布式文件系统集群获取的存储策略列表确定指标参数-存储规则对照表。在测试节点以分布式文件系统用户登录到分布式文件系统集群中,发送相应的指令以获取存储策略列表,随后根据该存储策略列表确定指标参数-存储规则对照表。其中,相应的指令例如:“hdfsstoragepolicies–listpolicies”,并且所获取的存储策略列表中包含的存储策略中规定了指标参数和不同指标参数对应的存储规则,其中存储规则至少包括数据块存储位置、创建存储介质和副本存储介质等。优选地,指标参数可以是数据温度。从存储策略列表中提取相应的指标参数和不同指标参数对应的存储规则,整理成指标参数-存储规则对照表。包括但不限于,存储策略有内存存储、内存分层存储、档案存储、纠删码存储、外部存储、外部分层存储以及后续新增的存储策略。

随后,s2测试节点根据存储策略列表中包含的存储策略生成测试数据,并将测试数据依据存储策略分别上传至分布式文件系统集群的相应存储路径下。优选地,测试数据为随机、有效数据,有效是指该数据在被执行特定操作后产生效果,并且可被验证一致性。优选地,使用tpc-ds工具生成不同存储策略对应的测试数据。将测试数据上传至分布式文件系统集群后,s3对分布式文件系统集群中的测试数据分别多次执行影响测试数据的指标参数的指定操作从而使各测试数据的指标参数发生相应的变化。此时,遵循相应的存储策略,指标参数发生变化的测试数据应该被转移到相应的存储路径下。所以,s4根据分布式文件系统集群日志分别计算测试数据的当前指标参数,并记录测试数据的当前存储路径,例如优选地根据分布式文件系统集群日志分别计算测试数据的当前数据温度并记录测试数据的当前存储路径。最后,s5根据当前指标参数、当前存储路径和指标参数-存储规则对照表验证分布式文件系统集群的存储策略的生效性。如果当前指标参数、当前存储路径的对应关系符合指标参数-存储规则对照表中的记录,则认为分布式文件系统集群的存储策略的生效。如果当前指标参数、当前存储路径的对应关系不符合指标参数-存储规则对照表中的记录,那么则认为相应的存储策略未生效或出现异常,测试节点会发出告警并记录下相应的测试日志。

在本发明的分布式文件系统的验证方法的一些实施例中,该方法进一步包括:

s6:响应于经验证分布式文件系统的存储策略生效,将分布式文件系统集群中的测试数据下载至测试节点;

s7:根据下载的测试数据和生成的测试数据验证分布式文件系统集群的数据一致性。

进一步地,在经验证认定分布式文件系统的存储策略生效的情况下,还要进一步验证分布式文件系统集群的数据一致性,所以s6将分布式文件系统集群中的测试数据下载至测试节点,然后s7根据下载的测试数据和生成的测试数据参考分布式文件系统集群日志验证分布式文件系统集群的数据一致性。如果下载的测试数据和生成的测试数据一致,或者两者符合分布式文件系统集群日志的记载则认为分布式文件系统集群的数据一致性无误。优选地,以md5方式校验数据。

在本发明的分布式文件系统的验证方法的一些实施例中,s4根据分布式文件系统集群日志分别计算测试数据的当前指标参数,并记录测试数据的当前存储路径进一步包括:

s41:遍历分布式文件系统集群的文件编辑日志和文件调用日志;

s42:根据测试数据在文件编辑日志和文件调用日志中出现的频次以及文件编辑日志和文件调用日志对应的权重分别计算测试数据的当前指标参数。

也就是说,s41遍历分布式文件系统集群文件编辑日志文(edit.log),以及各项任务中的文件调用日志,根据对应的权重计算测试数据的当前当前指标参数,具体是s42根据测试数据在文件编辑日志和文件调用日志中出现的频次以及文件编辑日志和文件调用日志对应的权重分别计算测试数据的当前指标参数。优选地,根据测试数据在文件编辑日志和文件调用日志中出现的频次以及文件编辑日志和文件调用日志对应的权重分别计算测试数据的当前数据温度。

在本发明的分布式文件系统的验证方法的一些实施例中,s3对分布式文件系统集群中的测试数据分别多次执行影响测试数据的指标参数的指定操作进一步包括:对分布式文件系统集群中的测试数据分别以不同次数执行数据读写和/或数据计算和/或样本任务执行操作。在强制改变测试数据的指标参数的过程中,对各测试数据分别以不同次数进行操作,从而使各测试数据的指标参数发生不同程度的改变。另外,在这些实施例中所指的影响测试数据的指标参数的指定操作优选但不限于数据读写和/或数据计算和/或样本任务执行等,这些操作分别会被记录在分布式文件系统集群日志中,例如分别记录在文件编辑日志和文件调用日志中,从而影响基于这些日志计算的指标参数。

此外,在一些实施例中,所有的测试过程均记录并保存到分布式文件系统验证日志(ssm_test.log)中,以备查询。

另一方面,本发明还提出了一种分布式文件系统的验证装置。图2示出了根据本发明的分布式文件系统的验证装置的实施例的示意图。在图2所示的实施例中,该装置100至少包括:

验证标准生成模块m10,该验证标准生成模块m10配置为在测试节点基于从分布式文件系统集群获取的存储策略列表确定指标参数-存储规则对照表;

测试数据推送模块m20,该测试数据推送模块m20配置为在测试节点根据存储策略列表中包含的存储策略生成测试数据,并将测试数据依据存储策略分别上传至分布式文件系统集群的相应存储路径下;

测试操作执行模块m30,该测试操作执行模块m30配置为对分布式文件系统集群中的测试数据分别多次执行影响测试数据的指标参数的指定操作;

测试参数获取模块m40,该测试参数获取模块m40配置为根据分布式文件系统集群日志分别计算测试数据的当前指标参数,并记录测试数据的当前存储路径;

生效性验证模块m50,该生效性验证模块m50配置为根据当前指标参数、当前存储路径和指标参数-存储规则对照表验证分布式文件系统集群的存储策略的生效性。

在本发明的分布式文件系统的验证装置的一些实施例中,该装置100进一步包括:

测试数据下载模块m60,该测试数据下载模块m60配置为响应于经验证分布式文件系统的存储策略生效,将分布式文件系统集群中的测试数据下载至测试节点;

一致性验证模块m70,该一致性验证模块m70配置为根据下载的测试数据和生成的测试数据验证分布式文件系统集群的数据一致性。

在本发明的分布式文件系统的验证装置的一些实施例中,测试参数获取模块m40进一步配置为遍历分布式文件系统集群的文件编辑日志和文件调用日志;根据测试数据在文件编辑日志和文件调用日志中出现的频次以及文件编辑日志和文件调用日志对应的权重分别计算测试数据的当前指标参数。

在本发明的分布式文件系统的验证装置的一些实施例中,测试操作执行模块m30进一步配置为对分布式文件系统集群中的测试数据分别以不同次数执行数据读写和/或数据计算和/或样本任务执行操作。

又一方面,本发明还提出了一种设备,其中该设备包括

至少一个处理器;和

存储器,该存储器存储有处理器可运行的程序指令,该程序指令在被处理器运行时执行前述任一项分布式文件系统的验证方法的实施例的步骤。

此外,本发明进一步提出了一种存储介质,该存储介质存储有处理器可运行的程序指令,该程序指令在被处理器运行时执行前述任一项分布式文件系统的验证方法的实施例的步骤。

本发明实施例公开所述的装置、设备等可为各种电子终端设备,例如手机、个人数字助理(pda)、平板电脑(pad)、智能电视等,也可以是大型终端设备,如服务器等,因此本发明实施例公开的保护范围不应限定为某种特定类型的装置、设备。本发明实施例公开所述的客户端可以是以电子硬件、计算机软件或两者的组合形式应用于上述任意一种电子终端设备中。

本文所述的计算机可读存储介质(例如存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的,非易失性存储器可以包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦写可编程rom(eeprom)或快闪存储器。易失性存储器可以包括随机存取存储器(ram),该ram可以充当外部高速缓存存储器。作为例子而非限制性的,ram可以以多种形式获得,比如同步ram(dram)、动态ram(dram)、同步dram(sdram)、双数据速率sdram(ddrsdram)、增强sdram(esdram)、同步链路dram(sldram)、以及直接rambusram(drram)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。

采用上述技术方案,本发明至少具有如下有益效果:根据不同集群所支持的存储策略生成相应的测试数据,通过强制改变测试数据的指标参数使测试数据匹配相应的存储策略,并根据经过处理的测试数据与指标参数-存储规则对照表以及原本生成的测试数据的对比评价分布式文件系统的存储策略生效性和数据一致性,从而实现了对生产环境中hdfssmartstoragemanagement智能化管理存储策略是否能达到所述效益的评估,以准确评估智能化管理存储策略达到的效果,进而验证了分布式文件系统的性能,为hdfs领域技术革新提供了评估结果,提高了企业平台存储利用率。

应当理解的是,在技术上可行的情况下,以上针对不同实施例所列举的技术特征可以相互组合,从而形成本发明范围内的另外实施例。此外,本文所述的特定示例和实施例是非限制性的,并且可以对以上所阐述的结构、步骤及顺序做出相应修改而不脱离本发明的保护范围。

在本申请中,反意连接词的使用旨在包括连接词。定或不定冠词的使用并不旨在指示基数。具体而言,对“该”对象或“一”和“一个”对象的引用旨在表示多个这样对象中可能的一个。然而,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。此外,可以使用连接词“或”来传达同时存在的特征,而不是互斥方案。换句话说,连接词“或”应理解为包括“和/或”。术语“包括”是包容性的并且具有与“包含”相同的范围。

上述实施例,特别是任何“优选”实施例是实施方式的可能示例,并且仅仅为了清楚理解本发明的原理而提出。在基本上不脱离本文描述的技术的精神和原理的情况下,可以对上述实施例做出许多变化和修改。所有修改旨在被包括在本公开的范围内。


技术特征:

1.一种分布式文件系统的验证方法,其特征在于,所述方法包括以下步骤:

测试节点基于从分布式文件系统集群获取的存储策略列表确定指标参数-存储规则对照表;

所述测试节点根据所述存储策略列表中包含的存储策略生成测试数据,并将所述测试数据依据所述存储策略分别上传至所述分布式文件系统集群的相应存储路径下;

对所述分布式文件系统集群中的所述测试数据分别多次执行影响所述测试数据的指标参数的指定操作;

根据所述分布式文件系统集群日志分别计算所述测试数据的当前指标参数,并记录所述测试数据的当前存储路径;

根据所述当前指标参数、所述当前存储路径和所述指标参数-存储规则对照表验证所述分布式文件系统集群的存储策略的生效性。

2.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:

响应于经验证所述分布式文件系统的存储策略生效,将所述分布式文件系统集群中的所述测试数据下载至所述测试节点;

根据所述下载的测试数据和所述生成的测试数据验证所述分布式文件系统集群的数据一致性。

3.根据权利要求1所述的方法,其特征在于,所述根据所述分布式文件系统集群日志分别计算所述测试数据的当前指标参数,并记录所述测试数据的当前存储路径进一步包括:

遍历所述分布式文件系统集群的文件编辑日志和文件调用日志;

根据所述测试数据在所述文件编辑日志和所述文件调用日志中出现的频次以及所述文件编辑日志和所述文件调用日志对应的权重分别计算所述测试数据的当前指标参数。

4.根据权利要求1所述的方法,其特征在于,所述对所述分布式文件系统集群中的所述测试数据分别多次执行影响所述测试数据的指标参数的指定操作进一步包括:

对所述分布式文件系统集群中的所述测试数据分别以不同次数执行数据读写和/或数据计算和/或样本任务执行操作。

5.一种分布式文件系统的验证装置,其特征在于,所述装置包括:

验证标准生成模块,所述验证标准生成模块配置为在测试节点基于从分布式文件系统集群获取的存储策略列表确定指标参数-存储规则对照表;

测试数据推送模块,所述测试数据推送模块配置为在所述测试节点根据所述存储策略列表中包含的存储策略生成测试数据,并将所述测试数据依据所述存储策略分别上传至所述分布式文件系统集群的相应存储路径下;

测试操作执行模块,所述测试操作执行模块配置为对所述分布式文件系统集群中的所述测试数据分别多次执行影响所述测试数据的指标参数的指定操作;

测试参数获取模块,所述测试参数获取模块配置为根据所述分布式文件系统集群日志分别计算所述测试数据的当前指标参数,并记录所述测试数据的当前存储路径;

生效性验证模块,所述生效性验证模块配置为根据所述当前指标参数、所述当前存储路径和所述指标参数-存储规则对照表验证所述分布式文件系统集群的存储策略的生效性。

6.根据权利要求5所述的装置,其特征在于,所述装置进一步包括:

测试数据下载模块,所述测试数据下载模块配置为响应于经验证所述分布式文件系统的存储策略生效,将所述分布式文件系统集群中的所述测试数据下载至所述测试节点;

一致性验证模块,所述一致性验证模块配置为根据所述下载的测试数据和所述生成的测试数据验证所述分布式文件系统集群的数据一致性。

7.根据权利要求5所述的装置,其特征在于,所述测试参数获取模块进一步配置为遍历所述分布式文件系统集群的文件编辑日志和文件调用日志;根据所述测试数据在所述文件编辑日志和所述文件调用日志中出现的频次以及所述文件编辑日志和所述文件调用日志对应的权重分别计算所述测试数据的当前指标参数。

8.根据权利要求5所述的装置,其特征在于,所述测试操作执行模块进一步配置为对所述分布式文件系统集群中的所述测试数据分别以不同次数执行数据读写和/或数据计算和/或样本任务执行操作。

9.一种设备,其特征在于,所述设备包括:

至少一个处理器;和

存储器,所述存储器存储有处理器可运行的程序指令,所述程序指令在被处理器运行时执行前述权利要求1至4任一项所述的分布式文件系统的验证方法的步骤。

10.一种存储介质,其特征在于,所述存储介质存储有处理器可运行的程序指令,所述程序指令在被处理器运行时执行前述权利要求1至4任一项所述的分布式文件系统的验证方法的步骤。

技术总结
本发明涉及了一种分布式文件系统的验证方法、装置、设备及存储介质,其中方法包括:测试节点基于从分布式文件系统集群获取的存储策略列表确定指标参数‑存储规则对照表;测试节点根据所述存储策略列表中包含的存储策略生成测试数据,并将测试数据依据存储策略分别上传至分布式文件系统集群的相应存储路径下;对分布式文件系统集群中的测试数据分别多次执行影响测试数据的指标参数的指定操作;根据分布式文件系统集群日志分别计算测试数据的当前指标参数,并记录测试数据的当前存储路径;根据当前指标参数、当前存储路径和指标参数‑存储规则对照表验证分布式文件系统集群的存储策略的生效性。本发明实现了分布式文件系统的性能的验证。

技术研发人员:张东东
受保护的技术使用者:苏州浪潮智能科技有限公司
技术研发日:2020.01.19
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-26764.html

最新回复(0)