一种服务器DQS报错内存批量测试方法及装置与流程

专利2022-06-30  87


本发明涉及服务器测试设计领域,尤其是涉及一种服务器dqs报错内存批量测试方法及装置。



背景技术:

dqstrainingcontrol是数据选取脉冲控制,它的功能主要用来在一个时钟周期内准确的区分出每个传输周期,并便于接收方准确接收数据。每一颗芯片都有一个dqs(bi-directionaldatastrobe,双向数据控制引脚,是内存和内存控制器之间数据同步信号,由dqs信号发出端发出dqs,信号接收端根据dqs的上、下沿来触发数据的接收。简单点说,如果是从内存中读取信号,那么内存控制器根据内存发出的dqs来判断在什么时候接收读出来的数据。如果是写的话,就正好相反,内存根据内存控制器发出的dqs来触发数据的接收)信号线,它是双向的,在写入时用来传送由内存控制器发来的dqs信号,读取时,则由芯片生成dqs向内存控制器发送。

内存dqstrainingcontrol过程中的不良,会导致服务器开机过程中报错已经是一个普遍存在的问题,但也是一个低概率出现的问题,即并不是每次开机操作都会由于内存不良导致不开机,在开机启动之后并没有有效的拦截方法,这种问题如果在客户现场出现,则会造成不良影响,需要把这种问题拦截在工厂,工厂中的机器都是批量生产的。

现有技术中一般是人工手动执行重启来检查机器开机问题,一方面效率低下,另一方面制造内存工作的条件不够苛刻以及重启次数太少的话不一定能拦截到问题,不仅经过多次试验,而且需要在苛刻条件下不断电重启20次,才能拦截到该问题。这种人工测试造成人力浪费,而且测试结果的可靠性也较低。



技术实现要素:

本发明为了解决现有技术中存在的问题,创新提出了一种服务器dqs报错内存批量测试方法及装置,有效解决由于人工测试造成效率低、可靠性低的问题,有效的提高了服务器dqs报错内存测试的效率以及可靠性。

本发明第一方面提供了一种服务器dqs报错内存批量测试方法,包括:

诊断服务器将第一操作系统镜像发送到每个待测服务器;

待测服务器接收到第一操作系统镜像后,上电启动对cpu以及内存进行压力测试,经过第一测试周期后,待测服务器更新诊断服务器中数据库对应数据,进行不断电重启;

运行第一测试次数后,根据诊断服务器中数据库中数据,判断待测服务器是否存在dqs报错内存情况。

结合第一方面,在第一方面第一种可能的实现方式中,所述第一操作系统镜像为修改后的操作系统镜像,所述修改为在操作系统镜像的系统启动执行文件中添加执行压力测试重启的指令。

结合第一方面,在第一方面第二种可能的实现方式中,所述压力测试中cpu的测试要求是:调用的cpu逻辑内核至少占cpu全部逻辑内核90%。

结合第一方面,在第一方面第三种可能的实现方式中,所述压力测试中内存的测试要求是:内存占用量至少占全部内存的90%。

结合第一方面,在第一方面第四种可能的实现方式中,所述数据库数据包括待测服务器系统当前时间、待测服务器每一次重启时间、待测服务器重启所需时间、重启次数。

进一步地,根据诊断服务器中数据库中数据,判断待测服务器是否存在dqs报错内存情况具体是:

判断待测服务器系统当前时间是否大于待测服务器上一次重启时间与待测服务器重启所需时间的数值之和,如果判断结果为是,则重启失败,待测服务器存在dqs报错内存情况;

如果判断结果为否,进一步判断重启次数是否大于或等于第一测试次数,如果判断结果为是,则待测服务器不存在dqs报错内存情况;如果判断结果为否,则继续进行测试。

结合第一方面,在第一方面第五种可能的实现方式中,每个待测服务器重启所需时间预先设置在诊断服务器的数据库中。

结合第一方面,在第一方面第六种可能的实现方式中,每个待测服务器通过sn码标识。

结合第一方面,在第一方面第七种可能的实现方式中,诊断服务器将第一操作系统镜像发送到每个待测服务器具体是通过pxe方式实现的。

本发明第二方面提供了一种服务器dqs报错内存批量测试装置,包括:

发送模块,诊断服务器将第一操作系统镜像发送到每个待测服务器;

压力测试模块,待测服务器接收到第一操作系统镜像后,上电启动对cpu以及内存进行压力测试,经过第一测试周期后,待测服务器更新诊断服务器中数据库对应数据,进行不断电重启;

判断模块,运行第一测试次数后,根据诊断服务器中数据库中数据,判断待测服务器是否存在dqs报错内存情况。

本发明采用的技术方案包括以下技术效果:

1、本发明有效解决由于人工测试造成效率低、可靠性低的问题,有效的提高了服务器dqs报错内存测试的效率以及可靠性。

2、本方案中每个待测服务器通过sn码标识,便于对每一个待测服务器进行区分,方便获取每个待测服务器的测试情况。

3、本方案中待测服务器中每一台服务器的拦截过程相互独立,不受其他待测服务器拦截过程的影响,诊断服务器操作在后台执行,不影响其他操作,提高了测试效率以及测试结果准确度。

应当理解的是以上的一般描述以及后文的细节描述仅是示例性和解释性的,并不能限制本发明。

附图说明

为了更清楚说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单介绍,显而易见的,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明方案中实施例一方法的流程示意图;

图2为本发明方案中实施例一方法步骤s3的流程示意图;

图3为本发明方案中实施例二装置的结构示意图。

具体实施方式

为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

实施例一

如图1所示,本发明提供了一种服务器dqs报错内存批量测试方法,包括:

s1,诊断服务器将第一操作系统镜像发送到每个待测服务器;

s2,待测服务器接收到第一操作系统镜像后,上电启动对cpu以及内存进行压力测试,经过第一测试周期后,进行不断电重启;

s3,待测服务器更新诊断服务器中数据库对应数据,运行第一测试次数后,根据诊断服务器中数据库中数据,判断待测服务器是否存在dqs报错内存情况。

其中,在步骤s1中,第一操作系统镜像为修改后的操作系统镜像,修改具体是在操作系统镜像的系统启动执行文件中添加执行压力测试重启的指令。其中,诊断服务器中包括有操作系统,操作系统具体可以是centos操作系统,发送给待测服务器的第一操作系统镜像也是centos操作系统,与诊断服务器操作系统对应相同。系统启动执行文件具体是/etc/rc.local文件,每个待测服务器通过sn(serialnumber,产品序列号,用于标识每个待测服务器,是唯一的,通过dmidecode命令获取)码标识。诊断服务器将第一操作系统镜像发送到每个待测服务器具体是通过pxe(prebootexecutionenvironment,预执行环境)方式实现的。

在步骤s2中,待测服务器接收到第一操作系统镜像后,上电启动对cpu以及内存进行压力测试,经过第一测试周期后,待测服务器更新诊断服务器中数据库对应数据,进行不断电重启,其中,压力测试中cpu的测试要求是:调用的cpu逻辑内核至少占cpu全部逻辑内核90%。压力测试中内存的测试要求是:内存占用量至少占全部内存的90%。如果未达到测试要求,则说明内存或者cpu有问题,需要排查内存或cpu问题再进行加压测试。第一测试周期可以是15-30min,优选为15min,也可以根据实际情况进行调整,本方案在此不做限制。进行内存压力测试目的是为了引起内存控制器和内存的电压和电流的波动处于高峰,待测服务器更新诊断服务器中数据库对应数据,后立即重启自己,如此循环往复进行第一测试次数,第一测试次数优选为20次,也可以根据实际情况进行调整。每执行一次压力测试,相应更新诊断服务器数据库中待测服务器的对应数据。

数据库数据包括待测服务器系统当前时间、待测服务器每一次重启时间、待测服务器重启所需时间、重启次数。数据库中数据存储的形式不限,每个待测服务器重启所需时间预先设置在诊断服务器的数据库中。具体地,根据待测服务器的型号来确定对应待测服务器的重启所需时间,例如,型号为as5300g2的待测服务器重启所需时间为5分钟。加压测试可以通过脚本实现,具体名称可以为stess-reboot。

在步骤s3中,根据诊断服务器中数据库中数据,判断待测服务器是否存在dqs报错内存情况具体包括:

s31,判断待测服务器系统当前时间是否大于待测服务器上一次重启时间与待测服务器重启所需时间的数值之和,如果判断结果为是,执行步骤s32,如果判断结果为否,则执行步骤s33;

s32,则重启失败,待测服务器存在dqs报错内存情况;

s33,进一步判断重启次数是否大于或等于第一测试次数,如果判断结果为是,执行步骤s34,如果判断结果为否,执行步骤s35;

s34,则待测服务器不存在dqs报错内存情况;

s35,则继续进行测试。

本方案中数据库为sql数据库,诊断服务器通过脚本实时轮询数据库中数据,并进行相应的判断,脚本名称可以是check_error。通过诊断服务器数据库中数据内容,可以准确判断服务器dqs拦截报错内存测试,而且还可以实时查询,相应数据在数据库时会显示以sn号指定的批待测服务器的测试结果,方便后期查询维护。

本发明有效解决由于人工测试造成效率低、可靠性低的问题,有效的提高了服务器dqs报错内存测试的效率以及可靠性。

本方案中每个待测服务器通过sn码标识,便于对每一个待测服务器进行区分,方便获取每个待测服务器的测试情况。

本方案中待测服务器中每一台服务器的拦截过程相互独立,不受其他待测服务器拦截过程的影响,诊断服务器操作在后台执行,不影响其他操作,提高了测试效率以及测试结果准确度。

实施例二

如图2所示,本发明实施例还提供了一种服务器dqs报错内存批量测试装置,包括:

发送模块101,诊断服务器将第一操作系统镜像发送到每个待测服务器;

压力测试模块102,待测服务器接收到第一操作系统镜像后,上电启动对cpu以及内存进行压力测试,经过第一测试周期后,待测服务器更新诊断服务器中数据库对应数据,进行不断电重启;

判断模块103,运行第一测试次数后,根据诊断服务器中数据库中数据,判断待测服务器是否存在dqs报错内存情况。

本发明有效解决由于人工测试造成效率低、可靠性低的问题,有效的提高了服务器dqs报错内存测试的效率以及可靠性。

本方案中每个待测服务器通过sn码标识,便于对每一个待测服务器进行区分,方便获取每个待测服务器的测试情况。

本方案中待测服务器中每一台服务器的拦截过程相互独立,不受其他待测服务器拦截过程的影响,诊断服务器操作在后台执行,不影响其他操作,提高了测试效率以及测试结果准确度。

上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。


技术特征:

1.一种服务器dqs报错内存批量测试方法,其特征是,包括:

诊断服务器将第一操作系统镜像发送到每个待测服务器;

待测服务器接收到第一操作系统镜像后,上电启动对cpu以及内存进行压力测试,经过第一测试周期后,更新诊断服务器中数据库对应数据,进行不断电重启;

待测服务器运行第一测试次数后,根据诊断服务器中数据库中数据,判断待测服务器是否存在dqs报错内存情况。

2.根据权利要求1所述的服务器dqs报错内存批量测试方法,其特征是,所述第一操作系统镜像为修改后的操作系统镜像,所述修改为在操作系统镜像的系统启动执行文件中添加执行压力测试重启的指令。

3.根据权利要求1所述的服务器dqs报错内存批量测试方法,其特征是,所述压力测试中cpu的测试要求是:调用的cpu逻辑内核至少占cpu全部逻辑内核90%。

4.根据权利要求1所述的服务器dqs报错内存批量测试方法,其特征是,所述压力测试中内存的测试要求是:内存占用量至少占全部内存的90%。

5.根据权利要求1所述的服务器dqs报错内存批量测试方法,其特征是,所述数据库数据包括待测服务器系统当前时间、待测服务器每一次重启时间、待测服务器重启所需时间、重启次数。

6.根据权利要求5所述的服务器dqs报错内存批量测试方法,其特征是,根据诊断服务器中数据库中数据,判断待测服务器是否存在dqs报错内存情况具体是:

判断待测服务器系统当前时间是否大于待测服务器上一次重启时间与待测服务器重启所需时间的数值之和,如果判断结果为是,则重启失败,待测服务器存在dqs报错内存情况;

如果判断结果为否,进一步判断重启次数是否大于或等于第一测试次数,如果判断结果为是,则待测服务器不存在dqs报错内存情况;如果判断结果为否,则继续进行测试。

7.根据权利要求5所述的服务器dqs报错内存批量测试方法,其特征是,每个待测服务器重启所需时间预先设置在诊断服务器的数据库中。

8.根据权利要求1-7所述的服务器dqs报错内存批量测试方法,其特征是,每个待测服务器通过sn码标识。

9.根据权利要求1-7任一所述的服务器dqs报错内存批量测试方法,其特征是,诊断服务器将第一操作系统镜像发送到每个待测服务器具体是通过pxe方式实现的。

10.一种服务器dqs报错内存批量测试装置,其特征是,包括:

发送模块,诊断服务器将第一操作系统镜像发送到每个待测服务器;

压力测试模块,待测服务器接收到第一操作系统镜像后,上电启动对cpu以及内存进行压力测试,经过第一测试周期后,待测服务器更新诊断服务器中数据库对应数据,进行不断电重启;

判断模块,运行第一测试次数后,根据诊断服务器中数据库中数据,判断待测服务器是否存在dqs报错内存情况。

技术总结
本发明为了解决现有技术中存在的问题,创新提出了一种服务器DQS报错内存批量测试方法,包括:诊断服务器将第一操作系统镜像发送到每个待测服务器;待测服务器接收到第一操作系统镜像后,上电启动对CPU以及内存进行压力测试,经过第一测试周期后,更新诊断服务器中数据库对应数据,进行不断电重启;待测服务器运行第一测试次数后,根据诊断服务器中数据库中数据,判断待测服务器是否存在DQS报错内存情况,本发明还提出了一种服务器DQS报错内存批量测试装置,有效解决由于人工测试造成效率低、可靠性低的问题,有效的提高了服务器DQS报错内存测试的效率以及可靠性。

技术研发人员:马光彬
受保护的技术使用者:苏州浪潮智能科技有限公司
技术研发日:2020.01.07
技术公布日:2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-59185.html

最新回复(0)