数据分片处理方法、装置及学分银行服务器与流程

专利2022-06-29  57


本发明涉及数据处理技术领域,具体而言,涉及一种数据分片处理方法、装置及学分银行服务器。



背景技术:

学分银行(schoolcreditbank,sdb)是一种模拟和借鉴银行的功能特点,使学生能够自由选择学习内容、学习时间、学习地点的一种在线学习管理模式。

学员能够基于学分银行进行自主学习。一般而言,学员通过在终端设备上进行在线学习和测评,以便从学分银行服务器处获得“学分”。“学分”是一种能够在学分银行服务器中进行通信交互的数据,学员可以在学分银行服务器中使用“学分”进行补贴申领和证书认证。

“学分”是学分银行服务器根据学员在终端设备输入的一系列操作指令进行数据处理和逻辑分析得到的,而根据一系列操作指令可能会确定出不同类型和不同大小的数据。因此,如何对根据操作指令确定出的数据进行准确分片从而实现对“学分”的准确确定是现阶段亟待解决的一个技术问题。



技术实现要素:

为了至少克服现有技术中的上述不足,本发明的目的之一在于提供一种数据分片处理方法、装置及学分银行服务器。

本发明实施例的第一方面,提供了一种数据分片处理方法,应用于与终端设备通信的学分银行服务器,所述方法至少包括:

获取基于接收到的所述终端设备发送的操作指令生成的多组交互数据中的每组交互数据的数据类别和数据容量;

根据每组交互数据的数据类别和数据容量确定每组交互数据的分片策略并确定出每两种分片策略之间的干扰系数;

获取确定出的所有干扰系数的第一平均值并根据所述第一平均值对每组交互数据的数据类别进行聚类,得到多个交互数据聚类;

统计每个交互数据聚类的数据总容量值,将数据总容量值超过设定值的交互数据聚类按照数据节点分片方法进行数据分片,将数据总容量值没有超过所述设定值的交互数据聚类按照钩子函数调用方法进行数据分片。

在一种可替换的实施方式中,所述确定出每两种分片策略之间的干扰系数,包括:

确定每种分片策略的分片密度;

针对每两种分片策略,将每两种分片策略中的第一分片策略对应的第一分片密度与第二分片策略对应的第二分片密度进行调换,并确定完成调换的第一分片策略中的第一分片逻辑表单的第一自适应调整参数集以及完成调换的第二分片策略中的第二分片逻辑表单的第二自适应调整参数集;

确定出所述第一自适应调整参数集中的第一目标参数,并从所述第二自适应调整参数集中确定出与所述第一目标参数一致的第二目标参数;

将所述第一自适应调整参数集中的所述第一目标参数进行剔除,得到第一独立参数集,将所述第二自适应调整参数集中的所述第二目标参数进行剔除,得到第二独立参数集;

将所述第一独立参数集和所述第二独立参数集进行融合得到分片参数集并根据所述分片参数集生成与每两种分片策略对应的临时分片指令;

广播所述临时分片指令,以使得目标学分银行服务器接收所述临时分片指令并根据所述临时分片指令中携带的分片逻辑对所述临时分片指令中封装的两组交互数据进行数据分片得到分片结果;

接收所述目标学分银行服务器反馈的分片结果;判断所述分片结果中的偏移量是否超过预设阈值;在所述偏移量超过所述预设阈值时根据所述第一独立参数集确定出每两种分片策略之间的干扰系数;在所述偏移量没有超过所述预设阈值时根据所述第二独立参数集确定出每两种分片策略之间的干扰系数。

在一种可替换的实施方式中,所述根据所述第一平均值对每组交互数据的数据类别进行聚类,包括:

确定出交互数据的数据类别中携带的类别标识地址并对确定出的每个类别标识地址的地址编码值进行统计,得到每个类别标识地址的对应的字符累计值;

将每个字符累计值映射到对应的交互数据的分片策略的源数据码流表单中,得到每个字符累计值的关联性评估值;

确定出得到的所有关联性评估值的第二平均值,并按照所述第二平均值与所述第一平均值之间的差值生成多个数值区间;

统计落入每个数值区间的关联性评估值并对每个数值区间内的若干个关联性评估值对应的若干个数据类别进行聚类。

在一种可替换的实施方式中,所述将数据容量和值超过设定值的交互数据聚类按照数据节点分片方法进行数据分片,包括:

将数据容量和值超过所述设定值的第一目标交互数据聚类中的每组交互数据的进行节点拆分,确定出所述第一目标交互数据聚类的数据节点集;

按照设定时间间隔从所述第一目标交互聚类的数据节点集中随机抽取n个数据节点,n为正整数且n小于所述数据节点集中的数据节点总数;

对所述n个数据节点同步进行数据分片,在达到设定时长时将所述n个数据节点中完成数据分片的第一数据节点的数据分片处理结果进行存储并将所述第一数据节点进行删除,将所述n个数据节点中没有完成数据分片的第二数据节点转移至所述数据节点集中,并返回按照设定时间间隔从所述第一目标交互聚类的数据节点集中随机抽取n个数据节点的步骤。

本发明实施例的第二方面,提供了一种数据分片处理装置,应用于与终端设备通信的学分银行服务器,所述装置至少包括:

获取模块,用于获取基于接收到的所述终端设备发送的操作指令生成的多组交互数据中的每组交互数据的数据类别和数据容量;

确定模块,用于根据每组交互数据的数据类别和数据容量确定每组交互数据的分片策略并确定出每两种分片策略之间的干扰系数;

聚类模块,用于获取确定出的所有干扰系数的第一平均值并根据所述第一平均值对每组交互数据的数据类别进行聚类,得到多个交互数据聚类;

分片模块,用于统计每个交互数据聚类的数据总容量值,将数据总容量值超过设定值的交互数据聚类按照数据节点分片方法进行数据分片,将数据总容量值没有超过所述设定值的交互数据聚类按照钩子函数调用方法进行数据分片。

在一种可替换的实施方式中,所述确定模块,用于:

确定每种分片策略的分片密度;

针对每两种分片策略,将每两种分片策略中的第一分片策略对应的第一分片密度与第二分片策略对应的第二分片密度进行调换,并确定完成调换的第一分片策略中的第一分片逻辑表单的第一自适应调整参数集以及完成调换的第二分片策略中的第二分片逻辑表单的第二自适应调整参数集;

确定出所述第一自适应调整参数集中的第一目标参数,并从所述第二自适应调整参数集中确定出与所述第一目标参数一致的第二目标参数;

将所述第一自适应调整参数集中的所述第一目标参数进行剔除,得到第一独立参数集,将所述第二自适应调整参数集中的所述第二目标参数进行剔除,得到第二独立参数集;

将所述第一独立参数集和所述第二独立参数集进行融合得到分片参数集并根据所述分片参数集生成与每两种分片策略对应的临时分片指令;

广播所述临时分片指令,以使得目标学分银行服务器接收所述临时分片指令并根据所述临时分片指令中携带的分片逻辑对所述临时分片指令中封装的两组交互数据进行数据分片得到分片结果;

接收所述目标学分银行服务器反馈的分片结果;判断所述分片结果中的偏移量是否超过预设阈值;在所述偏移量超过所述预设阈值时根据所述第一独立参数集确定出每两种分片策略之间的干扰系数;在所述偏移量没有超过所述预设阈值时根据所述第二独立参数集确定出每两种分片策略之间的干扰系数。

在一种可替换的实施方式中,所述聚类模块,用于:

确定出交互数据的数据类别中携带的类别标识地址并对确定出的每个类别标识地址的地址编码值进行统计,得到每个类别标识地址的对应的字符累计值;

将每个字符累计值映射到对应的交互数据的分片策略的源数据码流表单中,得到每个字符累计值的关联性评估值;

确定出得到的所有关联性评估值的第二平均值,并按照所述第二平均值与所述第一平均值之间的差值生成多个数值区间;

统计落入每个数值区间的关联性评估值并对每个数值区间内的若干个关联性评估值对应的若干个数据类别进行聚类。

在一种可替换的实施方式中,所述分片模块,用于:

将数据容量和值超过所述设定值的第一目标交互数据聚类中的每组交互数据的进行节点拆分,确定出所述第一目标交互数据聚类的数据节点集;

按照设定时间间隔从所述第一目标交互聚类的数据节点集中随机抽取n个数据节点,n为正整数且n小于所述数据节点集中的数据节点总数;

对所述n个数据节点同步进行数据分片,在达到设定时长时将所述n个数据节点中完成数据分片的第一数据节点的数据分片处理结果进行存储并将所述第一数据节点进行删除,将所述n个数据节点中没有完成数据分片的第二数据节点转移至所述数据节点集中,并返回按照设定时间间隔从所述第一目标交互聚类的数据节点集中随机抽取n个数据节点的步骤。

本发明实施例的第三方面,提供了一种学分银行服务器,包括处理器以及与所述处理器连接的存储器和总线;其中,所述处理器和所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行上述的数据分片处理方法。

本发明实施例的第四方面,提供了一种可读存储介质,其上存储有程序,该程序被处理器执行时实现上述的数据分片处理方法。

本发明实施例所提供的一种数据分片处理方法、装置及学分银行服务器,能够通过获取到的每组交互数据的数据类别和数据容量确定出每组交互数据的分片策略,并确定出每两种分片策略之间的干扰系数,从而根据所有干扰系数的第一平均值对数据类别进行聚类得到多个交互数据聚类,然后根据每个交互数据聚类的数据总容量值与设定值的大小关系采用数据节点分片方法或钩子函数调用方法对每个交互数据聚类进行数据分片。如此,能够将不同组的交互数据的干扰系数考虑在内,从而确保对交互数据进行准确的数据分片处理。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本发明实施例所提供的一种数据分片处理方法的流程图。

图2为本发明实施例所提供的一种数据分片处理装置的功能模块框图。

图3为本发明实施例所提供的一种学分银行服务器的方框示意图。

图标:

200-数据分片处理装置;201-获取模块;202-确定模块;203-聚类模块;204-分片模块;

300-学分银行服务器;301-处理器;302-存储器;303-总线。

具体实施方式

下面将参照附图更详细地描述本发明公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

为了更好的理解上述技术方案,下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明,而不是对本发明技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。

图1为根据本发明一个实施例提供的数据分片处理方法的流程图,应用于学分银行服务器,该方法可以包括以下内容:

步骤s21,获取基于接收到的所述终端设备发送的操作指令生成的多组交互数据中的每组交互数据的数据类别和数据容量。

在本实施例中,数据类别可以包括学员在终端设备上进行语音或者文字输入形成的在线课堂数据,例如文字作业、英语口语作业等。数据容量可以理解为交互数据所占用的存储空间的大小。

步骤s22,根据每组交互数据的数据类别和数据容量确定每组交互数据的分片策略并确定出每两种分片策略之间的干扰系数。

在本实施例中,分片策略中可以包括对每组交互数据进行分片的分片数量和分片大小,还可以包括用于表征不同的交互数据需要进行分片数量和分片大小调整的指示。

进一步地,干扰系数用于表征采用不同分片策略进行分片之后的不同分片结果之间的差异。

步骤s23,获取确定出的所有干扰系数的第一平均值并根据所述第一平均值对每组交互数据的数据类别进行聚类,得到多个交互数据聚类。

在本实施例中,交互数据聚类可以包括至少一个数据类别。换句话说,对每组交互数据的数据类别进行聚类可以理解为将多个数据类别进行分组和区分。

步骤s24,统计每个交互数据聚类的数据总容量值,将数据总容量值超过设定值的交互数据聚类按照数据节点分片方法进行数据分片,将数据总容量值没有超过所述设定值的交互数据聚类按照钩子函数调用方法进行数据分片。

在本实施例中,设定值可以是学分银行服务器所能够承受的最大存储容量。例如,学分银行服务器的额定存储容量为10tb,将学分银行服务器的系统数据考虑在内之后,学分银行所能够承受的最大存储容量可以为7tb。当然,在具体实施时,设定值可以根据不同的学分银行服务器进行调整,在此不作限定。

在本实施例中,钩子函数可以是hook函数。

可以理解,基于步骤s21-步骤s24,能够通过获取到的每组交互数据的数据类别和数据容量确定出每组交互数据的分片策略,并确定出每两种分片策略之间的干扰系数,从而根据所有干扰系数的第一平均值对数据类别进行聚类得到多个交互数据聚类,然后根据每个交互数据聚类的数据总容量值与设定值的大小关系采用数据节点分片方法或钩子函数调用方法对每个交互数据聚类进行数据分片。如此,能够将不同组的交互数据的干扰系数考虑在内,从而确保对交互数据进行准确的数据分片处理。

在具体实施时,每组交互数据对应的分片策略是不同的,学分银行服务器在根据不同的分片策略对每组交互数据进行数据分片时可能会互相干扰,从而影响数据分片的准确性。为此,为了实现准确的数据分片,在步骤s22中,所述确定出每两种分片策略之间的干扰系数,具体可以包括以下内容:

步骤s221,确定每种分片策略的分片密度。

在本实施例中,分片密度可以理解为将每个交互数据进行分片的数量。例如,将某个交互数据进行分片的数量为8个,则分片密度可以为8,当然,也可以将分片密度进行归一化处理,例如,可以用分片密度0.8表征将某个交互数据分片为8个数据块。

步骤s222,针对每两种分片策略,将每两种分片策略中的第一分片策略对应的第一分片密度与第二分片策略对应的第二分片密度进行调换,并确定完成调换的第一分片策略中的第一分片逻辑表单的第一自适应调整参数集以及完成调换的第二分片策略中的第二分片逻辑表单的第二自适应调整参数集。

在本实施例中,自适应调整参数集可以是不同的分片策略的调整系数,基于自适应调整参数集,可以对不同的分片策略进行微调,例如调整分片密度等。

步骤s223,确定出所述第一自适应调整参数集中的第一目标参数,并从所述第二自适应调整参数集中确定出与所述第一目标参数一致的第二目标参数。

步骤s224,将所述第一自适应调整参数集中的所述第一目标参数进行剔除,得到第一独立参数集,将所述第二自适应调整参数集中的所述第二目标参数进行剔除,得到第二独立参数集。

在本实施例中,独立参数集可以用于区分自适应调整参数集,也就是说,自适应调整参数集为独立参数集和目标参数的交集。

步骤s225,将所述第一独立参数集和所述第二独立参数集进行融合得到分片参数集并根据所述分片参数集生成与每两种分片策略对应的临时分片指令。

步骤s226,广播所述临时分片指令,以使得目标学分银行服务器接收所述临时分片指令并根据所述临时分片指令中携带的分片逻辑对所述临时分片指令中封装的两组交互数据进行数据分片得到分片结果。

步骤s227,接收所述目标学分银行服务器反馈的分片结果;判断所述分片结果中的偏移量是否超过预设阈值;在所述偏移量超过所述预设阈值时根据所述第一独立参数集确定出每两种分片策略之间的干扰系数;在所述偏移量没有超过所述预设阈值时根据所述第二独立参数集确定出每两种分片策略之间的干扰系数。

可以理解,通过步骤s221-步骤s227,能够基于每种分片策略的分片密度进行分片密度调换,并基于分片密度调换确定出每两种分片策略分别对应的第一独立参数集和第二独立参数集,进而根据闲置的目标学分银行服务器确定出的分片结果以及第一独立参数集或第二独立参数集确定每两种分片策略之间的干扰系数。如此,能够准确确定出分片策略之间的干扰系数,进而在后续进行分片时将干扰系数考虑在内,从而实现准确的数据分片。

在具体实施时,为了提高对数据类别进行聚类的准确性,在步骤s23中,所述根据所述第一平均值对每组交互数据的数据类别进行聚类,具体可以包括以下内容:

步骤s2311,确定出交互数据的数据类别中携带的类别标识地址并对确定出的每个类别标识地址的地址编码值进行统计,得到每个类别标识地址的对应的字符累计值。

步骤s231,将每个字符累计值映射到对应的交互数据的分片策略的源数据码流表单中,得到每个字符累计值的关联性评估值。

步骤s232,确定出得到的所有关联性评估值的第二平均值,并按照所述第二平均值与所述第一平均值之间的差值生成多个数值区间。

步骤s233,统计落入每个数值区间的关联性评估值并对每个数值区间内的若干个关联性评估值对应的若干个数据类别进行聚类。

可以理解,通过步骤s231-步骤s233,能够对数据类别中的类别标识地址进行分析,从而确定出每个类别标识地址对应的字符累计值,然后基于每个字符累积至在对应的交互数据的分片策略的源数据码流表单中映射得到的关联性评估值确定出第二平均值,并基于第二平均值和第一平均值的差值生成多个数值区间,从而基于多个数值区间内的关联性评估值实现对数据类别的聚类。如此,能够提高对数据类别进行聚类的准确性。

在具体实施时,当交互数据聚类的数据容量和值超过设定值时,表征对交互数据聚类进行数据分片时所调用的学分银行服务器的时间片资源较多,为了有效减少对学分银行服务器的时间片资源的占用,在步骤s24中,所述将数据总容量值超过设定值的交互数据聚类按照数据节点分片方法进行数据分片,具体可以包括以下内容:

步骤s2411,将数据容量和值超过所述设定值的第一目标交互数据聚类中的每组交互数据的进行节点拆分,确定出所述第一目标交互数据聚类的数据节点集。

步骤s2412,按照设定时间间隔从所述第一目标交互聚类的数据节点集中随机抽取n个数据节点,n为正整数且n小于所述数据节点集中的数据节点总数。

步骤s2413,对所述n个数据节点同步进行数据分片,在达到设定时长时将所述n个数据节点中完成数据分片的第一数据节点的数据分片处理结果进行存储并将所述第一数据节点进行删除,将所述n个数据节点中没有完成数据分片的第二数据节点转移至所述数据节点集中,并返回按照设定时间间隔从所述第一目标交互聚类的数据节点集中随机抽取n个数据节点的步骤。

通过步骤s2411-步骤s2413,能够每次从数据节点集中抽取n个数据节点进行数据分片处理,从而有效避免一次性占用过多的时间片资源。每次对n个数据节点同步进行数据分片,能够将没有在设定时长内完成数据分片的第二数据节点转移至数据节点集中并继续进行抽取,如此,随着数据节点集中的完成数据分片的数据节点的数量的增多,在分次进行n个数据节点的数据分片处理的后期,数据节点中所保留的第二数据节点的数量越来越少(可能小于n个),能够将对n个数据节点进行数据分片处理的时间片资源分配给不足n个的第二数据节点,从而在不占用过多的时间片资源的前提下提高第二数据节点的数据分片效率。

在具体实施时,当交互数据聚类的数据容量和值没有超过设定值时,为了提高数据分片的效率,在步骤s24中,所述将数据容量和值没有超过所述设定值的交互数据聚类按照钩子函数调用方法进行数据分片,具体可以包括一下内容:

步骤s2421,获取数据容量和值没有超过所述设定值的第二目标交互数据聚类的数据封装信息。

步骤s2422,根据所述数据封装信息确定目标函数。

步骤s2423,确定出所述第二目标交互数据聚类中的每组交互数据的数据映射列表。

步骤s2424,采用预设的钩子函数从外层钩取所述目标函数,并将数据映射表作为函数输入信息输入至所述目标函数。

步骤s2425,基于所述钩子函数获取所述目标函数根据所述函数输入信息确定出的函数输出信息。

步骤s2425,根据所述函数输出信息得到所述第二目标交互数据聚类的数据分片处理结果。

可以理解,通过步骤s2421-步骤s2425,能够通过钩子函数将第二目标交互数据聚类中的每组交互数据的数据映射列表输入给钩取到的目标函数并获得目标函数的函数输出信息,进而根据函数输出信息得到第二目标交互数据聚类的数据分片处理结果。如此,能够通过目标函数间接确定出数据分片处理结果,进而提高数据分片的效率。

在上述基础上,本发明实施例提供了一种数据分片处理装置200。图2为根据本发明一个实施例提供的一种数据分片处理装置200的功能模块框图,该数据分片处理装置200包括:

获取模块201,用于获取基于接收到的所述终端设备发送的操作指令生成的多组交互数据中的每组交互数据的数据类别和数据容量;

确定模块202,用于根据每组交互数据的数据类别和数据容量确定每组交互数据的分片策略并确定出每两种分片策略之间的干扰系数;

聚类模块203,用于获取确定出的所有干扰系数的第一平均值并根据所述第一平均值对每组交互数据的数据类别进行聚类,得到多个交互数据聚类;

分片模块204,用于统计每个交互数据聚类的数据总容量值,将数据总容量值超过设定值的交互数据聚类按照数据节点分片方法进行数据分片,将数据总容量值没有超过所述设定值的交互数据聚类按照钩子函数调用方法进行数据分片。

在一种可替换的实施方式中,所述确定模块202,用于:

确定每种分片策略的分片密度;

针对每两种分片策略,将每两种分片策略中的第一分片策略对应的第一分片密度与第二分片策略对应的第二分片密度进行调换,并确定完成调换的第一分片策略中的第一分片逻辑表单的第一自适应调整参数集以及完成调换的第二分片策略中的第二分片逻辑表单的第二自适应调整参数集;

确定出所述第一自适应调整参数集中的第一目标参数,并从所述第二自适应调整参数集中确定出与所述第一目标参数一致的第二目标参数;

将所述第一自适应调整参数集中的所述第一目标参数进行剔除,得到第一独立参数集,将所述第二自适应调整参数集中的所述第二目标参数进行剔除,得到第二独立参数集;

将所述第一独立参数集和所述第二独立参数集进行融合得到分片参数集并根据所述分片参数集生成与每两种分片策略对应的临时分片指令;

广播所述临时分片指令,以使得目标学分银行服务器接收所述临时分片指令并根据所述临时分片指令中携带的分片逻辑对所述临时分片指令中封装的两组交互数据进行数据分片得到分片结果;

接收所述目标学分银行服务器反馈的分片结果;判断所述分片结果中的偏移量是否超过预设阈值;在所述偏移量超过所述预设阈值时根据所述第一独立参数集确定出每两种分片策略之间的干扰系数;在所述偏移量没有超过所述预设阈值时根据所述第二独立参数集确定出每两种分片策略之间的干扰系数。

在一种可替换的实施方式中,所述聚类模块203,用于:

确定出交互数据的数据类别中携带的类别标识地址并对确定出的每个类别标识地址的地址编码值进行统计,得到每个类别标识地址的对应的字符累计值;

将每个字符累计值映射到对应的交互数据的分片策略的源数据码流表单中,得到每个字符累计值的关联性评估值;

确定出得到的所有关联性评估值的第二平均值,并按照所述第二平均值与所述第一平均值之间的差值生成多个数值区间;

统计落入每个数值区间的关联性评估值并对每个数值区间内的若干个关联性评估值对应的若干个数据类别进行聚类。

在一种可替换的实施方式中,所述分片模块204,用于:

将数据容量和值超过所述设定值的第一目标交互数据聚类中的每组交互数据的进行节点拆分,确定出所述第一目标交互数据聚类的数据节点集;

按照设定时间间隔从所述第一目标交互聚类的数据节点集中随机抽取n个数据节点,n为正整数且n小于所述数据节点集中的数据节点总数;

对所述n个数据节点同步进行数据分片,在达到设定时长时将所述n个数据节点中完成数据分片的第一数据节点的数据分片处理结果进行存储并将所述第一数据节点进行删除,将所述n个数据节点中没有完成数据分片的第二数据节点转移至所述数据节点集中,并返回按照设定时间间隔从所述第一目标交互聚类的数据节点集中随机抽取n个数据节点的步骤。

所述学分银行服务器300包括处理器和存储器,上述获取模块201、确定模块202、聚类模块203和分片模块204等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数确保对交互数据进行准确的数据分片处理。

本发明实施例提供了一种可读存储介质,其上存储有程序,该程序被处理器执行时实现所述数据分片处理方法。

本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行的所述数据分片处理方法如下:

a1.一种数据分片处理方法,应用于与终端设备通信的学分银行服务器,所述方法至少包括:

获取基于接收到的所述终端设备发送的操作指令生成的多组交互数据中的每组交互数据的数据类别和数据容量;

根据每组交互数据的数据类别和数据容量确定每组交互数据的分片策略并确定出每两种分片策略之间的干扰系数;

获取确定出的所有干扰系数的第一平均值并根据所述第一平均值对每组交互数据的数据类别进行聚类,得到多个交互数据聚类;

统计每个交互数据聚类的数据总容量值,将数据总容量值超过设定值的交互数据聚类按照数据节点分片方法进行数据分片,将数据总容量值没有超过所述设定值的交互数据聚类按照钩子函数调用方法进行数据分片。

a2.根据a1所述的数据分片处理方法,所述确定出每两种分片策略之间的干扰系数,包括:

确定每种分片策略的分片密度;

针对每两种分片策略,将每两种分片策略中的第一分片策略对应的第一分片密度与第二分片策略对应的第二分片密度进行调换,并确定完成调换的第一分片策略中的第一分片逻辑表单的第一自适应调整参数集以及完成调换的第二分片策略中的第二分片逻辑表单的第二自适应调整参数集;

确定出所述第一自适应调整参数集中的第一目标参数,并从所述第二自适应调整参数集中确定出与所述第一目标参数一致的第二目标参数;

将所述第一自适应调整参数集中的所述第一目标参数进行剔除,得到第一独立参数集,将所述第二自适应调整参数集中的所述第二目标参数进行剔除,得到第二独立参数集;

将所述第一独立参数集和所述第二独立参数集进行融合得到分片参数集并根据所述分片参数集生成与每两种分片策略对应的临时分片指令;

广播所述临时分片指令,以使得目标学分银行服务器接收所述临时分片指令并根据所述临时分片指令中携带的分片逻辑对所述临时分片指令中封装的两组交互数据进行数据分片得到分片结果;

接收所述目标学分银行服务器反馈的分片结果;判断所述分片结果中的偏移量是否超过预设阈值;在所述偏移量超过所述预设阈值时根据所述第一独立参数集确定出每两种分片策略之间的干扰系数;在所述偏移量没有超过所述预设阈值时根据所述第二独立参数集确定出每两种分片策略之间的干扰系数。

a3.根据a1或a2所述的数据分片处理方法,所述根据所述第一平均值对每组交互数据的数据类别进行聚类,包括:

确定出交互数据的数据类别中携带的类别标识地址并对确定出的每个类别标识地址的地址编码值进行统计,得到每个类别标识地址的对应的字符累计值;

将每个字符累计值映射到对应的交互数据的分片策略的源数据码流表单中,得到每个字符累计值的关联性评估值;

确定出得到的所有关联性评估值的第二平均值,并按照所述第二平均值与所述第一平均值之间的差值生成多个数值区间;

统计落入每个数值区间的关联性评估值并对每个数值区间内的若干个关联性评估值对应的若干个数据类别进行聚类。

a4.根据a1-a3任一项所述的数据分片处理方法,所述将数据容量和值超过设定值的交互数据聚类按照数据节点分片方法进行数据分片,包括:

将数据容量和值超过所述设定值的第一目标交互数据聚类中的每组交互数据的进行节点拆分,确定出所述第一目标交互数据聚类的数据节点集;

按照设定时间间隔从所述第一目标交互聚类的数据节点集中随机抽取n个数据节点,n为正整数且n小于所述数据节点集中的数据节点总数;

对所述n个数据节点同步进行数据分片,在达到设定时长时将所述n个数据节点中完成数据分片的第一数据节点的数据分片处理结果进行存储并将所述第一数据节点进行删除,将所述n个数据节点中没有完成数据分片的第二数据节点转移至所述数据节点集中,并返回按照设定时间间隔从所述第一目标交互聚类的数据节点集中随机抽取n个数据节点的步骤。

本发明实施例中,如图3所示,学分银行服务器300包括至少一个处理器301、以及与处理器301连接的至少一个存储器302、总线;其中,处理器301、存储器302通过总线303完成相互间的通信;处理器301用于调用存储器302中的程序指令,以执行上述的数据分片处理方法。本文中的学分银行服务器300可以是学分银行服务器、pc、pad、手机等。

本申请是参照根据本申请实施例的方法、学分银行服务器(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理学分银行服务器的处理器以产生一个机器,使得通过计算机或其他可编程数据处理学分银行服务器的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

在一个典型的配置中,学分银行服务器包括一个或多个处理器(cpu)、存储器和总线。学分银行服务器还可以包括输入/输出接口、网络接口等。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储学分银行服务器或任何其他非传输介质,可用于存储可以被计算学分银行服务器访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者学分银行服务器不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者学分银行服务器所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者学分银行服务器中还存在另外的相同要素。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。


技术特征:

1.一种数据分片处理方法,其特征在于,应用于与终端设备通信的学分银行服务器,所述方法至少包括:

获取基于接收到的所述终端设备发送的操作指令生成的多组交互数据中的每组交互数据的数据类别和数据容量;

根据每组交互数据的数据类别和数据容量确定每组交互数据的分片策略并确定出每两种分片策略之间的干扰系数;

获取确定出的所有干扰系数的第一平均值并根据所述第一平均值对每组交互数据的数据类别进行聚类,得到多个交互数据聚类;

统计每个交互数据聚类的数据总容量值,将数据总容量值超过设定值的交互数据聚类按照数据节点分片方法进行数据分片,将数据总容量值没有超过所述设定值的交互数据聚类按照钩子函数调用方法进行数据分片。

2.根据权利要求1所述的数据分片处理方法,其特征在于,所述确定出每两种分片策略之间的干扰系数,包括:

确定每种分片策略的分片密度;

针对每两种分片策略,将每两种分片策略中的第一分片策略对应的第一分片密度与第二分片策略对应的第二分片密度进行调换,并确定完成调换的第一分片策略中的第一分片逻辑表单的第一自适应调整参数集以及完成调换的第二分片策略中的第二分片逻辑表单的第二自适应调整参数集;

确定出所述第一自适应调整参数集中的第一目标参数,并从所述第二自适应调整参数集中确定出与所述第一目标参数一致的第二目标参数;

将所述第一自适应调整参数集中的所述第一目标参数进行剔除,得到第一独立参数集,将所述第二自适应调整参数集中的所述第二目标参数进行剔除,得到第二独立参数集;

将所述第一独立参数集和所述第二独立参数集进行融合得到分片参数集并根据所述分片参数集生成与每两种分片策略对应的临时分片指令;

广播所述临时分片指令,以使得目标学分银行服务器接收所述临时分片指令并根据所述临时分片指令中携带的分片逻辑对所述临时分片指令中封装的两组交互数据进行数据分片得到分片结果;

接收所述目标学分银行服务器反馈的分片结果;判断所述分片结果中的偏移量是否超过预设阈值;在所述偏移量超过所述预设阈值时根据所述第一独立参数集确定出每两种分片策略之间的干扰系数;在所述偏移量没有超过所述预设阈值时根据所述第二独立参数集确定出每两种分片策略之间的干扰系数。

3.根据权利要求1所述的数据分片处理方法,其特征在于,所述根据所述第一平均值对每组交互数据的数据类别进行聚类,包括:

确定出交互数据的数据类别中携带的类别标识地址并对确定出的每个类别标识地址的地址编码值进行统计,得到每个类别标识地址的对应的字符累计值;

将每个字符累计值映射到对应的交互数据的分片策略的源数据码流表单中,得到每个字符累计值的关联性评估值;

确定出得到的所有关联性评估值的第二平均值,并按照所述第二平均值与所述第一平均值之间的差值生成多个数值区间;

统计落入每个数值区间的关联性评估值并对每个数值区间内的若干个关联性评估值对应的若干个数据类别进行聚类。

4.根据权利要求1所述的数据分片处理方法,其特征在于,所述将数据容量和值超过设定值的交互数据聚类按照数据节点分片方法进行数据分片,包括:

将数据容量和值超过所述设定值的第一目标交互数据聚类中的每组交互数据的进行节点拆分,确定出所述第一目标交互数据聚类的数据节点集;

按照设定时间间隔从所述第一目标交互聚类的数据节点集中随机抽取n个数据节点,n为正整数且n小于所述数据节点集中的数据节点总数;

对所述n个数据节点同步进行数据分片,在达到设定时长时将所述n个数据节点中完成数据分片的第一数据节点的数据分片处理结果进行存储并将所述第一数据节点进行删除,将所述n个数据节点中没有完成数据分片的第二数据节点转移至所述数据节点集中,并返回按照设定时间间隔从所述第一目标交互聚类的数据节点集中随机抽取n个数据节点的步骤。

5.一种数据分片处理装置,其特征在于,应用于与终端设备通信的学分银行服务器,所述装置至少包括:

获取模块,用于获取基于接收到的所述终端设备发送的操作指令生成的多组交互数据中的每组交互数据的数据类别和数据容量;

确定模块,用于根据每组交互数据的数据类别和数据容量确定每组交互数据的分片策略并确定出每两种分片策略之间的干扰系数;

聚类模块,用于获取确定出的所有干扰系数的第一平均值并根据所述第一平均值对每组交互数据的数据类别进行聚类,得到多个交互数据聚类;

分片模块,用于统计每个交互数据聚类的数据总容量值,将数据总容量值超过设定值的交互数据聚类按照数据节点分片方法进行数据分片,将数据总容量值没有超过所述设定值的交互数据聚类按照钩子函数调用方法进行数据分片。

6.根据权利要求5所述的数据分片处理装置,其特征在于,所述确定模块,用于:

确定每种分片策略的分片密度;

针对每两种分片策略,将每两种分片策略中的第一分片策略对应的第一分片密度与第二分片策略对应的第二分片密度进行调换,并确定完成调换的第一分片策略中的第一分片逻辑表单的第一自适应调整参数集以及完成调换的第二分片策略中的第二分片逻辑表单的第二自适应调整参数集;

确定出所述第一自适应调整参数集中的第一目标参数,并从所述第二自适应调整参数集中确定出与所述第一目标参数一致的第二目标参数;

将所述第一自适应调整参数集中的所述第一目标参数进行剔除,得到第一独立参数集,将所述第二自适应调整参数集中的所述第二目标参数进行剔除,得到第二独立参数集;

将所述第一独立参数集和所述第二独立参数集进行融合得到分片参数集并根据所述分片参数集生成与每两种分片策略对应的临时分片指令;

广播所述临时分片指令,以使得目标学分银行服务器接收所述临时分片指令并根据所述临时分片指令中携带的分片逻辑对所述临时分片指令中封装的两组交互数据进行数据分片得到分片结果;

接收所述目标学分银行服务器反馈的分片结果;判断所述分片结果中的偏移量是否超过预设阈值;在所述偏移量超过所述预设阈值时根据所述第一独立参数集确定出每两种分片策略之间的干扰系数;在所述偏移量没有超过所述预设阈值时根据所述第二独立参数集确定出每两种分片策略之间的干扰系数。

7.根据权利要求5所述的数据分片处理装置,其特征在于,所述聚类模块,用于:

确定出交互数据的数据类别中携带的类别标识地址并对确定出的每个类别标识地址的地址编码值进行统计,得到每个类别标识地址的对应的字符累计值;

将每个字符累计值映射到对应的交互数据的分片策略的源数据码流表单中,得到每个字符累计值的关联性评估值;

确定出得到的所有关联性评估值的第二平均值,并按照所述第二平均值与所述第一平均值之间的差值生成多个数值区间;

统计落入每个数值区间的关联性评估值并对每个数值区间内的若干个关联性评估值对应的若干个数据类别进行聚类。

8.根据权利要求5所述的数据分片处理装置,其特征在于,所述分片模块,用于:

将数据容量和值超过所述设定值的第一目标交互数据聚类中的每组交互数据的进行节点拆分,确定出所述第一目标交互数据聚类的数据节点集;

按照设定时间间隔从所述第一目标交互聚类的数据节点集中随机抽取n个数据节点,n为正整数且n小于所述数据节点集中的数据节点总数;

对所述n个数据节点同步进行数据分片,在达到设定时长时将所述n个数据节点中完成数据分片的第一数据节点的数据分片处理结果进行存储并将所述第一数据节点进行删除,将所述n个数据节点中没有完成数据分片的第二数据节点转移至所述数据节点集中,并返回按照设定时间间隔从所述第一目标交互聚类的数据节点集中随机抽取n个数据节点的步骤。

9.一种学分银行服务器,其特征在于,包括处理器以及与所述处理器连接的存储器和总线;其中,所述处理器和所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行上述权利要求1-4任一项所述的数据分片处理方法。

10.一种可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时实现上述权利要求1-4任一项所述的数据分片处理方法。

技术总结
本发明涉及数据处理技术领域,具体而言,涉及一种数据分片处理方法、装置及学分银行服务器。本发明能够通过获取到的每组交互数据的数据类别和数据容量确定出每组交互数据的分片策略,并确定出每两种分片策略之间的干扰系数,从而根据所有干扰系数的第一平均值对数据类别进行聚类得到多个交互数据聚类,然后根据每个交互数据聚类的数据总容量值与设定值的大小关系采用数据节点分片方法或钩子函数调用方法对每个交互数据聚类进行数据分片。如此,能够将不同组的交互数据的干扰系数考虑在内,从而确保对交互数据进行准确的数据分片处理。

技术研发人员:吴洋洋;叶祖锋;张立;姚煜明;邓雄尧;陈敏浩
受保护的技术使用者:广州欧赛斯信息科技有限公司
技术研发日:2020.01.17
技术公布日:2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-52899.html

最新回复(0)