一种多源异构数据的自适应变频增量更新方法与流程

专利2022-06-29  63


本发明属于数据挖掘与应用领域,具体涉及一种多源异构数据的自适应变频增量更新方法。



背景技术:

随着社会经济与数据采集技术的发展,各行各业产生了大量数据,这些数据包括了具有较强结构的结构化数据与半结构化数据,也包括了大量非结构化数据如文本、图像与视频数据。在数据采集技术提高的同时,数据存储与处理技术也不断发展。多源异构数据是指数据具有多个来源,同一来源的数据结构常常不同。常见的情况是“一数多源”以及“一源多数”。由于数据采集方与管理方分工的不同,一个数据源的数据,例如降水数据可能被多个单位的数据采集设备收集导致冗余;另一方面,由于不同业务对于数据要求不同,数据处理与更新的频率也不尽相同。同一个数据源可能存在多项不同频率的数据。由于现阶段数据存储主要以结构化的数据库存储方式为主,文本、图像与音视频等非结构化的数据存储难度较大。同时,不同数据源,例如网络数据源、数据库数据源以及人工填报数据源的数据存在不同的数据刷新频率,现今大多数的多源数据更新方式主要以定频更新方式为主,更新效率较低,更新结构灵活性较差。多源异构数据的存储、处理与迁移仍然存在较大的困难。



技术实现要素:

发明目的:为了克服现有技术中存在的多源异构数据处理难度大,更新频率多变难以确定的问题,提供一种多源异构数据的自适应变频增量更新方法,该方法更新效率高、性能稳定、部署方便、可扩展性好。

技术方案:为实现上述目的,本发明提供一种多源异构数据的自适应变频增量更新方法,包括如下步骤:

s1:确定数据源与核心数据库集群;

s2:构建数据更新模型;

s3:部署并初始化步骤s2构建的数据更新模型;

s4:通过数据更新模型获取各数据源处数据;

s5:比较所获数据时间戳,判断是否需要更新,如需要更新,则继续进行更新,如不需要更新,则重复步骤s4;

s6:将更新数据加载至核心数据库集群;

s7:根据更新数据刷新频率配置表与时间戳记录表。

进一步的,所述步骤s1具体为:

s1-1:确定数据源类型data_source_type,其包括:人工填报数据源、网络数据源、整编数据库源;

s1-2:根据数据源类型,确定数据源访问方法;

s1-3:确定核心数据库集群类型及访问、读取写入方法;

s1-4:创建数据源基本信息表sit,字段包括:数据源名称snm,数据源ip地址sip、端口号spt、数据源类型stp、目标数据库ip地址tip、目标数据库端口号tpt、目标数据库用户名tusnm、目标数据库名tnm、目标数据库模式名tpnm、目标数据库连接密码tkw。

进一步的,所述步骤s2中数据更新模型包括网络资源获取单元nau、人工填报数据获取单元hau、通用数据库数据抽取单元gdeu、更新频率控制单元fcu、通用数据规范单元gdtu和通用数据加载单元gdlu。

所述网络资源获取单元nau的构建步骤如下:

s2a-1:构建ip地址解析访问模块,根据网络资源入口ip地址访问指定网络资源地址;

s2a-2:构建网络资源下载模块,将链接所指向的数据下载至本地计算机;

s2a-3:构建数据转储模块,将网络资源进行简单命名整理后存储至nau所在计算机指定磁盘;

s2a-4:构建终止条件判断模块,根据输入的终止条件c终止nau程序;

所述人工填报数据获取单元hau的构建步骤如下:

s2b-1:构建路径索引模块,查询指定文件路径下的文件内容是否存在新的数据文件;

s2b-2:构建文件类型判断模块,判断新增加的文件的数据类型;

s2b-3:构建数据存储模块,根据数据文件类型,判断数据存储形式,并将数据存储至hau所在计算机指定磁盘;

其中,人工填报数据是指由人工收集或填写的结构化数据文件或非结构化数据文件。人工收集或填写的结构化数据是指xls、csv、xlsx等具有清晰规范数据组织结构的数据文件,存储时不改变其结构与内容;人工收集或填写的非结构化数据是指文本、图像、音频等类型的不具有清晰规范数据结构的数据文件,存储时仅存储文件名称filename、文件大小filesize,文件位置fileloca,并将所有非结构化数据的上述信息统一存储在名为datainfo.xls的文件中。

所述通用数据库数据抽取单元gdeu的构建步骤如下:

s2c-1:创建数据库基本信息表dbit,字段包括:数据库ip地址dbip、端口号dbpt、用户名usnm、数据库名dbnm、模式名pnm、数据库连接密码dbkw、数据库类型dbtp;

s2c-2:根据源数据库类型获取连接驱动程序或手动编写;

s2c-3:抽取测试用例,测试数据库连接;

所述更新频率控制单元fcu的构建步骤如下:

s2d-1:创建更新时间戳记录表trt,字段包括:数据源名称snm,数据源ip地址sip,更新时间戳uts;

s2d-2:创建数据源更新频率配置表frt,字段包括:数据源名称snm,数据源ip地址sip,更新频率suf;

s2d-3:构建更新时间戳记录表读取模块;

s2d-4:构建网络资源获取单元nau、人工填报数据获取单元hau、用数据库数据抽取单元gdeu调用模块;

s2d-5:构建更新频率计算模块,用于计算更新各数据源的频率;

s2d-6:构建数据源更新频率配置表刷新模块,将最新频率写入配置表;

所述通用数据规范单元gdtu的构建步骤如下:

s2e-1:构建数据读取模块;

s2e-2:构建数据合并、整编、排序模块;

s2e-3:构建数据写入模块;

所述通用数据加载单元gdlu的构建步骤如下:

s2f-1:构建核心数据库集群访问模块;

s2f-2:构建规范数据读取模块;

s2f-3:构建核心数据库加载数据加载模块。

进一步的,所述步骤s3的具体过程如下:

s3-1:部署数据更新模型,具体步骤包括:

s3a-1:在单个计算机依照数据源情况部署网络资源获取单元nau、人工填报数据获取单元hau、通用数据库数据抽取单元gdeu以及通用数据规范单元gdtu,并测试;

s3a-2:部署更新频率控制单元fcu并测试;

s3a-3:部署数据加载单元gdlu并测试;

s3-2:初始化数据更新模型的参数,具体步骤包括:

s3b-1:初始化数据源基本信息sit,字段包括:数据源名称snm,数据源ip地址sip、端口号spt、数据源类型stp、目标数据库ip地址tip、目标数据库端口号tpt、目标数据库用户名tusnm、目标数据库名tnm、目标数据库模式名tpnm、目标数据库连接密码tkw;

s3b-2:初始化更新时间戳记录表trt,字段包括:数据源名称snm,数据源ip地址sip,更新时间戳uts;

s3b-3:初始化更新频率配置表fct,字段包括:数据源名称snm,数据源ip地址sip,更新频率suf;

s3b-4:初始化网络资源获取单元nau的网络资源入口ip地址、终止条件c,网络资源下载存放位置nsl;

s3b-5:初始化人工填报数据获取单元hau的datainfo.xls文件及其存放位置hsl;

s3b-6:初始化数据库基本信息表dbit,字段包括数据库ip地址dbip、端口号dbpt、用户名usnm、数据库名dbnm、模式名pnm、数据库连接密码dbkw、数据库类型dbtp。

进一步的,所述步骤s4的具体过程为:更新频率控制单元fcu查询初始化的更新频率配置表fct,根据对应的更新频率调用nau,hau,gdeu,获取各数据源数据,包括网络数据资源、人工填报数据以及数据库数据。

获取网络数据资源的具体步骤如下:

s4a-1:将入口ip地址及终止条件c输入网络资源获取单元nau;其中,终止条件是指时间间隔t或链接跳数h或终止ip地址a;

s4a-2:网络资源获取单元nau根据ip地址不断索引资源链接,将需要的资源链接下载至nau所在计算机的指定磁盘位置nsl;

获取人工填报数据的具体步骤如下:

s4b-1:输入指定人工填报数据文件存放路径;

s4b-2:判断指定路径下是否存在待更新的数据,如有,则进一步判断其类型;

s4b-3:根据数据类型将数据存储至hau所在计算机的指定磁盘位置hsl;

获取数据库数据的具体步骤如下:

s4c-1:根据数据库信息表连接数据库基本信息表dbit获取数据库连接信息,建立连接;

s4c-2:根据查询条件获取数据。

所述步骤s5具体过程如下:

s5-1:比较所获取数据中最新数据的时间,判断是否需要更新;

s5-2:如果需要更新,则继续进行更新,否则重复上述步骤s4。

进一步的,所述步骤s6的具体过程为:

s6-1:调用通用数据规范单元gdtu,对网络数据源数据和人工填报数据进行规范操作;

s6-2:调用数据加载单元gdlu,将步骤s4获得的数据库数据、经过规范化操作的人工填报数据及网络数据资源加载至核心数据库集群。

进一步的,所述步骤s7的具体过程如下:

s7-1:更新各数据源数据更新时间戳,将获取数据中最新数据的时间作为时间戳,原时间戳保留;

s7-2:刷新更新频率配置表,根据某一数据源当前更新频率ft和当前时间戳tst和上一时间戳tst-1,计算该数据源新的更新频率ft 1,并将其写入更新速率配置表。

ft 1计算方式如下:

其中,α为刷新率,范围为[0,1],α越大表示更新频率的变化越快。

有益效果:本发明与现有技术相比,具备如下优点:

1、本发明针对多源异构数据处理难度大、步骤繁琐等问题,为多源(网络、人工、数据库)异构(数值、文本、图像、音视频)数据的自动化更新提供了统一的解决方案,可扩展性好,可单机部署。

2、本发明针对多源异构数据更新频率不固定,定频方法处理效率低的问题,提出了自适应变频增量更新方法,针对不同数据源数据更新频率各异的特点,采用更新频率控制单元根据当前及历史数据更新时间戳动态计算不同数据源未来的更新频率,同时在系统中维持更新频率配置表和时间戳记录表;同时采用增量更新的方式,降低了数据传输量减少了通信开销,进一步提高了多源异构数据的速度与更新效率。另外,本发明采用数据库集群方式存储更新数据,数据安全性较高,系统性能较为稳定。

附图说明

图1为本发明算法流程图;

图2为本发明方法具体更新框架图。

具体实施方式

下面结合附图和具体实施例,进一步阐明本发明。

参照图1,本发明提供一种多源异构数据的自适应变频增量更新方法,包括如下步骤:

s1:确定数据源与核心数据库集群:

s1-1:确定数据源类型data_source_type,其包括:人工填报数据源、网络数据源、整编数据库源;

s1-2:根据数据源类型,确定数据源访问方法;

s1-3:确定核心数据库集群类型及访问、读取写入方法;

s1-4:创建数据源基本信息表sit,字段包括:数据源名称snm,数据源ip地址sip、端口号spt、数据源类型stp、目标数据库ip地址tip、目标数据库端口号tpt、目标数据库用户名tusnm、目标数据库名tnm、目标数据库模式名tpnm、目标数据库连接密码tkw。

s2:构建数据更新模型:

如图2所示,数据更新模型包括网络资源获取单元nau、人工填报数据获取单元hau、通用数据库数据抽取单元gdeu、更新频率控制单元fcu、通用数据规范单元gdtu和通用数据加载单元gdlu。

网络资源获取单元nau的构建步骤如下:

s2a-1:构建ip地址解析访问模块,根据网络资源入口ip地址访问指定网络资源地址;

s2a-2:构建网络资源下载模块,将链接所指向的数据下载至本地计算机;

s2a-3:构建数据转储模块,将网络资源进行简单命名整理后存储至nau所在计算机指定磁盘;

s2a-4:构建终止条件判断模块,根据输入的终止条件c终止nau程序;

人工填报数据获取单元hau的构建步骤如下:

s2b-1:构建路径索引模块,查询指定文件路径下的文件内容是否存在新的数据文件;

s2b-2:构建文件类型判断模块,判断新增加的文件的数据类型;

s2b-3:构建数据存储模块,根据数据文件类型,判断数据存储形式,并将数据存储至hau所在计算机指定磁盘;

其中,人工填报数据是指由人工收集或填写的结构化数据文件或非结构化数据文件。人工收集或填写的结构化数据是指xls、csv、xlsx等具有清晰规范数据组织结构的数据文件,存储时不改变其结构与内容;人工收集或填写的非结构化数据是指文本、图像、音频等类型的不具有清晰规范数据结构的数据文件,存储时仅存储文件名称filename、文件大小filesize,文件位置fileloca,并将所有非结构化数据的上述信息统一存储在名为datainfo.xls的文件中。

通用数据库数据抽取单元gdeu的构建步骤如下:

s2c-1:创建数据库基本信息表dbit,字段包括:数据库ip地址dbip、端口号dbpt、用户名usnm、数据库名dbnm、模式名pnm、数据库连接密码dbkw、数据库类型dbtp;

s2c-2:根据源数据库类型获取连接驱动程序或手动编写;

s2c-3:抽取测试用例,测试数据库连接;

更新频率控制单元fcu的构建步骤如下:

s2d-1:创建更新时间戳记录表trt,字段包括:数据源名称snm,数据源ip地址sip,更新时间戳uts;

s2d-2:创建数据源更新频率配置表frt,字段包括:数据源名称snm,数据源ip地址sip,更新频率suf;

s2d-3:构建更新时间戳记录表读取模块;

s2d-4:构建网络资源获取单元nau、人工填报数据获取单元hau、用数据库数据抽取单元gdeu调用模块;

s2d-5:构建更新频率计算模块,用于计算更新各数据源的频率;

s2d-6:构建数据源更新频率配置表刷新模块,将最新频率写入配置表;

通用数据规范单元gdtu的构建步骤如下:

s2e-1:构建数据读取模块;

s2e-2:构建数据合并、整编、排序模块;

s2e-3:构建数据写入模块;

通用数据加载单元gdlu的构建步骤如下:

s2f-1:构建核心数据库集群访问模块;

s2f-2:构建规范数据读取模块;

s2f-3:构建核心数据库加载数据加载模块。

s3:部署并初始化数据更新模型:

s3-1:部署数据更新模型,具体步骤包括:

s3a-1:在单个计算机依照数据源情况部署网络资源获取单元nau、人工填报数据获取单元hau、通用数据库数据抽取单元gdeu以及通用数据规范单元gdtu,并测试;

s3a-2:部署更新频率控制单元fcu并测试;

s3a-3:部署数据加载单元gdlu并测试;

s3-2:初始化数据更新模型的参数,具体步骤包括:

s3b-1:初始化数据源基本信息sit,字段包括:数据源名称snm,数据源ip地址sip、端口号spt、数据源类型stp、目标数据库ip地址tip、目标数据库端口号tpt、目标数据库用户名tusnm、目标数据库名tnm、目标数据库模式名tpnm、目标数据库连接密码tkw;

s3b-2:初始化更新时间戳记录表trt,字段包括:数据源名称snm,数据源ip地址sip,更新时间戳uts;

s3b-3:初始化更新频率配置表fct,字段包括:数据源名称snm,数据源ip地址sip,更新频率suf;

s3b-4:初始化网络资源获取单元nau的网络资源入口ip地址、终止条件c,网络资源下载存放位置nsl;

s3b-5:初始化人工填报数据获取单元hau的datainfo.xls文件及其存放位置hsl;s3b-6:初始化数据库基本信息表dbit,字段包括数据库ip地址dbip、端口号dbpt、用户名usnm、数据库名dbnm、模式名pnm、数据库连接密码dbkw、数据库类型dbtp。s4:通过数据更新模型获取各数据源处数据:

更新频率控制单元fcu查询初始化的更新频率配置表fct,根据对应的更新频率调用nau,hau,gdeu,获取各数据源数据,包括网络数据资源、人工填报数据以及数据库数据。

本实施例中获取网络数据资源的具体步骤如下:

s4a-1:将入口ip地址及终止条件c输入网络资源获取单元nau;其中,终止条件是指时间间隔t或链接跳数h或终止ip地址a;

s4a-2:网络资源获取单元nau根据ip地址不断索引资源链接,将需要的资源链接下载至nau所在计算机的指定磁盘位置nsl;

获取人工填报数据的具体步骤如下:

s4b-1:输入指定人工填报数据文件存放路径;

s4b-2:判断指定路径下是否存在待更新的数据,如有,则进一步判断其类型;

s4b-3:根据数据类型将数据存储至hau所在计算机的指定磁盘位置hsl;

获取数据库数据的具体步骤如下:

s4c-1:根据数据库信息表连接数据库基本信息表dbit获取数据库连接信息,建立连接;

s4c-2:根据查询条件获取数据。

s5:比较所获取数据中最新数据的时间,判断是否需要更新,如果需要更新,则继续进行更新,否则重复上述步骤s4;

s6:将更新数据加载至核心数据库集群:

s6-1:调用通用数据规范单元gdtu,对网络数据源数据和人工填报数据进行规范操作;

s6-2:调用数据加载单元gdlu,将步骤s4获得的数据库数据、经过规范化操作的人工填报数据及网络数据资源加载至核心数据库集群。

s7:根据更新数据刷新频率配置表与时间戳记录表:

s7-1:更新各数据源数据更新时间戳,将获取数据中最新数据的时间作为时间戳,原时间戳保留;

s7-2:刷新更新频率配置表,根据某一数据源当前更新频率ft和当前时间戳tst和上一时间戳tst-1,计算该数据源新的更新频率ft 1,并将其写入更新速率配置表。

其中,ft 1计算方式如下:

其中,α为刷新率,范围为[0,1],α越大表示更新频率的变化越快。

结合图2可知,本实施例中获取的具体更新框架可部署在单台计算机上,其包含网络资源获取单元nau、人工填报数据获取单元hau、通用数据库数据抽取单元gdeu、通用数据规范单元gdtu、通用数据加载单元gdlu以及更新频率控制单元fcu。

其中网络资源获取单元nau、人工填报数据获取单元hau以及通用数据库数据抽取单元gdeu主要用来获取对应数据源的数据,针对不同数据类型的数据,采用对应不同的方式处理,结构化数据保持其原有结构,非结构化数据在进行处理后转换为结构化数据。

通过数据规范单元gdtu用于进一步规范化处理人工填报数据源以及网络资源数据源需要更新的数据,将其转换为通用数据加载单元gdlu可以加载至数据库的数据形式,最后再通过通用数据加载单元gdlu。

更新频率控制单元fcu主要用于查询时间戳记录表以及更新配置表,根据查询结果按照对应频率调用网络资源获取单元nau、人工填报数据获取单元hau以及通用数据库数据抽取单元gdeu,同时根据某一数据源当前更新频率ft和当前时间戳tst和上一时间戳tst-1,计算该数据源新的更新频率ft 1,并将其写入更新速率表配以实现刷新操作。


技术特征:

1.一种多源异构数据的自适应变频增量更新方法,其特征在于:包括如下步骤:

s1:确定数据源与核心数据库集群;

s2:构建数据更新模型;

s3:部署并初始化步骤s2构建的数据更新模型;

s4:通过数据更新模型获取各数据源处数据;

s5:比较所获数据时间戳,判断是否需要更新,如需要更新,则继续进行更新,如不需要更新,则重复步骤s4;

s6:将更新数据加载至核心数据库集群;

s7:根据更新数据刷新频率配置表与时间戳记录表。

2.根据权利要求1所述的一种多源异构数据的自适应变频增量更新方法,其特征在于:所述步骤s1具体为:

s1-1:确定数据源类型,其包括:人工填报数据源、网络数据源、整编数据库源;

s1-2:根据数据源类型,确定数据源访问方法;

s1-3:确定核心数据库集群类型及访问、读取写入方法;

s1-4:创建数据源基本信息表。

3.根据权利要求1所述的一种多源异构数据的自适应变频增量更新方法,其特征在于:所述步骤s2中数据更新模型包括网络资源获取单元nau、人工填报数据获取单元hau、通用数据库数据抽取单元gdeu、更新频率控制单元fcu、通用数据规范单元gdtu和通用数据加载单元gdlu。

4.根据权利要求3所述的一种多源异构数据的自适应变频增量更新方法,其特征在于:所述步骤s2中所述网络资源获取单元nau的构建步骤如下:

s2a-1:构建ip地址解析访问模块,根据网络资源入口ip地址访问指定网络资源地址;

s2a-2:构建网络资源下载模块,将链接所指向的数据下载至本地计算机;

s2a-3:构建数据转储模块,将网络资源进行简单命名整理后存储至nau所在计算机指定磁盘;

s2a-4:构建终止条件判断模块,根据输入的终止条件c终止nau程序;

所述人工填报数据获取单元hau的构建步骤如下:

s2b-1:构建路径索引模块,查询指定文件路径下的文件内容是否存在新的数据文件;

s2b-2:构建文件类型判断模块,判断新增加的文件的数据类型;

s2b-3:构建数据存储模块,根据数据文件类型,判断数据存储形式,并将数据存储至hau所在计算机指定磁盘;

所述通用数据库数据抽取单元gdeu的构建步骤如下:

s2c-1:创建数据库基本信息表;

s2c-2:根据源数据库类型获取连接驱动程序或手动编写;

s2c-3:抽取测试用例,测试数据库连接;

所述更新频率控制单元fcu的构建步骤如下:

s2d-1:创建更新时间戳记录表;

s2d-2:创建数据源更新频率配置表;

s2d-3:构建更新时间戳记录表读取模块;

s2d-4:构建网络资源获取单元nau、人工填报数据获取单元hau、用数据库数据抽取单元gdeu调用模块;

s2d-5:构建更新频率计算模块,用于计算更新各数据源的频率;

s2d-6:构建数据源更新频率配置表刷新模块,将最新频率写入配置表;

所述通用数据规范单元gdtu的构建步骤如下:

s2e-1:构建数据读取模块;

s2e-2:构建数据合并、整编、排序模块;

s2e-3:构建数据写入模块;

所述通用数据加载单元gdlu的构建步骤如下:

s2f-1:构建核心数据库集群访问模块;

s2f-2:构建规范数据读取模块;

s2f-3:构建核心数据库加载数据加载模块。

5.根据权利要求1所述的一种多源异构数据的自适应变频增量更新方法,其特征在于:所述步骤s3的具体过程如下:

s3-1:部署数据更新模型,具体步骤包括:

s3a-1:在单个计算机依照数据源情况部署网络资源获取单元nau、人工填报数据获取单元hau、通用数据库数据抽取单元gdeu以及通用数据规范单元gdtu,并测试;

s3a-2:部署更新频率控制单元fcu并测试;

s3a-3:部署数据加载单元gdlu并测试;

s3-2:初始化数据更新模型的参数,具体步骤包括:

s3b-1:初始化数据源基本信息;

s3b-2:初始化更新时间戳记录表;

s3b-3:初始化更新频率配置表;

s3b-4:初始化网络资源获取单元nau的网络资源入口ip地址、终止条件c,网络资源下载存放位置nsl;

s3b-5:初始化人工填报数据获取单元hau的datainfo.xls文件及其存放位置hsl;

s3b-6:初始化数据库基本信息表dbit。

6.根据权利要求1所述的一种多源异构数据的自适应变频增量更新方法,其特征在于:所述步骤s4的具体过程为:更新频率控制单元fcu查询初始化的更新频率配置表fct,根据对应的更新频率调用nau,hau,gdeu,获取各数据源数据,包括网络数据资源、人工填报数据以及数据库数据。

7.根据权利要求6所述的一种多源异构数据的自适应变频增量更新方法,其特征在于:所述步骤s4中获取网络数据资源的具体步骤如下:

s4a-1:将入口ip地址及终止条件c输入网络资源获取单元nau;其中,终止条件是指时间间隔t或链接跳数h或终止ip地址a;

s4a-2:网络资源获取单元nau根据ip地址不断索引资源链接,将需要的资源链接下载至nau所在计算机的指定磁盘位置nsl;

获取人工填报数据的具体步骤如下:

s4b-1:输入指定人工填报数据文件存放路径;

s4b-2:判断指定路径下是否存在待更新的数据,如有,则进一步判断其类型;

s4b-3:根据数据类型将数据存储至hau所在计算机的指定磁盘位置hsl;

获取数据库数据的具体步骤如下:

s4c-1:根据数据库信息表连接数据库基本信息表dbit获取数据库连接信息,建立连接;

s4c-2:根据查询条件获取数据。

8.根据权利要求6所述的一种多源异构数据的自适应变频增量更新方法,其特征在于:所述步骤s6的具体过程为:

s6-1:调用通用数据规范单元gdtu,对网络数据源数据和人工填报数据进行规范操作;

s6-2:调用数据加载单元gdlu,将步骤s4获得的数据库数据、经过规范化操作的人工填报数据及网络数据资源加载至核心数据库集群。

9.根据权利要求1所述的一种多源异构数据的自适应变频增量更新方法,其特征在于:所述步骤s7的具体过程如下:

s7-1:更新各数据源数据更新时间戳,将获取数据中最新数据的时间作为时间戳,原时间戳保留;

s7-2:刷新更新频率配置表,根据某一数据源当前更新频率ft和当前时间戳tst和上一时间戳tst-1,计算该数据源新的更新频率ft 1,并将其写入更新速率配置表。

10.根据权利要求9所述的一种多源异构数据的自适应变频增量更新方法,其特征在于:所述步骤s7中ft 1计算方式如下:

其中,α为刷新率,范围为[0,1]。

技术总结
本发明公开了一种多源异构数据的自适应变频增量更新方法,包括如下步骤:确定数据源与核心数据库集群;构建数据更新模型;部署并初始化数据更新模型;通过数据更新模型获取各数据源处数据;比较所获数据时间戳,判断是否需要更新;将更新数据加载至核心数据库集群;根据更新数据刷新频率配置表与时间戳记录表。本发明可以根据数据来源及数据结构动态更新数据,可自适应调整不同数据源更新频率,灵活性好,配置方便,更新速度较快,可扩展性较强。

技术研发人员:朱跃龙;丁昱凯;冯钧;陆佳民
受保护的技术使用者:河海大学
技术研发日:2020.01.14
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-25667.html

最新回复(0)