一种通用的分布式异构数据一体化物理汇聚、组织、发布与服务方法及系统与流程

专利2022-06-29  122


本发明涉及数据管理与共享服务领域,尤其涉及一种通用的分布式异构数据一体化物理汇聚、组织、发布与服务方法及系统。用户可以统一实现将异构数据进行物理的汇聚传输、组织发布和集成共享服务。



背景技术:

在当今社会云计算、大数据、人工智能技术的飞速发展的背景下,各个领域产生了大量种类各异的数据资源,数据资源重要性被社会各界广泛认可,提升到国家重要的战略资源的层面。同时伴随着开放获取,数据共享需求的发展,越来越多的数据资源要求被开放共享使用。在国内外各种信息化工程建设的推动下,各种领域信息(数据)资源共享服务平台不断涌现。

传统数据共享服务平台的数据资源共享大多组织成数据集形式提供共享,仅包括元数据和数据文件。对于结构化数据最常见存储方式—关系数据表多以表格文件(如excel,csv)形式提供服务,或者单纯的以数据表的形式提供共享,缺乏数据集成组织和元数据描述。重点存在的不足表现为:

(1)无法实现(关系型、文件型)异构数据资源的统一共享服务,实体数据仅提供单一的文件形式。弱化了关系型结构化数据在线服务的优势,弱化了关系数据与文件数据关联融合服务的优势,弱化了关系型数据库表之间相互关联服务的优势。

(2)传统的分布式数据汇聚、汇交以文件形式为主,不支持关系型数据的远程传输汇聚与同步管理。

(3)缺乏一个通用可定制的异构数据汇聚传输、组织、发布与共享服务的一体化解决方法,过去的平台系统仅支持局限的某个或某些过程的服务子集,且多为根据建设需求专门化的设计开发,缺乏定制化、通用化的解耦设计,降低了开发实现的效率,产生了大量重复工作,加大了研发成本。

(4)在共享数据组织模型方面缺乏国际认可的唯一标识的引入和规范化数据引用的引入。

(5)在服务形式方面缺乏面向实体数据文件内容的全文检索、缺乏关系型数据的全字段定制化检索,缺乏关系型数据融合服务集成(如与文件,图像,视频关联,与数据子表关联,各种url展示关联,枚举列表关联等),缺乏数据集的多种关联推荐模式,缺乏数据资源api的封装服务,缺乏面向用户的个性化服务支撑,缺乏平台的国际化支撑等等。



技术实现要素:

针对以上分布式数据管理与共享服务方面存在的弊端,本发明提出了一种通用的分布式异构数据一体化物理汇聚(实体数据的集中汇聚存储组织)、组织、发布与服务方法及系统设计。

本发明采用的技术方案如下:

一种通用的分布式异构数据一体化物理汇聚、组织、发布与服务方法,包括以下步骤:

1)在中心端对公共基础数据进行注册,包括分布端的数据节点注册、元数据扩展要素注册、分类体系注册、许可协议注册;

2)分布端向中心端进行分布式异构数据的汇聚传输与同步;

3)在中心端对汇聚的数据资源进行建库组织与编辑;

4)在中心端对数据资源进行统一发布与审核;

5)在中心端进行数据资源的集成共享服务。

进一步地,所述数据节点注册实现分布端的数据节点信息及节点管理员认证信息的注册管理;

所述元数据扩展要素注册,支持扩展元数据项的定制化配置管理,元数据的配置项包括:元数据中文名、元数据英文名称、字段类型、是否必填项、是否重复、排序号、备注;

所述分类体系注册,支持树状数据分类体系的注册、编辑、删除操作,分类体系信息包括分类名称、分类代码、分类描述,用户能够对任意树状分类体系节点信息进行新增、编辑、插入和删除操作;

所述许可协议注册,支持标准的许可协议,同时支持自定义许可内容的注册、编辑、删除操作,注册信息包括协议标识码、协议名称、协议标识图片、协议说明文本。

进一步地,所述分布式异构数据的汇聚传输与同步,包括:

2.1)进行异构数据源注册,包括关系型数据源和文件型数据源的统一注册连接管理;

2.2)进行数据传输任务构建,包括关系型数据任务构建和文件型数据任务构建;

2.3)进行传输任务运行管理,将分布端的数据任务向中心端远程高效地稳定传输;

2.4)进行关系型数据同步管理,将分布端的传输任务中的关系表或逻辑表中的每条记录定时同步到中心端的关系库表中。

进一步地,所述对汇聚的数据资源进行建库组织与编辑,包括:

3.1)进行关系型数据建库,包括通过excel模板导入创建新的关系型数据库,或者通过关联已存在的且已描述的关系型数据表创建新的表;

3.2)进行关系库表结构信息的描述与字段融合配置;其中关系库表结构信息的描述包括描述关系数据表名称,描述关系型数据表字段名称;字段融合配置是通过设置关系数据表某字段显示类型实现融合配置,包括文本类型、url类型、枚举类型、子表类型、文件类型;

3.3)进行中心端全部关系库表的数据管理,支持数据查看、添加、编辑、删除操作;

3.4)进行文件型数据管理,包括中心端全部数据文件、目录的网盘式管理。

进一步地,所述对数据资源进行统一发布与审核,包括:

4.1)基于内置元数据和扩展元数据,动态实现数据集元数据的逐条在线填报和批量填报;

4.2)基于中心端的关系库表和文件系统,实现在线关系型实体数据表的选定和基于文件目录体系的实体数据文件的选定,同时支持文件的在线即刻上传选定;

4.3)进行数据集编辑与提交发布;

4.4)对待发布的数据集进行内容审核,重点包括查看并审核元数据信息填写是否规范,查看实体数据是否准确;并且选定数据集能够授权访问的用户范围。

进一步地,所述数据资源的集成共享服务,包括:

5.1)数据集检索,包括关键词、分类导航两种数据检索模式,支持多种数据检索模式的api接口封装;

5.2)数据集过滤排序,包括数据资源标签云展示及其多条件逐级过滤服务,支持数据资源检索结果多条件再次排序显示;

5.3)数据集访问与评价,包括数据资源中典型实体数据文件的在线浏览、播放展示;支持关系表实体数据的在线定制查询和结果下载和融合集成展示;支持文本类实体文件的全文检索;支持元数据在线下载和api访问服务封装;支持数据社交服务;

5.4)数据集推荐,包括基于数据集元数据内容关联化计算的推荐服务,支持基于用户访问行为统计的数据推荐服务;

5.5)数据集服务记录与统计,包括用户数据访问行为全日志记录管理,支持数据集访问、下载情况统计及展示;

5.6)用户个性化服务,包括用户访问及下载历史的展示,支持用户收藏、评价和打标签管理。

一种通用的分布式异构数据一体化物理汇聚、组织、发布与服务系统,包括中心端和分布端,所述分布端部署数据汇聚传输软件模块,所述中心端部署数据管理与发布软件模块和数据共享与服务门户模块,所述数据管理与发布软件模块中集成有公共基础数据注册与服务子模块;

所述数据汇聚传输软件模块负责进行分布端向中心端的分布式异构数据的汇聚传输与同步;

所述数据管理与发布软件模块负责对公共基础数据进行注册,对汇聚的数据资源进行建库组织与编辑,以及对数据资源进行统一发布与审核;

所述数据共享与服务门户模块负责进行数据资源的集成共享服务。

本发明的重点创新包括:

1)提出了一种通用的分布式异构数据(关系型、文件型)一体化物理汇聚、组织发布与集成融合服务方法及系统设计。框架易于扩展,用户可以自行扩展其他需要的关系数据源。在文件方面,本发明实现了本地文件系统,和ftp文件数据源,用户可以扩展其他如samba文件数据源等。另外用户也可以自行扩展nosql的数据源,如:mongodb等。

2)实现了异构数据资源(特别是支持关系型数据)物理汇聚、组织、发布与集成服务全流程的解耦合,在方法的设计中,充分考虑了高可定制性和高可复用的需求,有效提升了发明的通用性和灵活性,具有普遍的场景适用性。用户仅通过定制化配置,即可完成分布式数据的有效物理汇聚、发布与服务,从而提升了分布式数据共享服务系统设计开发的效率,缩短软件的开发周期。

3)实现了关系型数据的定制化远程传输汇聚与同步管理。

4)实现了面向文本类实体数据文件内容的全文检索、面向关系型数据的全字段定制化检索服务。

5)实现了异构数据资源之间融合配置与服务功能(如与文件,图像,视频关联,与数据子表关联,各种url展示关联,枚举列表关联等)。

6)实现了多种先进数据服务功能的有效集成,便于用户快速发现、获取、共享和使用数据资源,并且与国际化服务接轨。包括实现了数据集的实现了多种数据检索模式,多种关联推荐模式,实现标签云逐级过滤及排序,实现了数据资源api的自动封装服务,实现了面向用户的个性化服务支撑,实现了平台的双语支持,实现了唯一标识的和规范化数据引用服务,实现了数据许可协议定制化服务。

本发明的有益效果如下:

本发明实现了分布式异构实体数据(文件型、关系型数据)的高效汇聚传输与同步,实现了数据资源的集中建库、组织管理与统一发布(注:以数据集为发布组织模型:包括pid,元数据,实体数据三部分,其中pid即持续数据对象标识,是指国际认可的全球唯一标识编码,如handle码或doi标识等均可),最后在数据资源门户实现了多种形式的数据发布服务集成与共享,方法具有一体化,通用可定制特点,保证了数据汇聚、管理、发布与服务过程的整体连通、高可定制和高可复用,大大提升了数据服务封装的通用性和灵活性。

附图说明

图1.本发明总体功能逻辑框架图。

图2.本发明总体方法步骤及关系图。

图3.公共基础数据注册细化流程结构关系图。

图4.分布式异构数据汇聚传输与同步细化流程结构关系图。

图5.新增关系数据源原型界面图。

图6.关系型数据任务构建原型界面图。

图7.文件型数据任务构建原型界面图。

图8.数据资源集中建库组织与编辑细化流程结构关系图。

图9.导入式建表导入数据模板图。

图10.导入式创建新表原型界面图。

图11.关联式创建新表原型界面图。

图12.关系库表描述与字段融合配置原型界面图。

图13.关系库表数据管理原型界面图。

图14.文件型数据管理原型界面图。

图15.数据资源统一发布与审核细化流程结构关系图。

图16.数据集元数据在线填报样例图。

图17.数据集pid标识与引用要素样例图。

图18.数据集实体数据选定样例图。

图19.数据资源集成共享服务细化流程结构关系图。

图20.本发明总体系统软件结构图。

图21.本发明系统软件部署结构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步详细说明。

本发明的总体功能逻辑框架图,如图1所示。总体方法步骤及关系如图2所示。整个方法共概括分为五个大的步骤(或子系统):1.公共基础数据注册管理,2.分布式异构数据汇聚传输与同步,3.数据资源建库组织与编辑,4、数据统一发布与审核,5.数据资源集成共享服务。

其中第1步可以理解为整个发明的初始化过程,主要完成公共基础数据的注册工作;第2步实现分布式异构数据资源的物理汇聚传输与关系数据的同步管理;第3步实现对汇聚的异构数据的建库管理、组织描述与编辑管理;第4步实现数据的统一发布组织与审核授权管理,第5步实现(已发布)数据资源的集成共享服务与管理。其中第2步在分布端完成,其余各步在中心端完成,下面对方法每个步骤的具体流程及功能进行重点说明。

1.公共基础数据注册

实现公共基础数据的并行注册功能,包括数据资源节点、元数据扩展要素、分类体系、许可协议等基础运行数据的注册管理。本步骤供系统管理员使用,在启动本步骤前需要通过系统管理用户的身份认证。

本步骤的主要流程结构如图3所示。下面对图3中每个步骤实现细节,进行重点说明。

1.1数据资源节点注册

实现分布端数据节点信息及节点管理员认证信息的注册管理。具体包括:数据节点名称、节点代码、节点简介、节点联系人、联系电话、email、节点管理员账号、节点管理员密码、数据节点创建时间、序号等属性信息的注册填写和编辑管理。

其中节点管理员账号、密码供分布端部署执行“步骤2分布式异构数据汇聚传输与同步”启动时进行节点管理用户认证。同时在中心端将启动安装部署的vsftp服务,用同样账号密码初试化构建ftp账号密码,系统底层采用ftp协议实现数据的远程传输(与传统的http协议相比更加高效,稳定,方便实现断点续传),同时巧妙的支持分布式数据节点采用第三方ftp工具用该账号密码自行传输文件,有效实现了传输工具的广泛兼容。同时数据资源节点注册充分体现本发明具有通用可定制性。

其中分布式数据节点采用第三方ftp工具用该账号密码自行传输文件,是指文件型实体数据可以通过后文“2.3传输任务运行管理”进行实现,关系型实体数据必须使用“2.3传输任务运行管理”才可以,但是由于中心端采用通用的vsftp服务,对于文件型实体文件,用户可以不采用后文第2部分的分布式异构数据汇聚传输工具,采用任何第三方ftp工具软件,直接用节点信息中提供的ftp账号密码登录后,传输文件也是完全兼容的。

1.2元数据扩展要素注册

支持扩展元数据项的定制化配置管理包括新增,编辑和查询等,具体元数据配置项包括:元数据中文名、元数据英文名称、字段类型、是否必填项、是否重复、排序号、备注。

1)元数据扩展要素注册是实现用户自定义扩展元数据结构功能,是本发明具有通用可定制性一种体现。

2)在本发明中数据集的核心元数据内置了如下元数据要素(元数据扩展要素即是相对于内置核心要素而言的),包括:

表1本发明数据集内置的核心元数据要素说明

3)上表中必填项代表元数据要素是必须填报的,唯一性代表元数据要素是否允许多条填报,字段类型包括了:字符串、整型、多精度类型、时间日期、枚举、附件等,字段类型将决定将来录入元数据界面的显示控件样式,如单行文本,多行文本,日期控件,下拉列表、上传控件等控件,具有较强的可定制型;元数据要素的校验规则提供了基本的格式校验格式定义,用户可以自己定义规则,然后自行解析实现,也可利用正则表达式进行定义,通过正则校验实现。

4)上表中英文名称要素与本发明支持英文版数据发布及英文版门户密切相关,后续在数据资源发布中的元数据填报部分会补充说明。

1.3数据分类体系注册

支持树状数据分类体系的注册、编辑、删除操作,分类体系信息包括但不局限于:分类名称、分类代码、分类描述等,用户可以对任意树状分类体系节点信息进行新增、编辑,插入和删除操作。

数据分类体系应支持多级分类的自动定制扩展,它与数据资源集成共享服务中数据集分类导航式检索密切关联,通过前文叙述的内置元数据要素“分类编码”进行关联,在数据发布时由发布用户进行关联选择填报。数据分类体系注册是本发明通用可定制性一种体现。

1.4许可协议注册

支持cc、odc、pddl等标准的许可协议,同时支持自定义许可内容的注册、编辑、删除等操作,注册信息重点包括协议标识码、协议名称,协议标识图片,协议说明文本等。

许可协议是数据获取、复用、传播的一种保护方式。注册的许可协议与数据资源集成共享服务中数据集细览展示相关联,通过前文叙述的内置元数据要素“许可协议”进行关联,在数据发布时由发布用户进行关联选择填报。许可协议注册也是本发明通用可定制性一种体现。

2.分布式异构数据汇聚传输与同步

实现关系型、文件型数据源统一注册及连接管理;支持定制化数据传输任务的构建,实现异构数据物理汇聚;支持传输任务的断点续传,支持关系型数据定制化定时、自动及手动同步,支持数据传输、同步全过程的日志管理。

本步骤需在分布端数据节点上进行应用,供节点管理员使用,在启动本步骤前需要通过节点管理员的身份认证。

主要流程结构如图4所示。下面对图4中每个步骤实现细节,进行重点说明。

2.1异构数据源注册

实现关系型数据源和文件型数据源的统一注册连接管理。

关系型数据源:支持数据库连接信息的注册和连接测试。数据源信息至少应包括数据源名称、数据库类型、主机地址、端口号、用户名、密码等,其中数据库类型至少应支持mysql、oracle、sqlserver等主流关系数据库,并且可以扩展其他关系库。新增关系数据源原型界面如图5所示。

文件型数据源:支持文件型数据存储的地址信息的定义和管理。数据源信息至少应包括数据源名称、文件访问协议(当访问协议本地文件系统时,后续信息需包括数据文件路径信息;当访问协议为ftp时,后续信息需包括ftp账号,ftp密码,数据文件的ftp路径信息等);支持samba等协议的扩展。

在方法实施中无论是关系型数据源还是文件型数据源都必须实现连通性测试,保证数据源注册信息的有效性。连通性测试可以放在数据源信息保存时进行校验,出现无法连通问题需及时反馈注册用户。

数据源注册是屏蔽异构数据资源的基础,在后续的数据任务传输数据实现中,关系数据库表结构和数据读取通过不同数据库类型的适配转换成标准的sql实现;文件型数据是直接读取文件实现。

2.2数据传输任务构建

实现关系型、文件型数据任务的构建,编辑,查看,删除等管理。

关系型数据任务构建:通过连接前文描述关系数据源获取相关数据表,选择相关实体数据表或通过sql形成的逻辑数据表形成数据传输任务。具体原型界面见图6。

文件型数据任务构建:通过连接前文描述文件数据源确定相关文件目录体系,选择相关实体文件或目录,并选择中心端目标传输目录位置形成文件型数据传输任务。具体原型界面见图7。

2.3传输任务运行管理

实现分布端数据任务向中心端远程高效稳定传输管理。

·支持数据传输任务的断点续传

·支持数据加密压缩传输

·支持传输进度的展示

·支持传输全过程的日志记录管理

如前所述,本发明实体数据文件传输基于中心端的vsftp服务采用ftp协议,支持与第三方ftp工具的完全兼容。

在关系型实体数据传输方面,基于中心端构建的某类关系数据库集群如:mysql,将分布端mysql、oracle、sqlserver等不同类型的关系表结构与数据抽取映射成与中心端库结构一致的建表sql语句和数据插入sql语句,然后打包以压缩文件的形式传输到中心端,中心端解压缩后在云端关系数据库中统一执行建表sql和数据插入sql,实现关系数据表及数据的远程传输。

2.4关系型数据同步管理

实现分布端关系数据定时向中心端关系库中进行高效稳定地同步管理。

这里的同步是仅针对关系型数据而言的,其含义是将分布端某个传输任务中的关系表或逻辑表中的每条记录定时同步到中心端关系库表中。主要考虑到要支持分布端某关系表数据有定期或不定期增加或改变了某些记录的情况,用户可以不用重新添加传输任务,直接定制同步的频率,系统定期会将传输任务中涉及的表数据与中心端的表数据进行同步更新,保证分布端与中心端关系库表中记录的一致性。

与关系型数据相比,文件型实体数据考虑到改动频率不大,可以通过新建传输任务再次传输,故本方法暂不支持文件实体数据的同步。

·支持关系数据表的定时同步、手工同步来实现数据同步(其中定时同步支持用户定制化同步频率,如1小时、12小时、1天1星期等)。

手工同步是指,用户点击传输任务中的即刻同步按钮,实现当前任务中关系库表数据记录立即同步传输到中心端的库表中,保证数据的一致性。

定时同步是指,用户设置传输任务的同步周期设置,如1小时、12小时、1天1星期等,系统后台进程将匹配用户周期设置,在周期时间到达时,系统自动实现当前任务中关系库表数据记录同步传输到中心端的库表中,保持分布端与中心端关系库表中记录的一致性。

·支持数据同步过程的详细操作日志信息记录,保证数据同步过程可以回溯跟踪。

3.数据资源集中建库组织与编辑

实现关系数据库构建与管理,支持在线新的表结构构建与表数据导入及编辑,为用户提供在线数据库构建与数据管理服务。实现文件数据网盘式管理,支持文件型数据资源的上传、下载、拷贝、复制、移动、删除等管理操作。

本步骤供节点管理员使用,在启动本步骤前需要通过节点管理用户的身份认证。

主要流程结构如图8所示。下面对图8的每个步骤实现细节,进行重点说明。

3.1关系型数据建库

实现通过excel模板导入创建新的关系型数据库,或者通过关联已存在的且已描述的关系型数据表创建新的表。

导入式建表:通过excel模板创建新表,并将模板中的数据存储到数据库中。excel模板规则:excel中每个sheet页代表一个数据表,sheet页名称为待建立数据表名称,第一行必须为字段描述信息,第二行为字段名称,第三行是数据类型(包括:varchar、text、integer、float、double、datetime等),从第四行开始为实际数据。样式如图9所示。

关联创建新表:有两种方式。

导入式创建新表:通过界面分别选择表a和表b的连接字段以及新表的构成字段,填写新表名后构建形成新表,可预览新表的数据,如图10所示。

关联式创建新表:通过多表连接的sql语句,定义新的表名称形成新表,支持sql语句的校验,可预览sql语句即新表数据的结果,支持表数据的定制频率的同步更新。关联式创建新表原型界面如图11所示。

3.2关系库表描述与字段融合配置

实现对中心端选定的关系库表结构信息的描述与融合配置。

1、包括描述关系数据表名称,描述关系型数据表字段名称,原型参见图12。

2、通过设置关系数据表某字段显示类型实现融合配置,具体包括:

·文本类型(默认显示类型)

·url类型(进一步选择设置包括ftp,http,email,图片链接等)

·枚举类型(进一步选择设置枚举字符串如:male=男,female=女;或者设置包括存储列、显示列的sql语句,如:selectuser_id,user_namefromuser)

·子表类型(进一步选择设置关联子表的表名及其关联字段;可增减并设置多个)

·文件类型(进一步选择设置文件、图片,视频,并可设置文件位置的主路径,多文件关联记录分隔符)

3.3关系库表数据管理

实现中心端全部关系库表的数据管理,支持数据查看、添加、编辑、删除操作。

用户可以查看所管理数据库下的所有数据表,并且可以对这些数据表进行更新,增加,查看数据、删除等操作,支持关系表中全字段的检索。原型图如图13所示。

3.4文件型数据管理

实现中心端全部数据文件、目录的网盘式管理。原型图如图14所示。

·文件及目录基本操作,右键操作文件重命名、移动、复制、删除。

·搜索文件及目录,以当前路径为根路径深度搜索包含指定名称的文件及目录。

·上传文件,支持文件上传到当前路径下和选中指定路径上传文件。

·下载文件,支持双击选中文件下载和右键选中文件进行下载。

·新建目录,在当前路径下创建文件夹。

4.数据资源统一发布与审核

实现数据资源发布,支持异构数据统一的元数据描述、数据范围选择、发布管理。实现数据资源的统一审核,支持批量审核模式,支持用户权限设置及融合配置。主要流程结构如图15所示。

本步骤中发布填报、编辑与提交供节点管理员使用,在启动本步骤相应功能前需要通过节点管理用户的身份认证;本步骤中发布审核与授权供系统管理员使用,在启动本步骤相应功能前需要通过系统管理用户的身份认证。

下面对图15的每个步骤实现细节,进行重点说明。

4.1数据集元数据填报

基于前述说明本发明的内置元数据和扩展元数据,动态实现数据集元数据的逐条在线填报和批量填报。

1)在填报方面,基于内置、扩展元数据要素定义的必填项,唯一性,元素类型和校验规则:①自动生成元数据在线填报页面,实现元数据逐条在线填报(样例见图16),其中分类体系、数据许可协议可以基于基础公共数据注册部分的定义提供枚举列表工用户选择,系统对应存储相关枚举项编号;②可自动生成批量数据填报模板,实现批量导入式填报。数据模板可以采用excle,xml,json等形式;

两种填报方式都应对必填项和校验规则进行自动校验。另外,表1列出本发明内置元数据中系统自动填报的要素已经备注标识,在填报实现时部分要素由用户在线选择后自动填报(如分类体系选择,许可协议选择等),其他要素应由系统后台保存时自动填报完成(如pid通过后台pid自动注册接口获取后填报,数据集发布时间由系统自动根据当前时间填报,引用格式通过引用格式字符串定义规则,自动拼接填报;总文件数、总存储量等由后台自动统计后填报),无需用户在线和批量填报。

2)在填报方面,支持与全球唯一的数据持久标识分配接口有效对接,自动生成当前数据集的pid;并根据数据引用格式定义,自动实现当前数据集的数据引用文本,并实现内置的数据引用元数据要素的自动填报。pid数据标识和数据引用的样例见图17。

3)如前所述本发明支持中英文双语的实现。在元数据要素显示上可以利用内置和扩展元数据的英文名称,在元数据内容方面,应在元数据在线填报和批量填报后,支持自动将填报的中文元数据翻译成英文(可利用百度或谷歌的开放翻译接口实现),支持用户对翻译结果的人工校验,并将最终中英文元数据在系统后台同步存储。

4.2数据集实体数据选定

基于中心端的关系库表和文件系统,实现在线关系型实体数据表的选定和基于文件目录体系的实体数据文件的选定(支持异构实体数据表、实体文件的单独选定和同时选定),同时支持文件的在线即刻上传选定。数据集实体数据选定样例如图18所示。

4.3数据集编辑与提交发布

4.1的元数据填报和4.2的实体数据选定是数据集组织发布两个重要步骤。在数据集编辑时支持两个步骤的再次重新编辑和选择。当确认无误后,可以提交数据集给审核人员进行发布审核。

在数据集提交发布审核时,后台应对该数据集下的全部文本类实体文件(如txt、doc、pdf等)实现自动的文本内容抽取,并构建相关实体文件的全文数据库,实现文件内容索引,支持集成共享服务中实现基于文本类实体文件的全文检索。

4.4数据集审核与授权发布

对待发布的数据集进行内容审核,重点包括查看并审核元数据信息填写是否规范,查看实体数据是否准确;并且选定数据集可授权访问的用户范围,包括:对全部用户完全公开或对某个/某些用户(用户组)公开。

在数据集审核方面,除了实现在线审核功能支持以外,还应支持数据集批量导出进行线下审核。在实现上应支持数据集元数据的批量导出成excel,支持实体数据文件及关系数据基于http或ftp的访问接口封装,并将接口与数据集的实体数据元数据进行自动关联,进而支持基于批量数据集导出元数据excle文件的线下查看数据集元数据,访问实体数据,选择审核结果并录入意见;支持excel元数据审核结果批量导入系统。

数据集审核与授权发布操作与步骤5数据资源集成共享服务密切相关,审核通过并发布授权的数据集,用户可以在共享服务步骤中查询、查看到相关数据集;在数据集授权范围内的用户(用户组),登录系统后可以获取数据集实体数据的完整访问权限。

5.数据资源集成共享服务

集成实现数据资源的发现与访问服务,支持中英文双语服务与自动切换。支持数据资源的统一分类检索、关键词检索,支持标签云过滤、多种排序组织,支持实体关系库表全字段定制化查询,支持文本类实体文件的全文内容检索,支持文档、图片、视频、音频等多格式数据文件的在线预览、播放;实现数据资源的推荐及获取服务,支持基于内容和用户行为的多种数据关联推荐模式,支持数据资源在线下载、api接口访问等多种数据获取模式,支持面向管理的数据访问分类统计;实现数据资源的个性化管理服务,支持个性化需求的收藏、推荐、下载、评价、打标签等服务。

本步骤中数据集检索、过滤排序、访问、推荐供匿名用户使用;本步骤中数据集下载评价、个性化服务供授权用户使用,在启动本步骤相应功能前需要通过用户的身份认证。

主要流程结构如图19所示。下面对图19中每个步骤实现细节,进行重点说明。

5.1数据集检索

支持关键词、分类导航两种数据检索模式(当用户自定义扩展元数据中包括了经纬度元数据的数据集,应支持在线地图检索),支持多种数据检索模式的api接口封装。

·关键词检索,支持基于数据元数据全文搜索某个关键词,并按相关度排序搜索到的数据集信息。

·分类导航检索,根据全局设定的分类体系,按相关分类展示相关数据资源,或在指定分类中搜索数据集信息。

5.2数据集过滤排序

支持数据资源标签云展示及其多条件逐级过滤服务,支持数据资源检索结果多条件再次排序显示。

·标签云等组合逐级过滤,支持用户基于数据资源检索结果动态生成标签云,进而支持数据资源的逐级标签云过滤;支持基于分类导航关键词的组合筛选过滤。

·综合排序,支持数据资源按照时间、文件类型、用户访问热度等信息的动态排序。

5.3数据集访问与评价

面向用户需求,实现数据资源中典型实体数据文件的在线浏览、播放展示;支持关系表实体数据的在线定制查询和结果下载和融合集成展示;支持文本类实体文件的全文检索;支持元数据(实体数据)在线下载和api访问服务封装;支持用户自定义打标签、评价、分享等数据社交服务。

·实体数据文件在线浏览,支持的文件格式包括但不限于doc、xls、pdf、mp3、csv、avi、txt等主流数据文件类型,同时应能动态扩展,可支持其他扩展格式的预览显示及播放。

·表格数据在线查询与展示,支持关系表数据的全字段定制化检索(如定制字段检索条件的组合)、展示(如定制显示列和排序列)及结果下载,基于关系库表融合配置,支持关系表行级数据关联子表,文件,视频,图片展示;支持关联枚举字典,url(是指url文本自动显示可以点击的链接形式,支持链接格式包括http,ftp,email等)的连接服务。

·文本类文件全文检索,基于数据集提交发布时的文本类文件(包括但不限于txt,doc,docx,pdf等)内容抽取与索引,支持文本类实体数据文件全文检索功能。

·数据下载服务,面向登录用户提供基于查询结果的面向数据集、数据文件不同层次、不同范围数据实体选择性下载,同时提供面向元数据的下载。在下载形式上除了基于界面的在线下载外,同时支持基于api接口的下载模式。

·数据社交服务:支持对已登录下载用户提供数据资源打分评价,支持访问用户对数据集打标签功能,后台管理员对用户所打标签的审核管理和过滤,补充修正现有数据集标签设置。支持用户方便将数据集url分享到微信,微博等社交媒体。

5.4数据集推荐

支持基于数据集元数据内容关联化计算的推荐服务,支持基于用户访问行为统计的数据推荐服务。

·元数据内容关联推荐,支持基于元数据各要素描述信息内容推荐与当前数据集相似度较高的其他数据集,便于用户快速发现关联相似度较高的其他数据集。

·用户访问行为分析推荐,支持基于当前数据集访问用户群对其他数据集访问情况统计分析,推荐当前用户可能感兴趣的同类数据集,便于用户快速发现同类数据资源。

5.5数据集服务记录与统计

支持用户数据访问行为全日志记录管理,支持数据集访问、下载情况统计及展示。

·用户访问日志管理,支持用户登录、访问、下载等访问行为全日志记录。

·数据资源及服务统计,支持数据集查看、收藏、下载情况的统计及排名。

·数据集统计展示,支持以柱状图、曲线图等多种展示形式的统计结果展示形式。

5.6用户个性化服务

支持用户访问及下载历史的展示,支持用户收藏、评价和打标签管理。

·我的访问与下载,支持用户快速搜索、查看自己访问、下载过的数据资源。

·我的评价,支持用户快速搜索、查看自己评价过的数据资源。

·我的标签,支持用户快速搜索、查看自己对数据资源打的标签。

·我的收藏,支持针对数据资源的收藏操作,便于用户方便查看获取自己感兴趣的数据资源。

6.系统集成说明

在系统实现上,将本发明方法步骤进行了适当组合,总体系统软件结构如图20所示。自下而上包括了数据汇聚传输软件、数据管理与发布软件和数据共享与服务门户三个软件系统,本发明中公共基础数据注册与服务,在数据管理与发布软件中进行集成,通过系统管理员登录后访问。

系统整体部署结构如图21所示。在系统实现方式上可以采用目前广泛使用的web开发技术,基于b/s框架,采用mvc的设计模式。其中:模型(model)是应用程序中用于处理应用程序数据逻辑的部分,控制器(controller)是应用程序中处理用户交互的部分,视图(view)是应用程序中处理数据显示的部分。

7.总结

本发明的有益效果是提出了一种通用的分布式异构数据(关系型、文件型)一体化物理汇聚、组织发布与集成融合服务方法及系统设计。

该方法实现了异构(关系型、文件型)数据资源物理汇聚、组织、发布与集成融合服务全流程的解耦合,在方法的设计中,充分考虑了高可定制性和高可复用的需求,有效提升了发明的通用性和灵活性,具有普遍的场景适用性。用户仅通过定制化配置,即可完成分布式数据的有效汇聚、发布与服务,从而大力提升了分布式数据共享服务系统设计开发的效率,缩短软件的开发周期。

同时本方法考虑到服务的先进性,实现了异构(关系型、文件型)数据的集中物理高效汇聚传输与同步,实现了数据批量填报、组织,审核的模式,打通了数据持久标识接入,数据引用标准,实现了双语发布的支持,实现了文本类实体数据的全文检索和数据表全表定制检索,实现了结构化预非结构化数据的融合集成服务,实现了多种检索、过滤、访问,下载,推荐,社交等服务集成与封装。

本发明是提供了一个通用的方法、模式和框架,是易于扩展的。其中在异构数据源方面,用户可以根据需要自行扩展。如本发明系统中实现了mysql、oracle、sqlserver等主流关系数据库,用户可以自行扩展其他需要的关系数据源。在文件方面,本发明实现了本地文件系统,和ftp文件数据源,用户可以扩展其他如samba文件数据源等。另外用户也可以自行扩展nosql的数据源,如:mongodb等。

以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的原理和范围,本发明的保护范围应以权利要求书所述为准。


技术特征:

1.一种通用的分布式异构数据一体化物理汇聚、组织、发布与服务方法,其特征在于,包括以下步骤:

1)在中心端对公共基础数据进行注册,包括分布端的数据节点注册、元数据扩展要素注册、分类体系注册、许可协议注册;

2)分布端向中心端进行分布式异构数据的汇聚传输与同步;

3)在中心端对汇聚的数据资源进行建库组织与编辑;

4)在中心端对数据资源进行统一发布与审核;

5)在中心端进行数据资源的集成共享服务。

2.根据权利要求1所述的方法,其特征在于,所述数据节点注册实现分布端的数据节点信息及节点管理员认证信息的注册管理;

所述元数据扩展要素注册,支持扩展元数据项的定制化配置管理,元数据的配置项包括:元数据中文名、元数据英文名称、字段类型、是否必填项、是否重复、排序号、备注;

所述分类体系注册,支持树状数据分类体系的注册、编辑、删除操作,分类体系信息包括分类名称、分类代码、分类描述,用户能够对任意树状分类体系节点信息进行新增、编辑、插入和删除操作;

所述许可协议注册,支持标准的许可协议,同时支持自定义许可内容的注册、编辑、删除操作,注册信息包括协议标识码、协议名称、协议标识图片、协议说明文本。

3.根据权利要求2所述的方法,其特征在于,所述数据节点注册,其中数据节点的属性信息包括:数据节点名称、节点代码、节点简介、节点联系人、联系电话、email、节点管理员账号、节点管理员密码、数据节点创建时间、序号;其中节点管理员账号、节点管理员密码供分布端执行步骤2)时进行节点管理员的身份认证;所述元数据扩展要素注册,包括以下元数据要素:数据集唯一持久标识、数据集封面、数据集名称、数据集简介、关键词、分类编码、开始时间、结束时间、创建机构、创建人员、最新创建/更新日期、发布机构、联系邮件、联系电话、最新发布日期、许可协议、引用格式、总存储量、总文件数、总记录数。

4.根据权利要求1所述的方法,其特征在于,所述分布式异构数据的汇聚传输与同步,包括:

2.1)进行异构数据源注册,包括关系型数据源和文件型数据源的统一注册连接管理;

2.2)进行数据传输任务构建,包括关系型数据任务构建和文件型数据任务构建;

2.3)进行传输任务运行管理,将分布端的数据任务向中心端远程高效地稳定传输;

2.4)进行关系型数据同步管理,将分布端的传输任务中的关系表或逻辑表中的每条记录定时同步到中心端的关系库表中。

5.根据权利要求3所述的方法,其特征在于,步骤2.2)所述关系型数据任务构建,是通过连接前文描述关系数据源获取相关数据表,选择相关实体数据表或通过sql形成的逻辑数据表形成数据传输任务;所述文件型数据任务构建,是通过连接前文描述文件数据源确定相关文件目录体系,选择相关实体文件或目录,并选择中心端目标传输目录位置形成文件型数据传输任务。

6.根据权利要求3所述的方法,其特征在于,步骤2.3)所述传输任务运行管理,包括:实体数据文件传输基于中心端的vftp服务采用ftp协议,支持与第三方ftp工具的完全兼容;在关系型实体数据传输方面,基于中心端构建的某类关系数据库集群,将分布端不同类型的关系表结构与数据抽取映射成与中心端库结构一致的建表sql语句和数据插入sql语句,然后打包以压缩文件的形式传输到中心端,中心端解压缩后在云端关系数据库中统一执行建表sql和数据插入sql,实现关系数据表及数据的远程传输。

7.根据权利要求1所述的方法,其特征在于,所述对汇聚的数据资源进行建库组织与编辑,包括:

3.1)进行关系型数据建库,包括通过excel模板导入创建新的关系型数据库,或者通过关联已存在的且已描述的关系型数据表创建新的表;

3.2)进行关系库表结构信息的描述与字段融合配置;其中关系库表结构信息的描述包括描述关系数据表名称,描述关系型数据表字段名称;字段融合配置是通过设置关系数据表某字段显示类型实现融合配置,包括文本类型、url类型、枚举类型、子表类型、文件类型;

3.3)进行中心端全部关系库表的数据管理,支持数据查看、添加、编辑、删除操作;

3.4)进行文件型数据管理,包括中心端全部数据文件、目录的网盘式管理。

8.根据权利要求1所述的方法,其特征在于,所述对数据资源进行统一发布与审核,包括:

4.1)基于内置元数据和扩展元数据,动态实现数据集元数据的逐条在线填报和批量填报;

4.2)基于中心端的关系库表和文件系统,实现在线关系型实体数据表的选定和基于文件目录体系的实体数据文件的选定,同时支持文件的在线即刻上传选定;

4.3)进行数据集编辑与提交发布;

4.4)对待发布的数据集进行内容审核,重点包括查看并审核元数据信息填写是否规范,查看实体数据是否准确;并且选定数据集能够授权访问的用户范围。

9.根据权利要求1所述的方法,其特征在于,所述数据资源的集成共享服务,包括:

5.1)数据集检索,包括关键词、分类导航两种数据检索模式,支持多种数据检索模式的api接口封装;

5.2)数据集过滤排序,包括数据资源标签云展示及其多条件逐级过滤服务,支持数据资源检索结果多条件再次排序显示;

5.3)数据集访问与评价,包括数据资源中典型实体数据文件的在线浏览、播放展示;支持关系表实体数据的在线定制查询和结果下载和融合集成展示;支持文本类实体文件的全文检索;支持元数据在线下载和api访问服务封装;支持数据社交服务;

5.4)数据集推荐,包括基于数据集元数据内容关联化计算的推荐服务,支持基于用户访问行为统计的数据推荐服务;

5.5)数据集服务记录与统计,包括用户数据访问行为全日志记录管理,支持数据集访问、下载情况统计及展示;

5.6)用户个性化服务,包括用户访问及下载历史的展示,支持用户收藏、评价和打标签管理。

10.一种通用的分布式异构数据一体化物理汇聚、组织、发布与服务系统,其特征在于,包括中心端和分布端,所述分布端部署数据汇聚传输软件模块,所述中心端部署数据管理与发布软件模块和数据共享与服务门户模块,所述数据管理与发布软件模块中集成有公共基础数据注册与服务子模块;

所述数据汇聚传输软件模块负责进行分布端向中心端的分布式异构数据的汇聚传输与同步;

所述数据管理与发布软件模块负责对公共基础数据进行注册,对汇聚的数据资源进行建库组织与编辑,以及对数据资源进行统一发布与审核;

所述数据共享与服务门户模块负责进行数据资源的集成共享服务。

技术总结
本发明涉及一种通用的分布式异构数据一体化物理汇聚、组织、发布与服务方法及系统。该方法包括:1)在中心端对公共基础数据进行注册;2)分布端向中心端进行分布式异构数据的汇聚传输与同步;3)在中心端对汇聚的数据资源进行建库组织与编辑;4)在中心端对数据资源进行统一发布与审核;5)在中心端进行数据资源的集成共享服务。本发明实现了分布式异构实体数据的高效汇聚传输与同步,实现了数据资源的集中建库、组织管理与统一发布,在数据资源门户实现了多种形式的数据发布服务集成与共享,具有一体化,通用可定制特点,保证了数据汇聚、管理、发布与服务过程的整体连通、高可定制和高可复用,大大提升了数据服务封装的通用性和灵活性。

技术研发人员:刘峰;周园春;韩芳;沈志宏;夏景隆
受保护的技术使用者:中国科学院计算机网络信息中心
技术研发日:2020.01.09
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-25849.html

最新回复(0)