敏感数据识别方法、装置、设备及计算机存储介质与流程

专利2022-06-30 51

本发明属于数据处理技术领域，尤其涉及一种敏感数据识别方法、装置、设备及计算机存储介质。

背景技术：

目前的敏感数据识别方法主要是基于关键字库的匹配方法结合人工识别方法来进行敏感数据的识别。

其中，关键字库的匹配方法的原理为，通过人工定义敏感数据的匹配模式，对数据进行逐一匹配，当发现数据满足模式匹配时，定义该数据为敏感数据。而人工识别方法的原理为，评估人员根据预定义的数据模型，例如数据库设计模型、文件系统组织结构等，依据经验将模型中的多个数据定义为敏感信息，然后在敏感信息中，采用数据抽样的形式进行敏感数据的识别。

因此，现有的利用关键字库的匹配方法和人工识别方法结合的方法对敏感数据进行识别的主要过程如下：评估人员首先定义敏感数据的匹配模式，然后根据预定义的模型确定关键字库的匹配方位，最后，利用敏感数据的匹配模式对目标进行匹配扫描，在完成扫描后，评估人员再对匹配结果进行过滤，以对匹配结果进行优化。

虽然目前的敏感数据识别方法能够一定程度地识别出敏感数据，但是依然存在如下缺点：

自动化程度不足：敏感数据的识别需要人工执行匹配结果过滤，导致效率比较低下；

识别精准度底：关键字库的匹配方法采用的是模式化匹配的方式，因此，关键字库的建立决定了识别敏感数据的准确度，当关键字库不完整或者建立有误时，会出现准确度较低的问题；

识别速度慢：由于采用人工处理的方式，在面对大量数据的时候，会出现识别速度周期较长的问题，而且采用人工处理的方式对评估人员的要求较高。

技术实现要素：

本发明实施例提供一种敏感数据识别方法、装置、设备及计算机存储介质，能够快速、准确地识别大量数据中的敏感数据。

一方面，本发明实施例提供一种敏感数据识别方法，包括：

获取用于定位待识别的目标数据的特征参数和用于在所述目标数据中识别敏感数据的正则表达式；

根据所述特征参数，获取包含所述目标数据的目标对象；

根据所述正则表达式逐行识别所述目标对象内的所述目标数据，以确定所述目标对象内是否包含所述敏感数据。

进一步地，所述特征参数包括所述目标对象的存放位置参数以及所述目标数据在所述目标对象中的取样范围参数。

进一步地，所述目标对象的存放位置参数至少包括存放所述目标对象的数据库类型，其中，所述数据库类型为hive数据库、hbase数据库、linux数据库、windows数据库、oracle数据库、mysql数据库或db2数据库。

进一步地，根据所述特征参数，获取包含所述目标数据的目标对象包括：

基于所述存放位置参数对应的存放位置，获取在所述存放位置中的目标文件；

根据所述取样范围参数对应的取样范围，获取在所述目标文件中的所述取样范围内的目标数据，并构成包含所述目标数据的所述目标对象。

进一步地，基于所述存放位置参数对应的存放位置，获取在所述存放位置中的目标文件包括：

根据所述存放位置，获取在所述存放位置中具有操作权限的数据文件；

剔除所述数据文件中的临时文件，并获得所述目标文件。

进一步地，所述正则表达式包括用于识别所述敏感数据的敏感信息参数和根据所述敏感信息参数生成的识别规则。

进一步地，确定所述目标对象内包含所述敏感数据后，还包括：

获取所述敏感数据位于所述目标数据中的数据位置参数和所述敏感数据在所述数据位置中的字段参数；

根据所述数据位置参数和所述字段参数，生成关于所述敏感数据的提示信息。

另一方面，本发明实施例提供了一种敏感数据识别装置，所述装置包括：

信息获取单元，被配置为获取用于定位待识别的目标数据的特征参数和用于在所述目标数据中识别敏感数据的正则表达式；

对象确定单元，被配置为根据所述特征参数，获取包含所述目标数据的目标对象；

数据识别单元，被配置为根据所述正则表达式逐行识别所述目标对象内的所述目标数据，以确定所述目标对象内是否包含所述敏感数据。

再一方面，本发明实施例提供了一种敏感数据识别设备，所述设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如上所述的敏感数据识别方法。

再一方面，本发明实施例提供了一种计算机存储介质，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如上所述的敏感数据识别方法。

本发明实施例的敏感数据识别方法、装置、设备及计算机存储介质，能够根据获取的待识别的目标数据的特征参数查找到包含目标数据的目标对象，并根据获取的用于识别敏感数据的正则表达式对目标对象进行扫描，并且确定该目标对象中是否包含敏感数据，此过程中无需人工处理，能够提高敏感数据识别的自动化程度及准确度，同时提高识别速度，从而能够高效、准确地对各类数据库进行敏感数据的识别，尤其适用于人工处理较难的大数据数据库。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单的介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的敏感数据识别方法的流程示意图；

图2是图1中步骤s120的具体方法的流程示意图；

图3是图2中步骤s121的具体方法的流程示意图；

图4是图1中步骤s130的具体方法的流程示意图；

图5是本发明另一个实施例提供的敏感数据识别方法的流程示意图；

图6是本发明实施例的敏感数据识别方法的一个示例的流程示意图；

图7是本发明一个实施例提供的敏感数据识别装置的结构示意图；

图8是本发明另一个实施例提供的敏感数据识别装置的结构示意图；

图9是本发明实施例提供的敏感数据识别设备的硬件结构示意图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了解决现有技术问题，本发明实施例提供了一种敏感数据识别方法、装置、设备及计算机存储介质。下面首先对本发明实施例所提供的敏感数据识别方法进行介绍。

图1示出了本发明一个实施例提供的敏感数据识别方法的流程示意图。如图1所示，本发明实施例的敏感数据识别方法，包括：

s110、获取用于定位待识别的目标数据的特征参数和用于在目标数据中识别敏感数据的正则表达式；

s120、根据特征参数，获取包含目标数据的目标对象；

s130、根据正则表达式逐行识别目标对象内的目标数据，以确定目标对象内是否包含敏感数据。

在本发明实施例中，能够根据获取的待识别的目标数据的特征参数查找到包含目标数据的目标对象，并根据获取的用于识别敏感数据的正则表达式对目标对象进行扫描，并且确定该目标对象中是否包含敏感数据，此过程中无需人工处理，能够提高敏感数据识别的自动化程度及准确度，同时提高识别速度，从而能够高效、准确地对各类数据库进行敏感数据的识别，尤其适用于人工处理较难的大数据数据库。

在步骤s110中，特征参数是为了让敏感数据识别任务自动化执行的一些提前设定与待识别的目标数据相关的关键信息，用于对待识别的目标数据进行定位。具体地，特征参数可以至少包括目标对象的存放位置参数以及目标数据在目标对象中的取样范围参数。

为了使计算机能够识别特征参数，可以将特征参数设置为对应的代码，以存放位置参数以及取样范围参数为例分别进行说明。

存放位置参数用于目标数据的载体，具体地，目标对象的存放位置参数至少包括存放所述目标对象的数据库类型，其中，数据库即为目标数据的载体，而数据库类型可以为hive数据库、hbase数据库、linux数据库、windows数据库、oracle数据库、mysql数据库或db2数据库中的一种。

以linux数据库、hive数据库和hbase数据库对应的存放位置参数为例，可以设置linux数据库对应的存放位置参数为1，hive数据库对应的存放位置参数为2，hbase数据库对应的存放位置参数为3。

需要说明的是，在其他实施例中，目标对象的存放位置参数还可以包括目标对象在数据库中的具体存放位置，例如，具体的列表、目录等位置，以通过目标对象的存放位置参数提供目标数据的位置索引信息。

取样范围参数用于明确用于识别敏感数据的所需采集的目标数据的范围，如表全部数据、前50行数据。以linux数据库、hive数据库和hbase数据库对应的取样范围参数为例，可以设置linux数据库的全文件数据对应的取样范围参数为1-1、linux数据库的前50行数据对应的取样范围参数为1-2，可以设置hive数据库的全表数据对应的取样范围参数为2-1、hive数据库的表前50行数据对应的取样范围参数为2-2。需要说明的是，由于hbase数据库的特点，其取样范围与其他数据库不同，是通过行首字母、行中间字符或自定义字符串进行取样的，因此，当自定义字符串为行首字母开始到结束的字符串时，可以设置hbase数据库对应的取样范围参数为：首字母对应的取样范围参数为3-1、行中间字符对应的取样范围参数为3-2以及行首字母开始到结束的字符串对应的取样范围参数为3-3。

在步骤s110中，正则表达式包括用于识别敏感数据的敏感信息参数和根据敏感信息参数生成的识别规则。其中，敏感信息参数可以是字符和/或数字，字符和/或数字可以根据识别规则组成规则字符串，该规则字符串即为正则表达式，可以用于对目标数据中的普通字符串进行过滤，以根据过滤结果对敏感数据进行识别。

在本发明实施例中，敏感数据可以为如经纬度、姓名、银行账号、身份证号码、电话号码(包括手机号码和固定电话号码)、单位名称、地址、性别、证件类型等涉及到用户隐私的数据。以敏感数据为手机号码为例，可以根据手机号码各段的意义来设置正则表达式，一般情况下，手机号码各段的意义分别为：前三位数字表示运营商，中间四位数字表示区域号，后四位数字表示顺序号。因此，根据手机号各段的意义设置的正则表达式可以为：^((13[0-9])|(14[5|7])|(15([0-3]|[5-9]))|(18[0,5-9]))\\d{8}$。

图2示出了图1中步骤s120的具体方法的流程示意图。如图2所示，步骤s120、根据特征参数，获取包含目标数据的目标对象的具体方法可以包括：

s121、基于存放位置参数对应的存放位置，获取在存放位置中的目标文件；

s122、根据取样范围参数对应的取样范围，获取在目标文件中的取样范围内的目标数据，并构成包含目标数据的目标对象。

在步骤s121中，根据存放位置参数对应的存放位置，确定目标数据所处的数据库类型，并启动该数据库对应的数据库驱动，以实现对该数据库的访问，从而进入数据库中获取目标文件。

其中，数据库驱动是数据库厂商统一制定的一种方便访问数据库的接口，访问不同类型的数据库时，可以根据此数据库厂商提供的数据库驱动类型和接口定义，实现具体的连接以及对数据库的数据访问。具体地，在访问一个数据库时，就需要把该数据库厂商提供的数据库驱动类型和接口加入待使用的程序中，并按照需要的方式和格式，编写其对应的实现逻辑，从而实现对该数据库的驱动，并对其进行访问。

在步骤122中，在确定了目标文件之后，即可以根据取样范围参数获取包含需要识别的若干行数据(目标数据)的目标对象。其中，目标对象可以为由需要识别的若干行数据(目标数据)构成的实际的或虚拟的新的文件或表格。

图3示出了图2中步骤s121的具体方法的流程示意图。如图3所示，步骤s121、基于存放位置参数对应的存放位置，获取在存放位置中的目标文件包括：

s210、根据存放位置，获取在存放位置中具有操作权限的数据文件；

s220、剔除数据文件中的临时文件，并获得目标文件。

在步骤s210中，根据存放位置能够查询到在该存放位置中具有操作权限的全部数据文件，但是得到的数据文件并非全部是目标文件，例如，该存放位置的临时文件，由于其临时的特点，因此，无需对其进行敏感数据的识别。因此，在步骤s220中，可以通过提出数据文件中的临时文件对数据文件进行过滤，从而获得数据文件中的目标文件。由此，可以降低待识别的数据量，从而提高敏感数据的识别效率，减少敏感数据识别的工作量。

图4示出了图1中步骤s130的具体方法的流程示意图。如图4所示，步骤s130可以具体为：

s131、确定目标数据中的任一数据位置内的数据是否与正则表达式进行匹配；如果数据中的任一字段与正则表达式匹配，则执行步骤s132，如果数据中的全部字段与正则表达式均不匹配，则执行步骤s133；

s132、确定该数据包含敏感数据，并存储该数据，然后执行步骤s134；

s133、确定该数据不包含敏感数据，并不存储该数据，然后执行步骤s134；

s134、确定目标数据中的数据是否全部匹配完毕，如果是，则结束敏感数据的识别，如果不是，则执行步骤s131。

图5示出了本发明另一个实施例提供的敏感数据识别方法的流程示意图。如图5所示，在步骤s130中确定了目标对象内包含敏感数据之后，还包括：

s140、获取敏感数据位于目标数据中的数据位置参数和敏感数据在数据位置中的字段参数；

s150、根据数据位置参数和字段参数，生成关于敏感数据的提示信息。

下面，参照图6对本发明实施例的敏感数据识别方法进行详细说明。

图6示出了本发明实施例的敏感数据识别方法的一个示例的流程示意图。如图6所示，整个流程包括如下步骤：

s301、设置敏感数据识别任务，具体为设置待识别的目标数据的特征参数、任务开始时间和结束时间、敏感数据对应的正则表达式等信息，其中，可以特征参数包括：待识别的目标设备、目标设备中的目标文件的存放位置、目标文件中的取样范围。

s302、启动敏感数据识别任务。

s303、加载目标数据的特征参数。

s304、加载敏感数据对应的正则表达式。

s305、敏感数据识别程序通过调用数据库的接口访问存放位置对应的数据库。

s306、建立数据库连接，并获取表清单，具体地，表清单可以通过表名进行提现。

s307、循环执行逐表处理，判断是否对所有表执行完处理，如执行完则执行s308，如未执行完则执行步骤s309。

s308、任务结束。

s309、获取表名，判断表名是否包含temp、zzz等信息，如有则标记为临时表，并且返回步骤s307，如没有则继续执行步骤s310。

s310、获取表的列名并根据取样范围获取每列对应行中的数据(目标数据)，构成包含目标数据的目标对象。

s311、循环逐列进行正则表达式匹配，确定是否全部列均匹配完毕，若全部列匹配完毕则执行步骤s316，若未匹配完毕则执行步骤s312。

s312、根据正则表达式进行匹配，确定是否与正则表达式匹配，如果未匹配则执行步骤s313，如果匹配则执行步骤s314。

s313、判断当前数据是否为当前列的最后一行数据，如果是则执行步骤s311，如果否则取下一列数据并执行s312。

s314、生成敏感数据的提示信息。

s315、列信息入库,并跳回步骤s311核查下一列。

s316、确认该表是否为敏感表，只要该表中的一列有敏感数据就被认定为敏感表。

s317、表信息入库,跳回步骤s307识别下一张表。

在本发明实施例中，数据库类型可以为hive数据库、hbase数据库、linux数据库、windows数据库、oracle数据库、mysql数据库或db2数据库中的一种。下面，根据不同的数据库类型将其分为四种情况，对敏感数据识别的过程进行分别说明。

第一种情况

第一种情况为针对hive数据库、oracle数据库、mysql数据库或db2数据库进行的说明。

当数据库类型为上述的数据库时，首先可以通过对主节点ip、主节点端口、数据库名称orglog默认是default、用户名、密码进行配置从而实现对数据库驱动的配置。

例如，可以将上述的配置信息拼接成如下形式，以调用客户端应用程序编程接口(applicationprogramminginterface，api)进行链接：

url＝"jdbc:hive2://{主节点ip}:{主节点端口}/{数据库名称}"；

name＝"hdfs"；

password＝""。

然后，驱动管理器通过上述的配置信息链接数据库。

接着，在数据库扫描获取所有的表名，具体地，可以通过上一步建立的链接，调用接口方法获取所有的表名。

最后，对具体某张表中的目标数据执行敏感数据的识别，并获取敏感数据的提示信息。具体地，可以根据查询语句中的关键字进行识别行数的限定(识别从m到n行的数据)，从而确定目标数据。其次获取列名称和对应的数据，按顺序存储到链表哈希类型容器a中，以保证顺序型。再次，按照顺序将各个数据与正则表达式进行匹配，将匹配成功的数据包装成哈希容器，存储到一个有序容器b里面。然后，对获取到的有序容器b进行过滤，判断其是否为可忽略的敏感数据(例如，利用正则表达式匹配了任意数据为手机号码，但是该手机号码处于白名单中，则认为其为可忽略的敏感数据)。最后，如果确定任一数据为敏感数据，则提示信息，例如，“某行某列某个字段存在敏感数据”，并调用接口api，将敏感数据返回到服务端。

第二种情况

第二种情况为针对hbase数据进行的说明。

当数据库类型为上述的数据库时，首先可以通过对主节点ip、主节点端口进行配置从而实现对数据库驱动的配置，针对hbase数据，部署probe的服务器需要给hosts文件配置相应节点信息。

例如，在windows操作系统下在c:\windows\system32\drivers\etc\hosts文件里面追加

192.168.186.150big01

192.168.186.151big02

192.168.186.159big03

192.168.186.160big04。

然后，设置hbase数据的取样范围参数。在上述说明过程中，简单说明了hbase数据的取样范围参数与其他数据库不同。下面，针对其进行具体的设置说明。

对hbase数据进行目标数据的取样之前，需要新建一个关联关系表。而hbase数据的取样范围参数的设置分为下面三种情况：

a)行首字母过滤(输入框：字符串，逗号分隔，最多允许三个)；

b)行中间字符串(输入框：字符串，逗号分隔，最多允许三个)；

c)行首字母开始到结束的字符串(开始和结束都只允许输入一个字符串，并且俩个必须同时输入，不允许空其中任何一个)。

当设置好取样范围参数后，既可以继续进行后台的其他处理。

接着，通过hbase数据库的api接口建立连接，在数据库扫描获取所有的表名，并判断某个表c是否存在，若存在，则确定其为目标文件。

最后，进行目标数据的区，可以根据取值范围参数建立提取目标数据规则的扫描器，然后获取到包含目标数据的目标对象，并执行与第一种情况中相同的敏感数据的识别处理和敏感数据的提示信息的获取处理。

第三种情况

第三种情况为针对linux数据库进行的说明。

首先，在与linux数据库连接之前判断该识别任务是否存在于计划终止队列，若存在，则取消该识别任务，否则，执行该识别任务。

当确定执行该识别任务时，连接linux数据库，并获取待扫描的文件列表。具体地，可以先判断是否已经设置扫描路径和递归深度，若已经设定，依据扫描路径、递归深度以及扫描文件类型，拼接出发现目标文件的linux命令，如：find/opt/testfile-maxdepth3-typef-regex'.*\.txt\|.*\.xml\|.*\.properties\|.*\.html\|.*\.ftl\|.*\.csv'，得到所有满足条件的文件路径及文件路径中各个目标文件的文件名。若没有设置，则将默认路径下所有满足扫描类型的文件作为目标文件，以获取各个目标文件的文件名。

然后，将所有目标文件的内容，在files/probetemplate/进行存储，并对files/probetemplate/中的执行与第一种情况中相同的敏感数据的识别处理和敏感数据的提示信息的获取处理。如果识别出敏感数据，则将敏感数据及对应的提示信息作为扫描成功结果存到sensedata中，最终将所有的扫描结果(包括扫描成功结果和扫描失败结果)封装成一个scanresult。其中，扫描失败结果包括扫描失败原因。

需要注意的是，在保存作为扫描结果之前先判断该识别任务是否存在于计划终止队列，若存在，则取消保存，否则调用接口serviceapi，保存结果。

第四种情况

第四种情况为针对windows数据库进行的说明。

首先，在与windows数据库连接之前判断该识别任务是否存在于计划终止队列，若存在，则取消该识别任务，否则，执行该识别任务。

当确定执行该识别任务时，连接windows数据库，并获取待扫描的文件列表。具体地，可以先判断是否已经设置扫描路径和递归深度，若已经设定，依据扫描路径、递归深度以及扫描文件类型，拼接出发现目标文件的命令，得到所有满足条件的文件路径及文件路径中各个目标文件的文件名。若没有设置，则将默认路径下所有满足扫描类型的文件作为目标文件，以获取各个目标文件的文件名。

然后，将所有目标文件的内容存储到probe和windows的共享磁盘路径下，其中，需要对probe共享磁盘下文件内容进行针对性读取，并存储到files/probetemplate/。

接着，对files/probetemplate/中的执行与第一种情况中相同的敏感数据的识别处理和敏感数据的提示信息的获取处理。如果识别出敏感数据，则将敏感数据及对应的提示信息作为扫描成功结果存到sensedata中，最终将所有的扫描结果(包括扫描成功结果和扫描失败结果)封装成一个scanresult。其中，扫描失败结果包括扫描失败原因。

需要注意的是，在保存作为扫描结果之前先判断该识别任务是否存在于计划终止队列，若存在，则取消保存，否则调用接口serviceapi，保存结果。

综上所述，本发明实施例的敏感数据识别方法，可以弥补现有的识别方法的多个缺陷，具体包括：本发明实施例设置特征参数，能够自动化执行对目标数据的提取，提高目标数据提取的效率；通过设置正则表达式，能够更加精准的匹配敏感数据；并且，能够对不同类型的数据库中的内容进行自动识别，大大的提高了敏感数据识别的效率。

图7示出了本发明一个实施例提供的敏感数据识别装置的结构示意图。如图7所示，本发明实施例提供了一种敏感数据识别装置，装置包括：

信息获取单元410，被配置为获取用于定位待识别的目标数据的特征参数和用于在目标数据中识别敏感数据的正则表达式；

对象确定单元420，被配置为根据特征参数，获取包含目标数据的目标对象；

数据识别单元430，被配置为根据正则表达式逐行识别目标对象内的目标数据，以确定目标对象内是否包含敏感数据。

在本发明实施例中，对象确定单元420被进一步配置为：基于存放位置参数对应的存放位置，获取在存放位置中的目标文件；根据取样范围参数对应的取样范围，获取在目标文件中的取样范围内的目标数据，并构成包含目标数据的目标对象。

其中，对象确定单元420基于存放位置参数对应的存放位置，获取在存放位置中的目标文件的具体方法可以包括：根据存放位置，获取在存放位置中具有操作权限的数据文件；剔除数据文件中的临时文件，并获得目标文件。

图8示出了本发明另一个实施例提供的敏感数据识别装置的结构示意图。如图8所示，本发明实施例的敏感数据识别装置还包括：

信息处理单元440，被配置为获取敏感数据位于目标数据中的数据位置参数和敏感数据在数据位置中的字段参数；

信息生成单元450，被配置为根据数据位置参数和字段参数，生成关于敏感数据的提示信息。

图9示出了本发明实施例提供的敏感数据识别设备的硬件结构示意图。

在敏感数据识别设备可以包括处理器501以及存储有计算机程序指令的存储器502。

具体地，上述处理器501可以包括中央处理器(cpu)，或者特定集成电路(applicationspecificintegratedcircuit，asic)，或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器502可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器502可包括硬盘驱动器(harddiskdrive，hdd)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(universalserialbus，usb)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器502可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器502可在综合网关容灾设备的内部或外部。在特定实施例中，存储器502是非易失性固态存储器。在特定实施例中，存储器502包括只读存储器(rom)。在合适的情况下，该rom可以是掩模编程的rom、可编程rom(prom)、可擦除prom(eprom)、电可擦除prom(eeprom)、电可改写rom(earom)或闪存或者两个或更多个以上这些的组合。

处理器501通过读取并执行存储器502中存储的计算机程序指令，以实现上述实施例中的任意一敏感数据识别方法。

在一个示例中，敏感数据识别设备还可包括通信接口503和总线510。其中，如图9所示，处理器501、存储器502、通信接口503通过总线510连接并完成相互间的通信。

通信接口503，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线510包括硬件、软件或两者，将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(agp)或其他图形总线、增强工业标准架构(eisa)总线、前端总线(fsb)、超传输(ht)互连、工业标准架构(isa)总线、无限带宽互连、低引脚数(lpc)总线、存储器总线、微信道架构(mca)总线、外围组件互连(pci)总线、pci-express(pci-x)总线、串行高级技术附件(sata)总线、视频电子标准协会局部(vlb)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线510可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

该敏感数据识别设备可以执行本发明实施例中的敏感数据识别方法，从而实现结合图1-8描述的敏感数据识别方法和装置。

另外，结合上述实施例中的敏感数据识别方法，本发明实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种敏感数据识别方法。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(asic)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、rom、闪存、可擦除rom(erom)、软盘、cd-rom、光盘、硬盘、光纤介质、射频(rf)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

技术特征：

1.一种敏感数据识别方法，其特征在于，包括：

获取用于定位待识别的目标数据的特征参数和用于在所述目标数据中识别敏感数据的正则表达式；

根据所述特征参数，获取包含所述目标数据的目标对象；

根据所述正则表达式逐行识别所述目标对象内的所述目标数据，以确定所述目标对象内是否包含所述敏感数据。

2.根据权利要求1所述的敏感数据识别方法，其特征在于，所述特征参数包括所述目标对象的存放位置参数以及所述目标数据在所述目标对象中的取样范围参数。

3.根据权利要求2所述的敏感数据识别方法，其特征在于，所述目标对象的存放位置参数至少包括存放所述目标对象的数据库类型，其中，所述数据库类型为hive数据库、hbase数据库、linux数据库、windows数据库、oracle数据库、mysql数据库或db2数据库。

4.根据权利要求2所述的敏感数据识别方法，其特征在于，根据所述特征参数，获取包含所述目标数据的目标对象包括：

基于所述存放位置参数对应的存放位置，获取在所述存放位置中的目标文件；

根据所述取样范围参数对应的取样范围，获取在所述目标文件中的所述取样范围内的目标数据，并构成包含所述目标数据的所述目标对象。

5.根据权利要求4所述的敏感数据识别方法，其特征在于，基于所述存放位置参数对应的存放位置，获取在所述存放位置中的目标文件包括：

根据所述存放位置，获取在所述存放位置中具有操作权限的数据文件；

剔除所述数据文件中的临时文件，并获得所述目标文件。

6.根据权利要求1所述的敏感数据识别方法，其特征在于，所述正则表达式包括用于识别所述敏感数据的敏感信息参数和根据所述敏感信息参数生成的识别规则。

7.根据权利要求1所述的敏感数据识别方法，其特征在于，确定所述目标对象内包含所述敏感数据后，还包括：

获取所述敏感数据位于所述目标数据中的数据位置参数和所述敏感数据在所述数据位置中的字段参数；

根据所述数据位置参数和所述字段参数，生成关于所述敏感数据的提示信息。

8.一种敏感数据识别装置，其特征在于，所述装置包括：

信息获取单元，被配置为获取用于定位待识别的目标数据的特征参数和用于在所述目标数据中识别敏感数据的正则表达式；

对象确定单元，被配置为根据所述特征参数，获取包含所述目标数据的目标对象；

数据识别单元，被配置为根据所述正则表达式逐行识别所述目标对象内的所述目标数据，以确定所述目标对象内是否包含所述敏感数据。

9.一种敏感数据识别设备，其特征在于，所述设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如权利要求1-7任意一项所述的敏感数据识别方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-7任意一项所述的敏感数据识别方法。

技术总结
本发明公开了一种敏感数据识别方法、装置、设备及计算机存储介质。敏感数据识别方法，包括：获取用于定位待识别的目标数据的特征参数和用于在目标数据中识别敏感数据的正则表达式；根据特征参数，获取包含目标数据的目标对象；根据正则表达式逐行识别目标对象内的目标数据，以确定目标对象内是否包含敏感数据。根据本发明实施例，能够快速、准确地识别大量数据中的敏感数据。

技术研发人员：陆艳军;杨翔;赵立农;廖天宇
受保护的技术使用者：中国移动通信集团重庆有限公司;中国移动通信集团有限公司
技术研发日：2018.11.29
技术公布日：2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-58130.html

专利

最新回复(0)