短信的识别方法、装置及设备与流程

专利2022-06-29  79


本发明涉及信息识别技术领域,尤其涉及一种短信的识别方法、装置及设备。



背景技术:

短信是用户通过终端发送/接收的文字信息或数字信息,用户每次能接收和发送短信的字符数一般是160个英文或数字字符,或者70个中文字符。其中,对于文本类型的短信而言,为了避免商家向用户随意乱发违法、违规的信息,在短信发送之前,一般都需要对短信进行审核。



技术实现要素:

本发明实施例提供了一种短信的识别方法、装置及设备,用以实现无需人工干预即可对短信进行识别审核,保证了审核质量和效率,提高了用户的良好体验性。

第一方面,本发明实施例提供一种短信的识别方法,包括:

获取待识别的短信字符串;

提取所述短信字符串的特征标识信息;

根据所述特征标识信息确定至少一个用于识别所述短信的标签信息。

第二方面,本发明实施例提供一种短信的识别装置,包括:

获取模块,用于获取待识别的短信字符串;

提取模块,用于提取所述短信字符串的特征标识信息;

识别模块,用于根据所述特征标识信息确定至少一个用于识别所述短信的标签信息。

第三方面,本发明实施例提供一种电子设备,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第一方面中的短信的识别方法。

第四方面,本发明实施例提供了一种计算机存储介质,用于储存计算机程序,所述计算机程序使计算机执行时实现上述第一方面中的短信的识别方法。

第五方面,本发明实施例提供一种短信的识别方法,应用于群发短信,包括:

获取待识别的短信字符串;

提取所述短信字符串的特征标识信息;

根据所述特征标识信息确定至少一个用于识别所述短信的标签信息。

第六方面,本发明实施例提供一种短信的识别装置,应用于群发短信,包括:

获取模块,用于获取待识别的短信字符串;

提取模块,用于提取所述短信字符串的特征标识信息;

识别模块,用于根据所述特征标识信息确定至少一个用于识别所述短信的标签信息。

第七方面,本发明实施例提供一种电子设备,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第五方面中的短信的识别方法。

第八方面,本发明实施例提供了一种计算机存储介质,用于储存计算机程序,所述计算机程序使计算机执行时实现上述第五方面中的短信的识别方法。

通过提取待识别的短信字符串的特征标识信息,并根据所述特征标识信息确定至少一个用于识别所述短信的标签信息,实现了自动对短信进行识别审核,无需人工干预,减少了人工审核所带来的影响,进而保证了审核质量和效率,提高了用户的良好体验性,有效地提高了该方法使用的智能化程度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种短信的识别方法的流程图;

图2为本发明实施例提供的根据所述特征标识信息确定至少一个用于识别所述短信的标签信息的流程图;

图3为本发明实施例提供的利用预设的数据库确定至少一个与所述特征标识信息相匹配的目标信息的流程图;

图4为本发明实施例提供的另一种短信的识别方法的流程图;

图5为本发明实施例提供的又一种短信的识别方法的流程图;

图6为本发明实施例提供的再一种短信的识别方法的流程图;

图7为本发明实施例提供的一种短信的识别装置的结构示意图;

图8为与图7所示实施例提供的短信的识别装置对应的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。

应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。

取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。

图1为本发明实施例提供的一种短信的识别方法的流程图;参考附图1所示,本实施例提供了一种短信的识别方法,该方法能够实现无需人工干预即可对短信进行识别审核,保证了审核质量和效率,提高了用户的良好体验性。

可选地,本实施例中的识别方法可以应用于群发短信,其中,群发短信可以包括商户向用户群发的短信。当然的,本领域技术人员还可以根据具体的应用需求和应用场景选择其他类型的群发短信,例如:企业向员工发送的短信、学校向学生发送的短信、旅游局向位于特定区域的个人发送的短信等等,该群发短信可以为任意一个组织或者集体组织向个人发送的短信。

具体的,该识别方法可以包括:

s101:获取待识别的短信字符串。

本实施例中的短信字符串可以为文本类型的短信所包括的字符串,其中,文本类型的短信可以为点对点发送的短信,或者,也可以为企业对个人发送的企业短信。待识别的短信字符串为用户想要发送的且需要进行审核的短信字符串,在获取待识别的短信字符串时,可以通过预设的服务器、数据库、数据接口或者数据端口来获取用户已编辑完的待识别的短信字符串;当然的,本领域技术人员也可以采用其他的方式来获取待识别的短息字符串,只要能够保证短信字符串获取的准确可靠性即可,在此不再赘述。

s102:提取短信字符串的特征标识信息。

其中,特征标识信息包括以下至少之一:字符串模板、字符串特征、签名信息。具体的,字符串模板可以是指根据短信字符串抽象出变量部分后剩下的字符串,也可以叫短信文案。字符串特征可以是指在短信字符串中出现的qq号、微信号、手机号、公众号、群号、url等信息的集合。签名信息一般作为一种短信标识加在短信字符串的开头,其具体可以由【】以及相应的关键字构成。

另外,在特征标识信息包括字符串模板时,提取短信字符串的特征标识信息的实现过程可以包括:去除短信字符串中的第一类信息,获得短信字符串的字符串模板,第一类信息包括以下至少之一:地址、姓名、昵称、密码、订单号,也即:字符串模板为短信字符串中去除第一类信息的其他信息;或者,去除短信字符串中的第二类信息,获得短信字符串的字符串模板,第二类信息包括以下至少之一:数字、字母、地址库、姓名库、昵称库,也即:字符串模板为短信字符串中去除第二类信息的其他信息;或者,去除短信字符串中的第三类信息,获得短信字符串的字符串模板,第三类信息包括以下至少之一:数字、字母、符号。当然的,本领域技术人员还可以采用其他的方式来提取短信字符串的字符串模板,只要能够保证字符串模板获取的准确性和稳定性即可,在此不再赘述。

为了便于理解特征标识信息的提取过程,现举例说明如下:

举例一,现有待识别的短信字符串如下:【短信验证码平台】亲,您的快递包裹已于9.17到达我司,敬请尽早取回。联系电话:4001148008,地址:西城区新街口外大街28号。

对于上述待识别的短信字符串而言,在特征标识信息包括字符串模板时,所提取的特征标识信息可以为:“亲,您的快递包裹已于xxx到达我司,敬请尽早取回。联系电话:xxxxxxxxxx,地址:xxxxxxxxx”,可以理解的是,对于此时的短信字符串而言,日期、联系电话和具体的地址均作为变量部分被提取出来,而保留之后的短信字符串即为字符串模板。在特征标识信息包括字符串特征时,所提取的特征标识信息可以为:4001148008;在特征标识信息包括签名信息时,所提取的特征标识信息可以为:【短信验证码平台】。

举例二,现有待识别的短信字符串如下:

【xx商贸】您订单已经送达,请凭取件码e41取件,商品免费存放24小时,详见http://youhuiquan666.cn/?e41。

对于上述待识别的短信字符串而言,在特征标识信息包括字符串模板时,所提取的特征标识信息可以为:“您订单已经送达,请凭取件码xxx取件,商品免费存放24小时,详见xxxxxxxxxxxxxx”,可以理解的是,对于此时的短信字符串而言,取件码和具体的网址信息均作为变量部分被提取出来,而保留之后的短信字符串即为字符串模板。在特征标识信息包括字符串特征时,所提取的特征标识信息可以为:http://youhuiquan666.cn/?e41;在特征标识信息包括签名信息时,所提取的特征标识信息可以为:【xx商贸】。显然的,当特征标识信息包括的字符串不同时,所获取的特征标识信息的具体字符串也不同。

另外,可以理解的是,上述特征标识信息的提取方式和提取结果仅为举例说明,本领域技术人员还可以采用其他的提取方式来获得不同的提取结果,例如,对于上述的举例一而言,在特征标识信息包括字符串模板时,所获取的特征标识信息还可以为:“亲,您的快递包裹已于xxxx到达我司,敬请尽早取回。联系电话:4001148008,地址:西城区新街口外大街28号”,可以理解的是,对于此时的短信字符串而言,仅有日期作为变量部分被提取出来,其他字符串均为固定部分,进而可以获取到不同于上述所提取结果的另一个字符串模板。

s103:根据特征标识信息确定至少一个用于识别短信的标签信息。

在获取到特征标识信息之后,可以对特征标识信息进行分析处理,从而根据分析处理结果来确定至少一个标签信息,该标签信息可以用于识别短信。具体的,标签信息可以至少包括:用于标识短信的所属行业的第一标签信息和用于标识短信的应用意图的第二标签信息。

举例来说,现有如下短信字符串:【xx银行】您尾号0856的手机已成功签约移动银行,客户端下载地址为:http://www.xxbank.com.cn/mobile/

对于上述短信字符串而言,可以先提取短信字符串的特征标识信息,通过对特征标识信息的分析处理可以获知,例如:对签名信息【xx银行】进行分析处理,可以确定该短信的所属行业为银行,通过对字符串模板进行分析处理可以确定该短信的意图是通知用户进行客户端下载;因此,可以确定上述的短信属于银行通知类短信。其中,对于上述短信的行业而言,基于预设的行业分类情况可知,银行属于预设的金融大类中的一个小类,因此,可以将该用于标识短信的所属行业的第一标签信息确定为:金融-银行或者银行。另外,通过对上述短信的意图而言,基于预设的意图设置情况,客户端下载可以属于通知类中的一个小类,因此,可以将该短信的第二标签信息确定为:通知-客户端下载或者客户端下载。

可以理解的是,对于上述的第一标签信息而言,本领域技术人员可以根据不同的领域或者不同的应用需求来确定第一标签信息的表现形式,例如,第一标签信息为二级信息:金融-银行,此时,第二级信息“银行”为第一级信息“金融”的一个子类,第一级信息中还可以包括其他类别的第二级信息,例如:互联网金融、证券、保险等等。或者,第一标签信息可以为三级信息:金融-银行-营销部等等,此时,第三级信息“营销部”为第二级信息“银行”的一个子类,第二级信息“银行”为第一级信息“金融”的一个子类,第二级信息中还可以包括其他类别的第三级信息,例如:业务部、管理部等等。当然的,第一标签信息还可以具有其他的表现形式,只要能够准确地识别短信的所属行业即可,在此不再赘述。

相类似的,对于第二标签信息而言,本领域技术人员可以根据不同的领域或者不同的应用需求来确定第二标签信息的表现形式,例如,第二标签信息为二级信息:营销-电话营销,此时,第二级信息“电话营销”为第一级信息“营销”的一个子类,第一级信息中还可以包括其他类别的第二级信息,例如:网络营销、话题营销等等。当然的,第二标签信息还可以具有其他的表现形式,只要能够准确地识别短信的应用意图即可,在此不再赘述。

另外,在根据特征标识信息确定至少一个用于识别短信的标签信息时,本实施例对于其具体的实现方式不做限定,本领域技术人员可以根据具体的设计需求进行设置,例如:可以预先存储有特征标识信息与至少一个标签信息的映射关系,通过映射关系可以确定至少一个标签信息。或者,预先设置有数据库,数据库中存储有标准特征标识与标准标签之间的对应关系,在数据库中查找与特征标识信息相匹配的标准特征标识,并将查找到的标准特征标识的标准标签确定为标签信息;当然的,本领域技术人员还可以采用其他的方式来实现至少一个用于识别短信的标签信息的确定,在此不再赘述。

此外,由于特征标识信息可以包括字符串模板、字符串特征以及签名信息中的至少之一,因此,根据特征标识信息确定至少一个用于识别短信的标签信息可以包括:根据字符串模板确定至少一个用于识别短信的第一标签信息;和/或,根据字符串特征确定至少一个用于识别短信的第二标签信息;和/或,根据签名信息确定至少一个用于识别短信的第三标签信息;按照预设的标签原则对第一标签信息和/或第二标签信息和/或第三标签信息进行处理,确定至少一个用于识别短信的最终标签信息。

其中,上述确定第一标签信息、第二标签信息和第三标签信息的实现过程是相互独立且互不干扰的,并且,第一标签信息、第二标签信息和第三标签信息可以是相同的,也可以是不同的,也即:在根据不同的特征标识信息确定相应的标签信息时,可以获取到一个标签信息,或者,也可以获取到多个不同的标签信息,从而实现了一个短信可以对应有一个标签信息,或者,也可以对应有多个标签信息。

进一步的,本实施例对于上述中预设的标签原则的具体内容不做限定,本领域技术人员可以根据具体的设计需求进行设置,例如:预设的标签原则可以为标签加权原则、标签优先级原则或者标签过滤原则等等,其中,标签加权原则可以是指对每个标签信息均设置有相应的加权分值,确定每个标签信息的加权权重,将加权分值与加权权重做乘积,并将乘积之和大于预设阈值的标签信息确定为最终标签信息。而标签优先级原则可以按照预设的优先级顺序选择有限数量的标签信息,从而形成最终标签信息;标签过滤原则是去除标签信息中的一个或者部分标签信息,其余的部分构成了最终表现信息。当然的,本领域技术人员还可以采用其他的标签原则,只要能够保证最终标签信息获取的准确性即可,在此不再赘述。

本实施例提供的短信的识别方法,通过提取待识别的短信字符串的特征标识信息,并根据特征标识信息确定至少一个用于识别短信的标签信息,实现了自动对短信进行识别审核,无需人工干预,减少了人工审核所带来的影响,进而保证了审核质量和效率,提高了用户的良好体验性,有效地提高了该方法使用的智能化程度。

图2为本发明实施例提供的根据特征标识信息确定至少一个用于识别短信的标签信息的流程图;图3为本发明实施例提供的利用预设的数据库确定至少一个与特征标识信息相匹配的目标信息的流程图;在上述实施例的基础上,继续参考附图2-3可知,本实施例对于根据特征标识信息确定至少一个用于识别短信的标签信息的具体实现方式不做限定,本领域技术人员可以根据具体的设计需求进行设置,较为优选的,本实施例中的根据特征标识信息确定至少一个用于识别短信的标签信息可以包括:

s1031:利用预设的数据库确定至少一个与特征标识信息相匹配的目标信息。

其中,数据库可以包括以下至少之一:存储有多个字符串模板与多个第一标签之间对应关系的模板库、存储有多个字符串特征与多个第二标签之间对应关系的特征库、存储有多个签名信息与多个第三标签之间对应关系的签名库。

可以理解的是,在提取的特征标识信息包括字符串模板时,相对应的数据库包括模板库;在所提取的特征标识信息包括字符串特征时,相对应的数据库包括特征库;在所提取的特征标识信息包括签名信息时,相对应的数据库包括签名库;也即,数据库与特征标识信息是相对应的。

具体的,利用预设的数据库确定至少一个与特征标识信息相匹配的目标信息可以包括:

s10311:将特征标识信息与数据库中存储的所有标准特征信息进行分析比较,获得特征标识信息与每个标准特征信息之间的相似度。

s10312:将相似度大于或等于预设的相似度阈值的至少一个标准特征信息确定为目标信息。

其中,相似度阈值为预先设置的,本实施例对于其具体的数值范围不做限定,本领域技术人员可以根据具体的设计需求进行设置,例如:相似度阈值可以为80%、85%、90%或者95%等等,可以理解的是,在相似度阈值越大时,对特征标识信息识别的精确度越高。在获取到特征标识信息与每个标准特征信息之间的相似度之后,在相似度大于或等于相似度阈值时,则说明标准特征信息与特征标识信息相匹配,此时可以将满足上述条件的至少一个标准特征信息确定为目标信息。

s1032:获取与目标信息相对应的目标标签。

s1033:将至少一个目标标签确定为至少一个标签信息。

举例来说,在特征标识信息包括字符串模板时,则可以先提取短信字符串的特征标识信息,而后可以在预设的模板库中确定至少一个与字符串模板相匹配的目标字符串模板,具体的,将字符串模板与预先存储在模板库中的所有标准字符串模板进行分析比较,获得字符串模板与每个标准字符串模板之间的相似度信息;将相似度信息大于或等于预设的相似度阈值的至少一个标准字符串模板确定为至少一个目标信息。在获取到目标信息之后,可以利用预设的映射关系获取到与目标信息相对应的第一标签,第一标签即为目标标签,从而可以将上述所获取的至少一个目标标签确定为至少一个标签信息。

可以理解的是,对于特征标识信息包括字符串特征、特征标识信息包括签名信息的情况时的至少一个标签信息的实现过程而言,与上述特征标识信息包括字符串模板时的实现过程相类似,具体可参考上述陈述内容,在此不再赘述。

需要说明的是,在上述步骤s10311之后,本实施例中的方法还可以包括:

s10313:在特征标识信息与每个标准特征信息之间的相似度信息均小于相似度阈值时,则根据特征标识信息中的其他信息来确定至少一个用于识别短信的标签信息。

将特征标识信息与数据库中的每个标准特征信息进行分析比较之后,在特征标识信息与每个标准特征信息之间的相似度信息均小于相似度阈值时,则说明此时的数据库中不存在符合预设条件的标准特征信息,进而,为了保证对短信字符串识别的准确性,可以利用特征标识信息中的其他信息来确定至少一个标签信息。

举例来说,可实现的情况一,特征标识信息包括字符串模板和字符串特征,此时,在根据特征标识信息确定至少一个用于识别短信的标签信息时,可以先在预设的模板库中确定至少一个与字符串模板相匹配的目标字符串模板,在模板库中不存在符合条件的目标字符串模板(目标信息)时,也即:字符串模板与模板库中的每个标准字符串模板之间的相似度信息均小于相似度阈值,则根据特征标识信息中的其他信息(字符串特征)来确定至少一个用于识别短信的标签信息,也即:可以在预设的特征库中确定至少一个与字符串特征相匹配的目标字符串特征(目标信息),并获取与目标字符串特征相对应的目标标签,进而将至少一个目标标签确定为至少一个用于识别短信的标签信息。

从而实现了在特征标识信息包括字符串模板和字符串特征时,可以先对字符串模板进行分析,在根据字符串模板无法确定至少一个标签信息时,则根据特征标识信息中的其他信息(字符串特征)来确定至少一个用于识别短信的标签信息,从而确定至少一个标签信息。可以想到的是,实现过程并不限于上述所说明的实施顺序,例如,还可以先对字符串特征进行分析,在根据字符串特征无法确定至少一个标签信息时,根据特征标识信息中的其他信息(字符串模板)来确定至少一个用于识别短信的标签信息,从而确定至少一个标签信息。

可以想到的是,在特征标识信息包括字符串模板和签名信息、特征标识信息包括字符串特征和签名信息时,其具体确定至少一个用于识别短信的标签信息的实现过程与上述情况一的实现过程相类似,具体可参考上述陈述内容,在此不再赘述。

可实现的情况二:特征标识信息包括字符串模板、字符串特征和签名信息,此时,可以先在预设的模板库中确定至少一个与字符串模板相匹配的目标字符串模板,在模板库中不存在符合条件的目标字符串模板时,也即:字符串模板与模板库中的每个标准字符串模板之间的相似度信息均小于相似度阈值,则根据特征标识信息中的其他信息(字符串特征或者签名信息)来确定至少一个用于识别短信的标签信息,以字符串特征为例进行说明,也即:可以在预设的特征库中确定至少一个与字符串特征相匹配的目标字符串特征,在特征库中不存在符合条件的目标字符串特征时,也即:字符串特征与模板库中的每个标准字符串特征之间的相似度信息均小于相似度阈值,则根据特征标识信息中的其他信息(签名信息)来确定至少一个用于识别短信的标签信息,即在签名库中确定至少一个目标字符串签名,并获取与目标字符串签名相对应的目标标签,进而将至少一个目标标签确定为至少一个用于识别短信的标签信息。

从而实现了在特征标识信息包括字符串模板、字符串特征和签名信息时,可以先对字符串模板进行分析,在根据字符串模板无法确定至少一个标签信息时,则根据特征标识信息中的其他信息(字符串特征)来确定至少一个用于识别短信的标签信息,从而确定至少一个标签信息;在根据字符串特征无法确定至少一个标签信息时,进一步根据特征标识信息中的其他信息(签名信息)来确定至少一个用于识别短信的标签信息,从而确定至少一个标签信息。

可以想到的是,确定至少一个签名信息的实现过程并不限于上述所说明的实施顺序,例如,还可以先对签名信息进行分析,在根据签名信息无法确定至少一个标签信息时,根据特征标识信息中的其他信息(字符串模板和字符串特征)来确定至少一个用于识别短信的标签信息,从而确定至少一个标签信息;或者,也可以先对字符串特征进行分析,在无法确定至少一个标签信息时,根据特征标识信息中的其他信息(字符串模板和签名信息)来确定至少一个用于识别短信的标签信息,从而确定至少一个标签信息等等,只要能够保证至少一个签名信息确定的准确可靠性即可,在此不再赘述。

可实现的情况三:在特征标识信息包括字符串模板、字符串特征和签名信息时,可能出现的情况还包括:根据所有的特征标识信息均不能确定至少一个用于识别短信的标签信息,即预设的模板库中不存在符合条件的目标字符串模板,预设的特征库中不存在符合条件的目标字符串特征,且预设的标签库中不存在符合条件的目标签名信息,此时,为了保证短信识别审核的效率,可以发送提醒信息,以使得审核人员根据提醒信息对短信字符串进行人工识别和审核。

通过上述方式来确定至少一个标签信息,不仅保证了标签信息获取的准确可靠性,并且实现方式多种多样,有效地提高了该方法使用的灵活程度,扩大了该方法的适用范围。

图4为本发明实施例提供的另一种短信的识别方法的流程图;在上述实施例的基础上,继续参考附图4可知,在根据特征标识信息确定至少一个用于识别短信的标签信息之后,本实施例中的方法还可以包括:

s201:提取短信字符串的所有特征标识信息。

s202:在所有特征标识信息中包括未存储于数据库中的未入库信息时,则将未入库信息与标签信息相对应,并存储至数据库中。

在具体应用时,为了提高该方法使用的准确性,本实施例中的数据库可以进行自主学习并更新数据。具体的,在根据特征标识信息确定至少一个标签信息之后,可以提取该短信字符串的所有特征标识信息,即提取该短信字符串的字符串模板、字符串特征和签名信息等;对上述所提取的特征标识信息进行分析识别,判断所有的特征标识信息中是否有未存储于相应数据库中的未入库信息,其中,在特征标识信息包括字符串模板时,未入库信息可以为字符串模板中未存储在模板库中的部分或者全部字符串模板;或者,在特征标识信息包括字符串特征时,未入库信息可以为字符串特征中未存储在特征库中的部分或者全部字符串特征;在特征标识信息包括签名信息时,未入库信息也可以为签名信息中未存储在标签库中的部分或者全部签名信息;若存在,则将未入库信息与标签信息建立对应关系,并存储在相对应的数据库中。

举例来说,在特征标识信息包括字符串模板时,并可以根据字符串模板来确定至少一个标签信息,在确定标签信息之后,可以提取特征标识信息中的其他信息(字符串特征和签名信息),从而获取到短信字符串的所有特征标识信息,即字符串模板、字符串特征和签名信息等;由于标签信息是根据字符串模板所确定的,因此,无需对字符串模板进行分析识别,可以直接对字符串特征和签名信息进行分析识别,若字符串特征中包括未存储于特征库中的未入库信息,和/或,签名信息中包括未存储于标签库中的未入库信息时,则将所有的未入库信息与上述确定的至少一个标签信息进行对应,并存储至相对应的数据库中。

可以理解的是,在根据所有的特征标识信息均无法确定至少一个标签信息时,可以人工审核识别,并确定该短信的标签信息,在确定该标签信息之后,将所提取的该短信字符串的所有特征标识信息与标签信息进行对应,并分别存储至相对应的数据库中。

通过对数据进行自动或者相互的学习,实现了数据的完善和更新过程,进一步降低了人工干预的机率,从而提高了短信识别审核的质量和效率,有效地保证了该方法使用的稳定可靠性和智能化程度,有利于市场的推广与应用。

图5为本发明实施例提供的又一种短信的识别方法的流程图;参考附图5所示,在获取待识别的短信字符串之前,本实施例中的方法还可以包括:

s301:获取预先设置的多个短信样本字符串以及与每个短信样本字符串所对应的样本标签。

其中,短信样本字符串和样本标签可以来自于历史运行数据或或者历史存储数据,或者,也可以是用户直接输入的样本数据。

s302:提取每个短信样本字符串的样本特征标识信息,样本特征标识信息包括:字符串模板、字符串特征和签名信息。

s303:将样本特征标识信息与样本标签相对应,并存储至预先设置的数据库中。

举例来说,现有如下短信样本字符串:【xx商贸】您订单已经送达,请凭取件码e41取件,商品免费存放24小时,详见http://youhuiquan666.cn/?e41。通过对上述短信样本字符串的识别,可以获得相对应的样本标签如下:基于样本字符串模板所确定的第一样本标签为:行业-快递公司,意图-取件通知;基于样本字符串特征所确定的第二样本标签为:行业-诈骗公司,意图-诈骗;基于样本签名信息所确定的第三样本标签为:行业-外贸企业,意图-未知/空。

在获取到上述短信样本字符串之后,提取短信样本字符串中的字符串模板、字符串特征和签名信息,将字符串模板与第一样本标签进行对应,并存储在模板库中;将字符串特征与第二样本标签进行对应,并存储在特征库中,将签名信息与第三样本标签进行对应,并存储在签名库中。从而实现了相对应的数据库,即:存储有多个字符串模板与多个第一标签之间对应关系的模板库、存储有多个字符串特征与多个第二标签之间对应关系的特征库、存储有多个签名信息与多个第三标签之间对应关系的签名库。

通过上述方式获得数据库中的数据,有效地保证了利用数据库对短信进行识别的准确可靠性,进一步提高了该方法使用的精确程度。

图6为本发明实施例提供的再一种短信的识别方法的流程图;在上述实施例的基础上,继续参考附图6可知,为了进一步提高该方法的实用性,本实施例中的方法还可以包括:

s401:根据标签信息识别短信是否合法。

s402:在短信合法时,则按照预设的调度规则发送短信。

s403:在短信非法时,则拦截短信。

在确定标签信息之后,可以根据标签信息识别短信是否合法,本实施例对于根据标签信息识别短信是否合法的具体实现方式不做限定,本领域技术人员可以根据具体的设计需求进行设置,例如:可以将标签信息与预设的合法标签库进行分析对比,若合法标签库中不存在与标签信息相对应的合法标签,则可以说明该短信非法,反之则说明该短信合法。或者,也可以按照预设的合法原则对标签信息进行核查,若标签信息符合合法原则,则说明该短信合法,反之则说明该短信非法。当然的,本领域技术人员还可以采用其他的方式来实现根据标签信息识别短信是否合法,只要能够保证识别的准确可靠性即可,在此不再赘述。

在识别短信合法时,则可以基于预设的调度规则对该短信进行发送,其中,调度规则可以根据不同的运营商、不同的地区和不同的领域而有所不同,因此,在具体应用时,可以灵活应用调度规则;举例来说,现有合法的短信一,短信一所对应的运营商可以包括运营商a和运营商b,而对于运营商b而言,不允许发送短信一,因此,可以基于预设的调度规则利用运营商a来发送短信一。或者,现有合法的短信二,短信二所发送的地区包括北京和上海,而对于运营商而言,不许将短信二发送至上海,此时,可以基于预设的调度规则利用运营商向北京来发送短信二。当然的,本实施例中的调度规则还可以为其他形式的调度规则,本领域技术人员可以根据具体的应用需求和使用需求进行任意设置,在此不再赘述。

本实施例中,通过标签信息可以识别违法、违禁类的短信,从而对该部分的短信进行拦截处理,而对合法的短信进行调度优化,可以实现了多维度、多层次的管控调度与决策,进一步提高了短信的审核质量和效率。

图7为本发明实施例提供的一种短信的识别装置的结构示意图;参考附图7所示,本实施例提供了一种短信的识别装置,该装置可以执行上述的识别方法。可选地,本实施例中的识别装置可以应用于群发短信,其中,群发短信可以包括商户向用户群发的短信。当然的,本领域技术人员还可以根据具体的应用需求和应用场景选择其他类型的群发短信,例如:企业向员工发送的短信、学校向学生发送的短信、旅游局向位于特定区域的个人发送的短信等等,该群发短信可以为任意一个组织或者集体组织向个人发送的短信。

具体的,该识别装置可以包括:获取模块11、提取模块12和识别模块13。

获取模块11,用于获取待识别的短信字符串;

提取模块12,用于提取短信字符串的特征标识信息;

识别模块13,用于根据特征标识信息确定至少一个用于识别短信的标签信息。

其中,特征标识信息包括以下至少之一:字符串模板、字符串特征、签名信息。另外,标签信息至少包括:用于标识短信的所属行业的第一标签信息和用于标识短信的应用意图的第二标签信息。

可选地,在识别模块13根据特征标识信息确定至少一个用于识别短信的标签信息时,识别模块13可以用于执行:利用预设的数据库确定至少一个与特征标识信息相匹配的目标信息;获取与目标信息相对应的目标标签;将至少一个目标标签确定为至少一个标签信息。

其中,数据库包括以下至少之一:存储有多个字符串模板与多个第一标签之间对应关系的模板库、存储有多个字符串特征与多个第二标签之间对应关系的特征库、存储有多个签名信息与多个第三标签之间对应关系的签名库。

另外,在识别模块13利用预设的数据库确定至少一个与特征标识信息相匹配的目标信息时,识别模块13可以用于执行:将特征标识信息与数据库中存储的所有标准特征信息进行分析比较,获得特征标识信息与每个标准特征信息之间的相似度;将相似度大于或等于预设的相似度阈值的至少一个标准特征信息确定为目标信息。

可选地,该装置中的识别模块13还可以用于执行:在特征标识信息与每个标准特征信息之间的相似度信息均小于相似度阈值时,则根据特征标识信息中的其他信息来确定至少一个用于识别短信的标签信息。

可选地,在根据特征标识信息确定至少一个用于识别短信的标签信息之后,提取模块12还用于提取短信字符串的所有特征标识信息;

此时,该装置中还可以包括存储模块14,该存储模块14用于在所有特征标识信息中包括未存储于数据库中的未入库信息时,则将未入库信息与标签信息相对应,并存储至数据库中。

可选地,获取模块11在获取待识别的短信字符串之前,还可以用于获取预先设置的多个短信样本字符串以及与每个短信样本字符串所对应的样本标签;

此时,提取模块12,还用于提取每个短信样本字符串的样本特征标识信息,样本特征标识信息包括:字符串模板、字符串特征和签名信息;

存储模块14,还用于将样本特征标识信息与样本标签相对应,并存储至预先设置的数据库中。

可选地,本实施例中识别模块13还用于执行:根据标签信息识别短信是否合法;在短信合法时,则按照预设的调度规则发送短信;或者,在短信非法时,则拦截短信。

可选地,在特征标识信息包括字符串模板时,提取模块12提取短信字符串的特征标识信息时,提取模块12可以用于执行:去除短信字符串中的第一类信息,获得短信字符串的字符串模板,第一类信息包括以下至少之一:地址、姓名、昵称、密码、订单号;或者,去除短信字符串中的第二类信息,获得短信字符串的字符串模板,第二类信息包括以下至少之一:数字、字母、地址库、姓名库、昵称库;或者,去除短信字符串中的第三类信息,获得短信字符串的字符串模板,第三类信息包括以下至少之一:数字、字母、符号。

可选地,在识别模块13根据特征标识信息确定至少一个用于识别短信的标签信息时,该识别模块13用于执行:根据字符串模板确定至少一个用于识别短信的第一标签信息;和/或,根据字符串特征确定至少一个用于识别短信的第二标签信息;和/或,根据签名信息确定至少一个用于识别短信的第三标签信息;按照预设的标签原则对第一标签信息和/或第二标签信息和/或第三标签信息进行处理,确定至少一个用于识别短信的最终标签信息。

图7所示装置可以执行图1-图6所示实施例的方法,本实施例未详细描述的部分,可参考对图1-图6所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1-图6所示实施例中的描述,在此不再赘述。

在一个可能的设计中,图7所示短信的识别装置的结构可实现为一电子设备,该电子设备可以是手机、平板电脑、服务器等各种设备。如图8所示,该电子设备可以包括:处理器21和存储器22。其中,存储器22用于存储支持电子设备执行上述图1-图6所示实施例中提供的短信的识别方法的程序,处理器21被配置为用于执行存储器22中存储的程序。

程序包括一条或多条计算机指令,其中,一条或多条计算机指令被处理器21执行时能够实现如下步骤:

获取待识别的短信字符串;

提取短信字符串的特征标识信息;

根据特征标识信息确定至少一个用于识别短信的标签信息。

可选地,处理器21还用于执行前述图1-图6所示实施例中的全部或部分步骤。

其中,电子设备的结构中还可以包括通信接口23,用于电子设备与其他设备或通信网络通信。

另外,本发明实施例提供了一种计算机存储介质,用于储存电子设备所用的计算机软件指令,其包含用于执行上述图1-图6所示方法实施例中短信的识别方法所涉及的程序。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程设备的处理器以产生一个机器,使得通过计算机或其他可编程设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。


技术特征:

1.一种短信的识别方法,其特征在于,包括:

获取待识别的短信字符串;

提取所述短信字符串的特征标识信息;

根据所述特征标识信息确定至少一个用于识别所述短信的标签信息。

2.根据权利要求1所述的方法,其特征在于,

所述特征标识信息包括以下至少之一:字符串模板、字符串特征、签名信息。

3.根据权利要求2所述的方法,其特征在于,根据所述特征标识信息确定至少一个用于识别所述短信的标签信息,包括:

利用预设的数据库确定至少一个与所述特征标识信息相匹配的目标信息;

获取与所述目标信息相对应的目标标签;

将至少一个所述目标标签确定为至少一个所述标签信息。

4.根据权利要求3所述的方法,其特征在于,

所述数据库包括以下至少之一:存储有多个字符串模板与多个第一标签之间对应关系的模板库、存储有多个字符串特征与多个第二标签之间对应关系的特征库、存储有多个签名信息与多个第三标签之间对应关系的签名库。

5.根据权利要求3所述的方法,其特征在于,利用预设的数据库确定至少一个与所述特征标识信息相匹配的目标信息,包括:

将所述特征标识信息与所述数据库中存储的所有标准特征信息进行分析比较,获得所述特征标识信息与每个标准特征信息之间的相似度;

将所述相似度大于或等于预设的相似度阈值的至少一个标准特征信息确定为所述目标信息。

6.根据权利要求5所述的方法,其特征在于,所述方法还包括:

在所述特征标识信息与每个标准特征信息之间的相似度信息均小于相似度阈值时,则根据所述特征标识信息中的其他信息来确定至少一个用于识别所述短信的标签信息。

7.根据权利要求1-6中任意一项所述的方法,其特征在于,在根据所述特征标识信息确定至少一个用于识别所述短信的标签信息之后,所述方法还包括:

提取所述短信字符串的所有特征标识信息;

在所有特征标识信息中包括未存储于数据库中的未入库信息时,则将所述未入库信息与所述标签信息相对应,并存储至所述数据库中。

8.根据权利要求1-6中任意一项所述的方法,其特征在于,在获取待识别的短信字符串之前,所述方法还包括:

获取预先设置的多个短信样本字符串以及与每个短信样本字符串所对应的样本标签;

提取每个短信样本字符串的样本特征标识信息,所述样本特征标识信息包括:字符串模板、字符串特征和签名信息;

将所述样本特征标识信息与所述样本标签相对应,并存储至预先设置的数据库中。

9.根据权利要求1-6中任意一项所述的方法,其特征在于,所述标签信息至少包括:用于标识所述短信的所属行业的第一标签信息和用于标识所述短信的应用意图的第二标签信息。

10.根据权利要求1-6中任意一项所述的方法,其特征在于,所述方法还包括:

根据所述标签信息识别所述短信是否合法;

在所述短信合法时,则按照预设的调度规则发送所述短信;或者,

在所述短信非法时,则拦截所述短信。

11.根据权利要求2-6中任意一项所述的方法,其特征在于,在所述特征标识信息包括字符串模板时,提取所述短信字符串的特征标识信息,包括:

去除所述短信字符串中的第一类信息,获得所述短信字符串的字符串模板,所述第一类信息包括以下至少之一:地址、姓名、昵称、密码、订单号;或者,

去除所述短信字符串中的第二类信息,获得所述短信字符串的字符串模板,所述第二类信息包括以下至少之一:数字、字母、地址库、姓名库、昵称库;或者,

去除所述短信字符串中的第三类信息,获得所述短信字符串的字符串模板,所述第三类信息包括以下至少之一:数字、字母、符号。

12.根据权利要求2-6中任意一项所述的方法,其特征在于,根据所述特征标识信息确定至少一个用于识别所述短信的标签信息,包括:

根据所述字符串模板确定至少一个用于识别所述短信的第一标签信息;和/或,

根据所述字符串特征确定至少一个用于识别所述短信的第二标签信息;和/或,

根据所述签名信息确定至少一个用于识别所述短信的第三标签信息;

按照预设的标签原则对所述第一标签信息和/或第二标签信息和/或第三标签信息进行处理,确定至少一个用于识别所述短信的最终标签信息。

13.一种短信的识别方法,其特征在于,应用于群发短信,包括:

获取待识别的短信字符串;

提取所述短信字符串的特征标识信息;

根据所述特征标识信息确定至少一个用于识别所述短信的标签信息。

14.根据权利要求13所述的方法,其特征在于,所述群发短信包括商户向用户群发的短信。

15.一种短信的识别装置,其特征在于,包括:

获取模块,用于获取待识别的短信字符串;

提取模块,用于提取所述短信字符串的特征标识信息;

识别模块,用于根据所述特征标识信息确定至少一个用于识别所述短信的标签信息。

16.一种电子设备,其特征在于,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如权利要求1至12中任一项所述的短信的识别方法。

17.一种短信的识别装置,其特征在于,应用于群发短信,包括:

获取模块,用于获取待识别的短信字符串;

提取模块,用于提取所述短信字符串的特征标识信息;

识别模块,用于根据所述特征标识信息确定至少一个用于识别所述短信的标签信息。

18.一种电子设备,其特征在于,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如权利要求13至14中任一项所述的短信的识别方法。

技术总结
本发明实施例提供一种短信的识别方法、装置及设备,方法包括:获取待识别的短信字符串;提取所述短信字符串的特征标识信息;根据所述特征标识信息确定至少一个用于识别所述短信的标签信息。通过提取待识别的短信字符串的特征标识信息,并根据所述特征标识信息确定至少一个用于识别所述短信的标签信息,实现了自动对短信进行识别审核,无需人工干预,减少了人工审核所带来的影响,进而保证了审核质量和效率,提高了用户的良好体验性,有效地提高了该方法使用的智能化程度。

技术研发人员:张翅飞;邱俊凯
受保护的技术使用者:阿里巴巴集团控股有限公司
技术研发日:2018.11.30
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-23918.html

最新回复(0)