本公开涉及文本分类领域,尤其涉及一种文本分类方法、装置及介质。
背景技术:
目前的文本处理业务中经常需要设置大量规则文本对内容进行管理,规则文本包括关键词、短语、句子、正则表达式等。同时,对于这些规则文本需要维护对应的分类信息,用来表示规则文本过滤得到的数据所对应的类别归属,便于运营人员对数据进行后续处理,包括日志统计、数据报表、规则纠错、以及对不同类别的数据交由不同的数据处理通道进行处理等,规则文本分类的准确性将在很大程度上影响后续数据处理流程的效果,并进一步影响业务系统的运营效率。
目前,规则表的分类可以通过人工分类和自动分类两种方法来实现。
人工分类的方法,依赖于业务人员对规则表和类别体系的理解,并需要统一分类标准,针对规则表的更新以及类别体系的调整,需要及时对业务人员进行培训。在实际的业务运营中,经常是由多个业务人员同时进行维护,经常会出现不同业务人员对分类标准认识不一致导致分类错误的情况。而且,在业务运营过程中,通过用户反馈、日志跟踪、系统巡检等多种方式,发现需要过滤的数据后,会由运营人员对规则表进行人工更新,经过长时间积累后,规则文本一般规模都比较大,导致难以依赖人工来进行规则分类。
自动分类的方法,一般是通过文本分析抽取规则表的文本特征,然后采用合适的分类算法来实现。针对短文本和长文本,需要采用不同的特征抽取方法。由于规则表组成结构比较复杂,包含关键词、短语、句子、正则表达式等多种形式的文本,较难用统一的方法来实现,不同长度的规则文本导致特征表示不一致,从而会影响分类的准确性。同时,传统分类方法中需要一定规模的人工标注数据,通过标注的训练数据来抽取基于词典的特征,然而由于规则表与长文本文章内容不同,词的分布非常稀疏,使得标注的训练数据难以覆盖到大多数词,从而当规则表中一旦出现新的关键词时,会导致未登录词情况发生,使得规则文本的特征表达失效,直接影响分类算法的准确性。
相关技术中,对于未登录词,可以通过计算未登录词的上下文与每个类别的上下文之间的相似度,来确定未登录词所属的类别。这种方法需要依赖于同义词词典,并且要求同义词具有类别属性。而在业务中类别体系复杂,并没有相对应的现成可用的同义词词典。另外,相关技术中确定未登录词所属的类别时,所依据的上下文信息,在连续句子、文章等业务场景下适用,但不适用于规则文本,因为规则文本大多是关键词、短语片段,没有对应的上下文信息。
技术实现要素:
为克服相关技术中存在的问题,本文提供一种文本分类方法、装置及介质。
根据本文实施例的第一方面,提供了一种文本分类方法,包括:
根据字典确定目标文本的构成方式;
根据所述构成方式对应的词向量生成方法生成所述目标文本的词向量;
根据所述目标文本的词向量和样本映射集合对所述目标文本进行分类;
其中,所述样本词映射集合包括多个子集合,每个子集合包括多个样本词与词向量的一一映射关系,不同子集合包含的样本词属于不同的类别,所述样本词映射集合中所有词向量的维度相同;所述字典是所述样本词映射集合中所有样本词的子集。
在另一实施例中,所述根据字典确定目标文本的构成方式,包括:确定所述目标文本是所述字典中一样本词时,确定所述目标文本的构成方式为第一方式;
所述第一方式对应的词向量生成方法,包括:查询所述样本词映射集合中的一一映射关系确定所述目标文本对应的词向量。
在另一实施例中,所述根据字典确定目标文本的构成方式,包括:确定所述目标文本不是所述字典中的样本词,在所述目标文本的长度大于或等于设定长度时,确定所述目标文本的构成方式为第二方式;
所述第二方式对应的词向量生成方法,包括:对所述目标文本进行分词操作后获得至少一个有效组成词,从所述有效组成词中选择出属于所述字典的有效组成词,查询样本词映射集合中的一一映射关系确定选择出的有效组成词对应的词向量,根据每个选择出的有效组成词对应的词向量确定目标文本对应的词向量。
在另一实施例中,所述根据字典确定目标文本的构成方式,包括:确定所述目标文本不是所述字典中的样本词,在所述目标文本的长度小于设定长度时,确定所述目标文本的构成方式为第三方式;
所述第三方式对应的词向量生成方法,包括:对所述目标文本分别进行至少一种滑动窗口式拆分,不同的滑动窗口的窗长不同,从使用各滑动窗口式拆分后得到的单元词中选择出属于所述字典的单元词,查询所述样本词映射集合中的一一映射关系确定选择出的所有单元词对应的词向量,根据选择出的所有单元词对应的词向量确定所述目标文本对应的词向量。
在另一实施例中,所述至少一种滑动窗口式拆分中使用的滑动窗口的长度是从1字符长度至m字符长度中的n种字符长度,m是大于1的整数,n小于或等于m。
在另一实施例中,使用所述目标文本的词向量和样本映射集合对所述目标文本进行分类,包括:计算所述目标文本的词向量与所述样本映射集合中的词向量的相似度,根据所述相似度确定所述目标文本所属的类别。
根据本文实施例的第二个方面,提供了一种文本分类装置,包括:
第一确定模块,根据字典确定目标文本的构成方式;
生成模块,用于根据所述构成方式对应的词向量生成方法生成所述目标文本的词向量;
分类模块,用于根据所述目标文本的词向量和样本映射集合对所述目标文本进行分类;
其中,所述样本词映射集合包括多个子集合,每个子集合包括多个样本词与词向量的一一映射关系,不同子集合包含的样本词属于不同的类别,所述样本词映射集合中所有词向量的维度相同;所述字典是所述样本词映射集合中所有样本词的子集。
在一种实施方式中,所述第一确定模块,包括:
第二确定模块,用于确定所述目标文本是所述字典中一样本词时,确定所述目标文本的构成方式为第一方式;
所述生成模块包括:
第一执行模块,用于根据所述第一方式对应的词向量生成方法生成所述目标文本的词向量;
所述第一执行模块,包括:
第一查询模块,用于查询所述样本词映射集合中的一一映射关系确定所述目标文本对应的词向量。
在一种实施方式中,所述第一确定模块,包括:
第三确定模块,用于确定所述目标文本不是所述字典中的样本词,在所述目标文本的长度大于或等于设定长度时,确定所述目标文本的构成方式为第二方式;
所述生成模块包括:
第二执行模块,用于根据所述第二方式对应的词向量生成方法生成所述目标文本的词向量;
所述第二执行模块,包括:
分词模块,用于对所述目标文本进行分词操作后获得至少一个有效组成词;
第一选择模块,用于从所述有效组成词中选择出属于所述字典的有效组成词;
第二查询模块,用于查询样本词映射集合中的一一映射关系确定选择出的有效组成词对应的词向量;
第四确定模块,用于根据每个选择出的有效组成词对应的词向量确定目标文本对应的词向量。
在一种实施方式中,所述第一确定模块,包括:
第四确定模块,用于确定所述目标文本不是所述字典中的样本词,在所述目标文本的长度小于设定长度时,确定所述目标文本的构成方式为第三方式;
所述生成模块包括:
第三执行模块,用于根据所述第三方式对应的词向量生成方法生成所述目标文本的词向量;
所述第三执行模块,包括:
拆分模块,用于对所述目标文本分别进行至少一种滑动窗口式拆分,不同的滑动窗口的窗长不同;
第二选择模块,用于从使用各滑动窗口式拆分后得到的单元词中选择出属于所述字典的单元词;
第三查询模块,用于查询所述样本词映射集合中的一一映射关系确定选择出的所有单元词对应的词向量;
第五确定模块,用于根据选择出的所有单元词对应的词向量确定所述目标文本对应的词向量。
在一种实施方式中,所述至少一种滑动窗口式拆分中使用的滑动窗口的长度是从1字符长度至m字符长度中的n种字符长度,m是大于1的整数,n小于或等于m。
在一种实施方式中,所述分类模块,包括:
计算模块,用于计算所述目标文本的词向量与所述样本映射集合中的词向量的相似度;
确定模块,根据所述相似度确定所述目标文本所属的类别。
根据本文实施例的第三方面,提供了一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种文本分类方法,所述方法包括:
根据字典确定目标文本的构成方式;
根据所述构成方式对应的词向量生成方法生成所述目标文本的词向量;
根据所述目标文本的词向量和样本映射集合对所述目标文本进行分类;
其中,所述样本词映射集合包括多个子集合,每个子集合包括多个样本词与词向量的一一映射关系,不同子集合包含的样本词属于不同的类别,所述样本词映射集合中所有词向量的维度相同;所述字典是所述样本词映射集合中所有样本词的子集。
本文的实施例提供的技术方案可以包括以下有益效果:基于字典和样本映射集合,将不同长度的目标文本映射到相同维度的向量空间上,实现表示层上的统一,使得不同长度的目标文本都可以通过同一个分类算法实现分类,可以有效提高分类的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本文。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本文的实施例,并与说明书一起用于解释本文的原理。
图1是根据一示例性实施例示出的一种文本分类方法的流程图;
图2是根据一示例性实施例示出的图1所示的步骤s13中第二方式对应的词向量生成方法的流程图;
图3是根据一示例性实施例示出的图1所示的步骤s13中第三方式对应的词向量生成方法的流程图;
图4是根据一示例性实施例示出的一种文本分类方法的流程图;
图5是根据一示例性实施例示出的一种文本分类装置的结构图;
图6是根据一示例性实施例示出的一种文本分类装置的结构图;
图7是根据一示例性实施例示出的一种文本分类装置的结构图;
图8是根据一示例性实施例示出的一种文本分类装置的结构图;
图9是根据一示例性实施例示出的一种文本分类装置的结构图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本文相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本文的一些方面相一致的装置和方法的例子。
本文用于针对目标文本进行分类,此目标文本是业务规则,业务内容,技术内容,网络交互内容等等。
本文实施例提供了一种文本分类方法。参照图1,图1是根据一示例性实施例示出的文本分类方法的流程图。如图1所示,此文本分类方法包括:
步骤s11,根据字典确定目标文本的构成方式。
步骤s12,根据构成方式对应的词向量生成方法生成目标文本的词向量。
步骤s13,根据目标文本的词向量和样本映射集合对目标文本进行分类。
其中,样本词映射集合包括多个子集合,每个子集合包括多个样本词与词向量的一一映射关系,不同子集合包含的样本词属于不同的类别,样本词映射集合中所有词向量的维度相同;所述字典是样本词映射集合中所有样本词的子集。
其中,样本词映射集合中所有样本词的子集是指样本词映射集合中所有样本词的一部分或者是样本词映射集合中所有样本词。
样本词包含的字数是1个,或者是2个或者是2个以上,即样本词是字、或者是词组。样本词映射集合中的类别是根据预设的通用类别划分得到的,或者是根据自定义的方式确定的。
举例说明:
样本映射集合包括50个类别,通过以下四种举例说明:
手机屏类别,此类别下包括以下一对一映射关系:
触摸屏——向量101,折叠屏——向量102,曲面屏——向量103,柔性屏——向量104,屏幕——向量105,……等。
通信设备类别,此类别下包括以下一对一映射关系:
移动终端——向量201,手机——向量202,路由器——向量203,基站——向量204,机顶盒——向量205,……等。
网络热度类别,此类别下包括以下一对一映射关系:
流量——向量301,点击量——向量302,转发量——向量303,粉丝数304,点赞——向量305,……等。
字典包括样本映射集合中的样本词,例如包括:触摸屏,折叠屏,曲面屏,柔性屏,移动终端,手机,路由器,基站,流量,点击量,转发量,粉丝数。
本方法中基于字典和样本映射集合,将不同长度的目标文本映射到相同维度的向量空间上,实现表示层上的统一,使得不同长度的目标文本都可以通过同一个分类算法实现分类,可以有效提高分类的准确性。
本文实施例提供了一种文本分类方法。在此方法中,还包括获得样本映射集合的方法,此样本映射集合是直接获取到的已预设好的样本映射集合,或者,通过人工干预结合自动扩展词的方法获得样本映射集合,具体包括:
步骤1,针对每个类别,人工挑选出多个种子词,为了保证分类效果,为每个类别挑选第一数量(例如50个)种子词。
步骤2,根据种子词进行扩展,获得预设数量的近义词。
步骤3,将每个类别下所有种子词的相似词进行合并,并去除重复的样本词,得到每个类别的样本词集合。
步骤4,确定每个类别的样本词集合中每个样本词的词向量,最终构成样本映射集合。其中,设置各样本词的向量具有相同的维度,例如维度均为40维。
其中,步骤2中根据种子词进行扩展包括以下方式中的任一种:
方式一,确定所有种子词对应的词向量,通过词向量计算种子词与其他候选词的相似度,然后对相似度进行排序,提取每个种子词的相似度较大的预设数量的相似词来实现扩展。
方式二,查询近义词表(如同义词词林、wordnet等公开的近义词词表),在词表中查询种子词的近义词,对每个种子词挑选预设数量的近义词,然后对这些词进行合并去重。
方式二与方式一的主要区别在于种子词扩展过程中候选词的相似度计算方法不同,并且计算复杂度不同。方式一中基于词向量来计算种子词与其他候选词的相似度,该方法计算复杂度较高,但是计算过程中使用的词向量与后续分类算法使用的词向量是同样的向量空间,前后一致性较强。而方式二中是通过查表的方式,在近义词表中直接查询种子词的近义词,该方法计算复杂度较低,而且近义词表是人工维护的,与方法的应用场景中的数据分布不一定一致,效果稳定性低于方式一。
为了使方式一和方式二的方法均能使所有样本词的词向量的维度相同,需要在步骤4中确定每个类别的样本词集合中每个样本词的词向量时,使每个样本词的词向量的维度相同。
本文实施例还提供了一种文本分类方法。在此方法中,图1所示的步骤s11中根据字典确定目标文本的构成方式,包括:确定目标文本是字典中一样本词时,确定目标文本的构成方式为第一方式。图1所示的步骤s13中第一方式对应的词向量生成方法,包括:查询样本词映射集合中的一一映射关系确定目标文本对应的词向量。
其中,确定目标文本是字典中一样本词包括:使用目标文本与字典中的每个样本词进行逐个比对,匹配到完全相同的,认为目标文本是字典中一样本词,未匹配到完全相同的,认为目标文本不是字典中一样本词。
举例如下:
目标文本为“曲面屏”,使用目标文本与字典中的每个样本词进行逐个比对,匹配到完全相同的,即字典中包括曲面屏。查询样本词映射集合中的一一映射关系确定目标文本对应的词向量为向量103,将此向量103作为目标文本的词向量。
本文实施例还提供了一种文本分类方法。在此方法中,图1所示的步骤s11中根据字典确定目标文本的构成方式,包括:确定目标文本不是字典中的样本词,在目标文本的长度大于或等于设定长度时,确定目标文本的构成方式为第二方式。
参照图2,图2是本文实施例提供的图1所示的步骤s13中第二方式对应的词向量生成方法的流程图,如图2所示,此方法包括:
步骤s21,目标文本进行分词操作后获得至少一个有效组成词;
步骤s22,从所述有效组成词中选择出属于所述字典的有效组成词;
步骤s23,查询样本词映射集合中的一一映射关系确定选择出的有效组成词对应的词向量;
步骤s24,根据每个选择出的有效组成词对应的词向量确定目标文本对应的词向量。
其中,对目标文本进行分词操作后获得至少一个有效组成词包括:对目标文本进行分词操作,获得组成词集合,从所述组成词集合中去除无效词(无效词为虚词、助词等),获得有效组成词。
根据选择出的每个有效组成词对应的词向量确定目标文本对应的词向量,包括:计算每个选择出的有效组成词对应的词向量的平均向量,将平均向量作为目标文本对应的词向量,或者,计算每个有效组成词对应的词向量的加权平均向量,将加权平均向量作为目标文本对应的词向量。其中,计算每个有效组成词对应的词向量的加权平均向量时,不同的有效组成词对应的权重不同,例如预先设定一部分较为基础性或者使用频率高的样本词的权重较大。
举例如下:
设定长度为6个字,目标文本为:“样机的屏幕是曲面屏”。判断此目标文本的构成方式是第二方式后,对目标文本进行分词操作,获得组成词集合,此组成词集合包括:样机、的、屏幕、是、曲面屏。从组成词集合中去除无效词,获得有效组成词,包括:样机、屏幕、曲面屏。最终根据此组成词确定出的目标文本的类别为手机屏。
本文实施例还提供了一种文本分类方法。在此方法中,图1所示的步骤s11中根据字典确定目标文本的构成方式,包括:确定目标文本不是字典中的样本词,在目标文本的长度小于设定长度时,确定目标文本的构成方式为第三方式。
参照图3,图3是本文实施例提供的图1所示的步骤s13中第三方式对应的词向量生成方法的流程图,如图3所示,此方法包括:
步骤s31,对目标文本分别进行至少一种滑动窗口式拆分,不同的滑动窗口的窗长不同;
步骤s32,从使用各滑动窗口式拆分后得到的单元词中选择出属于所述字典的单元词;
步骤s33,查询所述样本词映射集合中的一一映射关系确定选择出的所有单元词对应的词向量;
步骤s34,根据选择出的所有单元词对应的词向量确定所述目标文本对应的词向量。
其中,至少一种滑动窗口式拆分中使用的滑动窗口的长度是从1字符长度至m字符长度中的n种字符长度,m是大于1的整数,n小于或等于m。其中使到n种平滑窗口,即长度从1字符至m字符的m种平滑窗口中的n种。例如包括:1字符平滑窗口、2字符平滑窗口、3字符平滑窗口。再例如:包括1字符平滑窗口和3字符平滑窗口。
根据选择出的所有单元词对应的词向量确定所述目标文本对应的词向量,包括:计算选择出的所有单元词对应的词向量的平均向量,将平均向量作为目标文本对应的词向量,或者,计算选择出的所有单元词对应的词向量的加权平均向量,将加权平均向量作为目标文本对应的词向量。其中,计算选择出的所有单元词对应的词向量的加权平均向量时,不同的单元词对应的权重不同,例如预先设定一部分较为基础性或者使用频率高的样本词的权重较大。
举例如下:
设定长度为6个字,目标文本为:“屏幕是曲面屏”。判断此目标文本的构成方式是第三方式后,分别使用1字符平滑窗口、2字符平滑窗口、3字符平滑窗口分别对目标文本进行分词操作。使用1字符平滑窗口目标文本进行分词操作后获得的单元词包括:屏、幕、是、曲、面、屏。使用2字符平滑窗口目标文本进行分词操作后获得的单元词包括:屏幕、幕是、是曲、曲面、面屏。使用3字符平滑窗口目标文本进行分词操作后获得的单元词包括:屏幕是、幕是曲、是曲面、曲面屏。从使用各滑动窗口式拆分后得到的单元词中选择出属于字典的单元词,包括:屏幕、曲面屏。最终根据此单元词确定出的目标文本的类别为手机屏。
本方法针对第三方式使用的多个平滑窗口的方式,可以实现在相同维度向量空间上对第三方式的文本进行向量表示,从而进行后续可与第一方式和第二方式相兼容的分类方法。
本文实施例还提供了一种文本分类方法。在此方法中,图1所示的步骤s13中根据目标文本的词向量和样本映射集合对所述目标文本进行分类,包括:计算目标文本的词向量与样本映射集合中的词向量的相似度,确定样本映射集合中符合相似度条件的词向量,根据符合相似度条件的词向量的类别确定所述目标文本所属的类别。
其中,计算目标文本的词向量与样本映射集合中的词向量的相似度的方法有多种,例如通过计算两者距离的方式,此距离是欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、马氏距离、汉明距离等;例如通过分类算法计算目标文本的词向量与样本映射集合中的词向量的相似度。
分类算法是用于对向量进行分类的算法,例如k最近邻(knn,k-nearestneighbor)分类算法。所谓k最近邻,就是指k个最近的邻居的意思,表示每个样本都可以用它最接近的k个邻居来代表。knn算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。knn方法在类别决策时,只与极少量的相邻样本有关。由于knn方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的。
在使用knn分类算法时,计算目标文本的词向量与样本映射集合中的每个词向量的相似度,对相似度进行排序,设置knn分类方法中的k值为预设值(例如20),从上述排序中确定排位最前的k个词向量,确定此k个词向量对应的样本词所属的类别,将k个样本词对应的k个类别中相同类别的数量最多的类别作为目标文本所属的类别。
下面通过一具体实施例进行详细说明。
具体实施例:
本具体实施例中,需要处理的目标文本是待处理规则,例如此处理规则是关于移动终端的处理规则。
参照图4,图4是具体实施例中的文本分类方法的流程图。如图4所示,此文本分类方法包括样本映射集合生成过程s4-1和分类过程s4-2。
样本映射集合生成过程s4-1包括步骤s411至步骤s415:
步骤s411,针对每个类别挑选出多个种子词,为了保证分类效果,为每个类别挑选50个种子词。
步骤s412,对种子词进行扩展获得相似词,对每个种子词获得多个(例如10个)近义词,将每个类别下的相似词作为样本词,得到每个类别对应的多个(例如500个)样本词。
获取近义词时,通过词向量计算种子词与其他候选词的相似度,然后对相似度进行排序,提取每个种子词的相似度较大的预设数量的相似词来实现扩展。
步骤s413,将每个类别下所有种子词的相似词进行合并,并去除重复的样本词,得到每个类别的样本词集合。
步骤s414,确定每个类别的样本词集合中每个样本词的词向量,最终构成样本映射集合,每个样本词的向量的维度均相同(例如40维)。
步骤s415,确定字典,此字典包括样本映射集合中的样本词。
分类过程s4-2包括步骤s421至步骤s437:
步骤s421,将待处理规则与字典中每个词进行匹配。
步骤s422,判断待处理规则是否命中字典,即判断待处理规则是否是字典中一个词,如果是,转到步骤s423,如果否,转到步骤s425。
步骤s423,确定待处理规则的构成方式为第一类型构成方式(或称为词语型构成方式)。
步骤s424,生成待处理规则的词向量,具体为查询样本词映射集合中的一一映射关系确定待处理规则对应的词向量,转到步骤s436。
步骤s425,确定待处理规则的长度,即待处理规则包含的字数。
步骤s426,判断待处理规则的长度是否大于预设长度(例如6),如果是,转到步骤s427,如果否,转到步骤s432。
步骤s427,确定待处理规则的构成方式为第二类型构成方式(或称为短语型构成方式)。
步骤s428,对待处理规则进行分词操作获得多个有效组成词;
步骤s429,从多个有效组成词中选择出属于字典的有效组成词。
步骤s430,查询样本词映射集合中的一一映射关系确定选择出的有效组成词对应的词向量。
步骤s431,通过加权平均操作生成待处理规则的词向量,即计算选择出的有效组成词的词向量的平均向量,将此平均向量作为待处理规则的词向量,跳转到步骤s436。
步骤s432,确定待处理规则的构成方式为第三类型构成方式(或称为未登录词型构成方式)。
步骤s433,对待处理规则进行三种滑动窗口式拆分;例如:第一种滑动窗口的长度为1字符,第二种滑动窗口的长度为2字符,第三种滑动窗口的长度为3字符。
步骤s434,从通过三种滑动窗口拆分出的单元词中选择出属于所述字典的单元词,将拆分出的单元词中不属于所述字典的单元词丢弃。
步骤s435,通过加权平均操作生成待处理规则的词向量,即计算选择出的所有单元词对应的词向量的平均向量,将此平均向量作为待处理规则的词向量。
步骤s436,根据knn分类方式使用待处理规则的词向量和样本映射集合确定待处理规则的类别。
步骤s437,输出类别。
本文实施例还提供了一种文本分类装置。参照图5,图5是根据一示例性实施例示出的文本分类装置的结构图。如图5所示,此文本分类装置包括:
第一确定模块501,根据字典确定目标文本的构成方式;
生成模块502,用于根据所述构成方式对应的词向量生成方法生成所述目标文本的词向量;
分类模块503,用于根据所述目标文本的词向量和样本映射集合对所述目标文本进行分类;
其中,所述样本词映射集合包括多个子集合,每个子集合包括多个样本词与词向量的一一映射关系,不同子集合包含的样本词属于不同的类别,所述样本词映射集合中所有词向量的维度相同;所述字典是所述样本词映射集合中所有样本词的子集。
本文实施例还提供了一种文本分类装置。在此装置中,第一确定模块501,包括:第二确定模块,用于确定所述目标文本是所述字典中一样本词时,确定所述目标文本的构成方式为第一方式。
生成模块502包括:第一执行模块,用于根据所述第一方式对应的词向量生成方法生成所述目标文本的词向量。
第一执行模块,包括:第一查询模块,用于查询所述样本词映射集合中的一一映射关系确定所述目标文本对应的词向量。
本文实施例还提供了一种文本分类装置。参照图6,图6是根据一示例性实施例示出的文本分类装置的结构图。如图6所示,此装置中第一确定模块501,包括:第三确定模块601,用于确定所述目标文本不是所述字典中的样本词,在所述目标文本的长度大于或等于设定长度时,确定所述目标文本的构成方式为第二方式。
生成模块502包括:第二执行模块602,用于根据所述第二方式对应的词向量生成方法生成所述目标文本的词向量。
第二执行模块602,包括:
分词模块603,用于对所述目标文本进行分词操作后获得至少一个有效组成词;
第一选择模块604,用于从所述有效组成词中选择出属于所述字典的有效组成词;
第二查询模块605,用于查询样本词映射集合中的一一映射关系确定选择出的有效组成词对应的词向量;
第四确定模块606,用于根据每个选择出的有效组成词对应的词向量确定目标文本对应的词向量。
本文实施例还提供了一种文本分类装置。参照图7,图7是根据一示例性实施例示出的文本分类装置的结构图。如图7所示,此装置中第一确定模块501,包括:第四确定模块701,用于确定所述目标文本不是所述字典中的样本词,在所述目标文本的长度小于设定长度时,确定所述目标文本的构成方式为第三方式。
生成模块502包括:第三执行模块702,用于根据所述第三方式对应的词向量生成方法生成所述目标文本的词向量。
第三执行模块702,包括:
拆分模块703,用于对所述目标文本分别进行至少一种滑动窗口式拆分,不同的滑动窗口的窗长不同;
第二选择模块704,用于从使用各滑动窗口式拆分后得到的单元词中选择出属于所述字典的单元词;
第三查询模块705,用于查询所述样本词映射集合中的一一映射关系确定选择出的所有单元词对应的词向量;
第五确定模块706,用于根据选择出的所有单元词对应的词向量确定所述目标文本对应的词向量。
所述至少一种滑动窗口式拆分中使用的滑动窗口的长度是从1字符长度至m字符长度中的n种字符长度,m是大于1的整数,n小于或等于m。
本文实施例还提供了一种文本分类装置。参照图8,图8是根据一示例性实施例示出的文本分类装置的结构图。如图8所示,分类模块503,包括:
计算模块801,用于计算所述目标文本的词向量与所述样本映射集合中的词向量的相似度;
第六确定模块802,根据所述相似度确定所述目标文本所属的类别。
本文实施例还提供了一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种文本分类方法,所述方法包括:
根据字典确定目标文本的构成方式;
根据所述构成方式对应的词向量生成方法生成所述目标文本的词向量;
根据所述目标文本的词向量和样本映射集合对所述目标文本进行分类;
其中,所述样本词映射集合包括多个子集合,每个子集合包括多个样本词与词向量的一一映射关系,不同子集合包含的样本词属于不同的类别,所述样本词映射集合中所有词向量的维度相同;所述字典是所述样本词映射集合中所有样本词的子集。
图9是根据一示例性实施例示出的一种文本分类装置900的框图。例如,装置900可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图9,装置900可以包括以下一个或多个组件:处理组件902,存储器904,电力组件906,多媒体组件908,音频组件910,输入/输出(i/o)的接口912,传感器组件914,以及通信组件916。
处理组件902通常控制装置900的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件902可以包括一个或多个处理器920来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件902可以包括一个或多个模块,便于处理组件902和其他组件之间的交互。例如,处理组件902可以包括多媒体模块,以方便多媒体组件908和处理组件902之间的交互。
存储器904被配置为存储各种类型的数据以支持在设备900的操作。这些数据的示例包括用于在装置900上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
电力组件906为装置900的各种组件提供电力。电力组件906可以包括电源管理系统,一个或多个电源,及其他与为装置900生成、管理和分配电力相关联的组件。
多媒体组件908包括在所述装置900和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件908包括一个前置摄像头和/或后置摄像头。当设备900处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件910被配置为输出和/或输入音频信号。例如,音频组件910包括一个麦克风(mic),当装置900处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中,音频组件910还包括一个扬声器,用于输出音频信号。
i/o接口912为处理组件902和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件914包括一个或多个传感器,用于为装置900提供各个方面的状态评估。例如,传感器组件914可以检测到设备900的打开/关闭状态,组件的相对定位,例如所述组件为装置900的显示器和小键盘,传感器组件914还可以检测装置900或装置900一个组件的位置改变,用户与装置900接触的存在或不存在,装置900方位或加速/减速和装置900的温度变化。传感器组件914可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件914还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件916被配置为便于装置900和其他设备之间有线或无线方式的通信。装置900可以接入基于通信标准的无线网络,如wifi,2g或3g,或它们的组合。在一个示例性实施例中,通信组件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件916还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。
在示例性实施例中,装置900可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器904,上述指令可由装置900的处理器920执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本文的其它实施方案。本申请旨在涵盖本文的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本文的一般性原理并包括本文未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本文的真正范围和精神由下面的权利要求指出。
1.一种文本分类方法,其特征在于,包括:
根据字典确定目标文本的构成方式;
根据所述构成方式对应的词向量生成方法生成所述目标文本的词向量;
根据所述目标文本的词向量和样本映射集合对所述目标文本进行分类;
其中,所述样本词映射集合包括多个子集合,每个子集合包括多个样本词与词向量的一一映射关系,不同子集合包含的样本词属于不同的类别,所述样本词映射集合中所有词向量的维度相同;所述字典是所述样本词映射集合中所有样本词的子集。
2.如权利要求1所述的文本分类方法,其特征在于,
所述根据字典确定目标文本的构成方式,包括:确定所述目标文本是所述字典中一样本词时,确定所述目标文本的构成方式为第一方式;
所述第一方式对应的词向量生成方法,包括:查询所述样本词映射集合中的一一映射关系确定所述目标文本对应的词向量。
3.如权利要求1所述的文本分类方法,其特征在于,
所述根据字典确定目标文本的构成方式,包括:确定所述目标文本不是所述字典中的样本词,在所述目标文本的长度大于或等于设定长度时,确定所述目标文本的构成方式为第二方式;
所述第二方式对应的词向量生成方法,包括:对所述目标文本进行分词操作后获得至少一个有效组成词,从所述有效组成词中选择出属于所述字典的有效组成词,查询样本词映射集合中的一一映射关系确定选择出的有效组成词对应的词向量,根据每个选择出的有效组成词对应的词向量确定目标文本对应的词向量。
4.如权利要求1所述的文本分类方法,其特征在于,
所述根据字典确定目标文本的构成方式,包括:确定所述目标文本不是所述字典中的样本词,在所述目标文本的长度小于设定长度时,确定所述目标文本的构成方式为第三方式;
所述第三方式对应的词向量生成方法,包括:对所述目标文本分别进行至少一种滑动窗口式拆分,不同的滑动窗口的窗长不同,从使用各滑动窗口式拆分后得到的单元词中选择出属于所述字典的单元词,查询所述样本词映射集合中的一一映射关系确定选择出的所有单元词对应的词向量,根据选择出的所有单元词对应的词向量确定所述目标文本对应的词向量。
5.如权利要求4所述的文本分类方法,其特征在于,
所述至少一种滑动窗口式拆分中使用的滑动窗口的长度是从1字符长度至m字符长度中的n种字符长度,m是大于1的整数,n小于或等于m。
6.如权利要求1所述的文本分类方法,其特征在于,
使用所述目标文本的词向量和样本映射集合对所述目标文本进行分类,包括:计算所述目标文本的词向量与所述样本映射集合中的词向量的相似度,根据所述相似度确定所述目标文本所属的类别。
7.一种文本分类装置,其特征在于,包括:
第一确定模块,根据字典确定目标文本的构成方式;
生成模块,用于根据所述构成方式对应的词向量生成方法生成所述目标文本的词向量;
分类模块,用于根据所述目标文本的词向量和样本映射集合对所述目标文本进行分类;
其中,所述样本词映射集合包括多个子集合,每个子集合包括多个样本词与词向量的一一映射关系,不同子集合包含的样本词属于不同的类别,所述样本词映射集合中所有词向量的维度相同;所述字典是所述样本词映射集合中所有样本词的子集。
8.如权利要求7所述的文本分类装置,其特征在于,
所述第一确定模块,包括:
第二确定模块,用于确定所述目标文本是所述字典中一样本词时,确定所述目标文本的构成方式为第一方式;
所述生成模块包括:
第一执行模块,用于根据所述第一方式对应的词向量生成方法生成所述目标文本的词向量;
所述第一执行模块,包括:
第一查询模块,用于查询所述样本词映射集合中的一一映射关系确定所述目标文本对应的词向量。
9.如权利要求7所述的文本分类装置,其特征在于,
所述第一确定模块,包括:
第三确定模块,用于确定所述目标文本不是所述字典中的样本词,在所述目标文本的长度大于或等于设定长度时,确定所述目标文本的构成方式为第二方式;
所述生成模块包括:
第二执行模块,用于根据所述第二方式对应的词向量生成方法生成所述目标文本的词向量;
所述第二执行模块,包括:
分词模块,用于对所述目标文本进行分词操作后获得至少一个有效组成词;
第一选择模块,用于从所述有效组成词中选择出属于所述字典的有效组成词;
第二查询模块,用于查询样本词映射集合中的一一映射关系确定选择出的有效组成词对应的词向量;
第四确定模块,用于根据每个选择出的有效组成词对应的词向量确定目标文本对应的词向量。
10.如权利要求7所述的文本分类装置,其特征在于,
所述第一确定模块,包括:
第四确定模块,用于确定所述目标文本不是所述字典中的样本词,在所述目标文本的长度小于设定长度时,确定所述目标文本的构成方式为第三方式;
所述生成模块包括:
第三执行模块,用于根据所述第三方式对应的词向量生成方法生成所述目标文本的词向量;
所述第三执行模块,包括:
拆分模块,用于对所述目标文本分别进行至少一种滑动窗口式拆分,不同的滑动窗口的窗长不同;
第二选择模块,用于从使用各滑动窗口式拆分后得到的单元词中选择出属于所述字典的单元词;
第三查询模块,用于查询所述样本词映射集合中的一一映射关系确定选择出的所有单元词对应的词向量;
第五确定模块,用于根据选择出的所有单元词对应的词向量确定所述目标文本对应的词向量。
11.如权利要求10所述的文本分类装置,其特征在于,
所述至少一种滑动窗口式拆分中使用的滑动窗口的长度是从1字符长度至m字符长度中的n种字符长度,m是大于1的整数,n小于或等于m。
12.如权利要求7所述的文本分类装置,其特征在于,
所述分类模块,包括:
计算模块,用于计算所述目标文本的词向量与所述样本映射集合中的词向量的相似度;
确定模块,根据所述相似度确定所述目标文本所属的类别。
13.一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种文本分类方法,所述方法包括:
根据字典确定目标文本的构成方式;
根据所述构成方式对应的词向量生成方法生成所述目标文本的词向量;
根据所述目标文本的词向量和样本映射集合对所述目标文本进行分类;
其中,所述样本词映射集合包括多个子集合,每个子集合包括多个样本词与词向量的一一映射关系,不同子集合包含的样本词属于不同的类别,所述样本词映射集合中所有词向量的维度相同;所述字典是所述样本词映射集合中所有样本词的子集。
技术总结