本发明涉及一种基于特异性的词频加权方法及贝叶斯文本分类方法,属于人工智能数据挖掘分类
技术领域:
。
背景技术:
:朴素贝叶斯文本分类器因为其简单性和高效性经常被用来处理文本分类问题,但是它的属性独立假设在使它变得高效的同时在一定程度上影响了它的分类性能。给定一篇文档d,该文档被表示成单词向量的形式<t1,t2,…,ti,…,tm>,多项式朴素贝叶斯(mnb),补集朴素贝叶斯(cnb)和两者的结合模型(ova)分别用公式1,2和3来分类文档d。上述公式中q是文档的类别数目,cj表示第j个类别,是类别cj的补集(即除类别cj以外的其他类),m是单词的数目,ti(i=1,2,…,m)是文档d中出现的第i个单词,fi是单词ti在文档d中出现的频率,先验概率p(cj)和能够分别用公式4和5进行估计,条件概率p(ti|cj)和分别用公式6和7来估计。上述公式中n是训练文档的数目,ck是第k篇文档的类标记,fki是第k篇文档中单词ti的频率,并且δ(α,β)是一个二值函数,当α=β时取值为1,否则取值为0。尽管这些文本分类算法已经被证明了较高的性能,他们的条件独立性假设在现实中很少成立。因此通过释放它们的条件独立性来提高文本分类器的分类精度是很自然的。在向量空间模型(vsm)中,文档的内容是由所有单词的词频(tf)组成。考虑到不同的单词在文档中有着不同的重要性,词频加权是一种提高性能的有效方法。如何学习不同单词的权值在构建一个词频加权的朴素贝叶斯文本分类器中是一个关键的问题。为了学习每一个单词的词频权值,出现了基于dc(distributionalconcentration)的词频加权方法、基于bdc(balanceddistributionalconcentration)的词频加权方法、基于igm(inversegravitymoment)的词频加权方法等。为了提高igm在某些特定情况下的分类性能,出现了基于改进的igm的词频加权方法,简单记为igmimp。这些词频加权方法虽然能提高文本分类器的分类性能,但从分类结果来看还有很大的提升空间。技术实现要素:为了解决现有技术的不足,本发明提供了一种基于特异性(specificity)的词频加权方法及贝叶斯文本分类方法,改善了原来的朴素贝叶斯文本分类器分类精度,同时维持原来朴素贝叶斯算法的简洁性和时间复杂度。本发明为解决其技术问题所采用的技术方案为提供了一种基于特异性的词频加权方法,其特征在于:对于一个已知的训练文档集d,训练文档集d中的任意一篇文档d表示为单词向量形式<t1,t2,…,ti,…,tm>,其中ti为文档d中的第i个单词,m为训练文档集d中不同单词的数目;对每一个单词ti,利用以下公式计算单词ti区分文档类别的特异性(specificity),并以此作为单词ti的词频权值wi:其中,i=1,2,…,m,j=1,2,…,q,d(ti,cj)表示单词ti和类别cj都出现的文档数,表示单词ti和类别cj都不出现的文档数,表示单词ti出现但类别cj不出现的文档数,表示单词ti不出现但类别cj出现的文档数;d(ti)表示单词ti出现的总文档数,表示单词ti不出现的总文档数,d(cj)表示类别cj出现的总文档数,表示类别cj不出现的总文档数。本发明同时提出了一种依托于所述词频加权方法的多项式朴素贝叶斯文本分类方法,通过以下公式对文档d进行分类:其中,fi表示单词ti在文档d中出现的频率,为已知量;p(cj)通过以下公式计算得到:其中,n是训练文档集d中的文档数目,q是文档的类别的数目,ck是训练文档集d中第k篇文档的类标记,n、q和ck均为已知量,δ(α,β)是一个二值函数,当α=β时取值为1,否则取值为0;第一条件概率p(ti|cj,w1,w2,…,wm)通过以下公式计算得到:其中,fki表示训练文档集d中第k篇文档中出现单词ti的频率,fki为已知量。本发明同时提出了一种依托于所述词频加权方法的补集朴素贝叶斯文本分类方法,通过以下公式对文档d进行分类:其中,fi表示单词ti在文档d中出现的频率,为已知量;通过以下公式计算得到:其中,n是训练文档集d中的文档数目,δ(α,β)是一个二值函数,当α=β时取值为1,否则取值为0;第二条件概率通过以下公式计算得到:本发明同时提出了一种依托于所述词频加权方法的多项式与补集相结合的朴素贝叶斯文本分类方法,通过以下公式对文档d进行分类:其中,fi表示单词ti在文档d中出现的频率,为已知量;p(cj)和分别通过以下公式计算得到:其中,n是训练文档集d中的文档数目,q是文档的类别的数目,ck是训练文档集d中第k篇文档的类标记,n、q和ck均为已知量,δ(α,β)是一个二值函数,当α=β时取值为1,否则取值为0;第一条件概率p(ti|cj,w1,w2,…,wm)通过以下公式计算得到:其中,fki表示训练文档集d中第k篇文档中出现单词ti的频率,fki为已知量;第二条件概率通过以下公式计算得到:本发明基于其技术方案所具有的有益效果在于:本发明提出了一种基于特异性的词频加权方法,不仅能够把学习到的权值合并到朴素贝叶斯文本分类器的分类公式中,而且将学到的权值合并到条件概率估计里,不仅可以改善朴素贝叶斯文本分类器的分类性能,而且也不会招致较高的时间花费。利用依托于所述词频加权方法的多项式朴素贝叶斯文本分类方法、依托于所述词频加权方法的补集朴素贝叶斯文本分类方法,以及依托于所述词频加权方法的多项式与补集相结合的朴素贝叶斯文本分类方法分别对文本进行分类,与现有的基于dc、bdc、igm、以及igmimp的词频加权方法的文本分类方法相比,具有更高的分类精度。在大量标准且广泛使用的文本数据集上的实验结果证明了本发明提出的方法的有效性。具体实施方式下面结合实施例对本发明作进一步说明。本发明提供了一种基于特异性的词频加权方法,其特征在于:对于一个已知的训练文档集d,训练文档集d中的任意一篇文档d表示为单词向量形式<t1,t2,…,ti,…,tm>,其中ti为文档d中的第i个单词,m为训练文档集d中不同单词的数目;对每一个单词ti,利用以下公式计算单词ti区分文档类别的特异性(specificity),并以此作为单词ti的词频权值wi:其中,i=1,2,…,m,j=1,2,…,q,d(ti,cj)表示单词ti和类别cj都出现的文档数,表示单词ti和类别cj都不出现的文档数,表示单词ti出现但类别cj不出现的文档数,表示单词ti不出现但类别cj出现的文档数;d(ti)表示单词ti出现的总文档数,表示单词ti不出现的总文档数,d(cj)表示类别cj出现的总文档数,表示类别cj不出现的总文档数。本发明同时提出了一种依托于所述词频加权方法的多项式朴素贝叶斯文本分类方法,通过以下公式对文档d进行分类:其中,fi表示单词ti在文档d中出现的频率,为已知量;p(cj)通过以下公式计算得到:其中,n是训练文档集d中的文档数目,q是文档的类别的数目,ck是训练文档集d中第k篇文档的类标记,n、q和ck均为已知量,δ(α,β)是一个二值函数,当α=β时取值为1,否则取值为0;第一条件概率p(ti|cj,w1,w2,…,wm)通过以下公式计算得到:其中,fki表示训练文档集d中第k篇文档中出现单词ti的频率,fki为已知量。本发明同时提出了一种依托于所述词频加权方法的补集朴素贝叶斯文本分类方法,通过以下公式对文档d进行分类:其中,fi表示单词ti在文档d中出现的频率,为已知量;通过以下公式计算得到:其中,n是训练文档集d中的文档数目,δ(α,β)是一个二值函数,当α=β时取值为1,否则取值为0;第二条件概率通过以下公式计算得到:本发明同时提出了一种依托于所述词频加权方法的多项式与补集相结合的朴素贝叶斯文本分类方法,通过以下公式对文档d进行分类:其中,fi表示单词ti在文档d中出现的频率,为已知量;p(cj)和分别通过以下公式计算得到:其中,n是训练文档集d中的文档数目,q是文档的类别的数目,ck是训练文档集d中第k篇文档的类标记,n、q和ck均为已知量,δ(α,β)是一个二值函数,当α=β时取值为1,否则取值为0;第一条件概率p(ti|cj,w1,w2,…,wm)通过以下公式计算得到:其中,fki表示训练文档集d中第k篇文档中出现单词ti的频率,fki为已知量;第二条件概率通过以下公式计算得到:将本发明的基于特异性的词频加权方法运用到朴素贝叶斯文本分类器中。当基分类器分别是多项式朴素贝叶斯(mnb)、补集朴素贝叶斯(cnb)以及两者结合的模型(ova)时,产生的模型分别记为s-mnb、s-cnb和s-ova,这三个模型所采用的文本分类方法分别为本发明的依托于所述词频加权方法的多项式朴素贝叶斯文本分类方法、依托于所述词频加权方法的补集朴素贝叶斯文本分类方法,以及依托于所述词频加权方法的多项式与补集相结合的朴素贝叶斯文本分类方法。将现有的基于熵的词频加权方法(dc和bdc)分别运用到多项式朴素贝叶斯(mnb)、补集朴素贝叶斯(cnb)以及两者结合的模型(ova)时,产生的模型分别记为dc-mnb、dc-cnb以及dc-ova;bdc-mnb、bdc-cnb以及bdc-ova。将现有的基于igm的词频加权方法(igm和igmimp)分别运用到多项式朴素贝叶斯(mnb)、补集朴素贝叶斯(cnb)以及两者结合的模型(ova)时,产生的模型分别记为igm-mnb、igm-cnb以及igm-ova;igmimp-mnb、igmimp-cnb以及igmimp-ova。下面三组实验分别针对三种不同的基分类器对基于不同词频加权方法的分类器进行比较。实验一:mnb、dc-mnb、bdc-mnb、igm-mnb、igmimp-mnb和s-mnb的比较。实验二:cnb、dc-cnb、bdc-cnb、igm-cnb、igmimp-cnb和s-cnb的比较。实验三:ova、dc-ova、bdc-ova、igm-ova、igmimp-ova和s-ova的比较。三组实验中,19个广泛使用的文本分类标准数据集被测试。这些数据集来自不同领域并且代表不同的数据特征。表1详细描叙了这19个数据集的主要特征,具体的数据可从weka平台的网站上下载。表2、表4和表6分别显示了各方法在每个数据集上通过10次10折交叉验证的分类精度,表的底部列出了平均分类精度。在所有数据集上的算术平均值提供了一个关于相对性能的整体概述。接下来,运用wilcoxon显著性统计测试在19个数据集上比较每一对分类器(方法)。表3、表5和表7列出了wilcoxon统计测试的详细比较结果。●表示所在行的算法明显优于所在列的算法,○表示所在列的算法明显优于所在行的算法,对角线以下的显著性级别为α=0.05,对角线以上的显著性级别为α=0.1。从这些实验结果可以看出,本发明的基于特异性的词频加权方法,运用到各种基分类器产生的新的文本分类方法,很少降低原来朴素贝叶斯文本分类器的性能,并且在绝大多数情况下显著地提高了它们的性能。而且,本发明的基于特异性的词频加权方法,运用于各种基分类器后,明显超出所有其他现有的词频加权方法构建的分类器,优点总结如下:1、就mnb而言,算法的平均精度是:mnb(82.44%),dc-mnb(84.60%),bdc-mnb(85.22%)、igm-mnb(84.42%)、igmimp-mnb(84.83%)和s-mnb(87.82);s-mnb对mnb的提升效果最高,并且wilcoxon结果显示s-mnb明显优于其他比较对象;2、就cnb而言,算法的平均精度是:cnb(84.12%),dc-cnb(84.98%),bdc-cnb(85.58%)、igm-cnb(84.27%)、igmimp-cnb(85.29%)和s-cnb(87.12);s-cnb对cnb的提升效果最高,并且wilcoxon结果显示s-cnb明显优于其他比较对象;3、就ova而言,算法的平均精度是:ova(84.13%),dc-ova(85.52%),bdc-ova(86.39%)、igm-ova(86.30%)、igmimp-ova(86.70%)和s-ova(88.73);s-ova对ova的提升效果最高,并且wilcoxon结果显示s-ova明显优于其他比较对象。表1实验中使用的数据集表2mnb作基分类器的分类精度比较数据集mnbdc-mnbbdc-mnbigm-mnbigmimp-mnbs-mnbmnb-○○○○○dc-mnb●-○○bdc-mnb●-○igm-mnb●-○○igmimp-mnb●●-○s-mnb●●●●○-表3mnb作基分类器时wilcoxon统计测试比较结果表4cnb作基分类器的分类精度比较表5cnb作基分类器时wilcoxon统计测试比较结果表6ova作基分类器的分类精度比较数据集ovadc-ovabdc-ovaigm-ovaigmimp-ovas-ovaova-○○○○○dc-ova●-○○○bdc-ova●●-○○igm-ova●-○○igmimp-ova●●●●-○s-ova●●●●●-表7ova作基分类器时wilcoxon统计测试比较结果。当前第1页1 2 3 
技术特征:1.一种基于特异性的词频加权方法,其特征在于:
对于一个已知的训练文档集d,训练文档集d中的任意一篇文档d表示为单词向量形式<t1,t2,…,ti,…,tm>,其中ti为文档d中的第i个单词,m为训练文档集d中不同单词的数目;对每一个单词ti,利用以下公式计算单词ti区分文档类别的特异性,并以此作为单词ti的词频权值wi:
其中,i=1,2,…,m,j=1,2,…,q,d(ti,cj)表示单词ti和类别cj都出现的文档数,表示单词ti和类别cj都不出现的文档数,表示单词ti出现但类别cj不出现的文档数,表示单词ti不出现但类别cj出现的文档数;d(ti)表示单词ti出现的总文档数,表示单词ti不出现的总文档数,d(cj)表示类别cj出现的总文档数,表示类别cj不出现的总文档数。
2.一种依托于权利要求1所述词频加权方法的多项式朴素贝叶斯文本分类方法,其特征在于:通过以下公式对文档d进行分类:
其中,fi表示单词ti在文档d中出现的频率,为已知量;p(cj)通过以下公式计算得到:
其中,n是训练文档集d中的文档数目,q是文档的类别的数目,ck是训练文档集d中第k篇文档的类标记,n、q和ck均为已知量,δ(α,β)是一个二值函数,当α=β时取值为1,否则取值为0;
第一条件概率p(ti|cj,w1,w2,…,wm)通过以下公式计算得到:
其中,fki表示训练文档集d中第k篇文档中出现单词ti的频率,fki为已知量。
3.一种依托于权利要求1所述词频加权方法的补集朴素贝叶斯文本分类方法,其特征在于:通过以下公式对文档d进行分类:
其中,fi表示单词ti在文档d中出现的频率,为已知量;通过以下公式计算得到:
其中,n是训练文档集d中的文档数目,δ(α,β)是一个二值函数,当α=β时取值为1,否则取值为0;
第二条件概率通过以下公式计算得到:
4.一种依托于权利要求1所述词频加权方法的多项式与补集相结合的朴素贝叶斯文本分类方法,其特征在于:通过以下公式对文档d进行分类:
其中,fi表示单词ti在文档d中出现的频率,为已知量;p(cj)和分别通过以下公式计算得到:
其中,n是训练文档集d中的文档数目,q是文档的类别的数目,ck是训练文档集d中第k篇文档的类标记,n、q和ck均为已知量,δ(α,β)是一个二值函数,当α=β时取值为1,否则取值为0;
第一条件概率p(ti|cj,w1,w2,…,wm)通过以下公式计算得到:
其中,fki表示训练文档集d中第k篇文档中出现单词ti的频率,fki为已知量;
第二条件概率通过以下公式计算得到:
技术总结本发明提供了一种基于特异性的词频加权方法,首先计算每个单词区分文档类别的特异性,并以此作为该单词词频的权值。本发明同时提供了依托于这种词频加权方法的多项式朴素贝叶斯文本分类方法、依托于这种词频加权方法的补集朴素贝叶斯文本分类方法,以及依托于这种词频加权方法的多项式与补集相结合的朴素贝叶斯文本分类方法。本发明改善了原有的朴素贝叶斯文本分类方法的分类精度,同时维持了原有的朴素贝叶斯文本分类方法的简洁性和时间复杂度。
技术研发人员:蒋良孝;陈龙;李超群
受保护的技术使用者:中国地质大学(武汉)
技术研发日:2020.02.18
技术公布日:2020.06.09