本发明属于文本挖掘技术领域,具体涉及一种基于词频共现分析的文献表示方法。
背景技术:
近几年,大数据观念深入人心,由于信息量的急剧增长,文献资源的丰富在给人们提供巨大便利的同时,数量巨大和种类繁多也带来存储处理和有效检索的困扰,传统文本信息检索方法虽然提高了不同文献的辨识度且起到了一定分类作用,但是并没有挖掘文献之间内在语义联系,耗时长且检索效率不高。因此,其数据化表示和存储也成为了人们关注的焦点,尤其是复杂数据的稀疏化得到了人们的关注。对于文献资源,文献主题聚类再到文献聚类,文献特征向量的表示起着关键作用。文献的数据化表示是文献的抽象表示,能够通过相关数据处理从而深入剖析文献间的关系,进而大大提高了文献资源检索,聚合的效率,同时跟上文本信息更新的大步伐,保证信息处理的时效性。
基于文本特征词共现关系构建的共现潜在语义向量空间模型(clsvsm)被牛奉高提出,该模型充分提取关键词与文献之间的语义信息,并且对vsm进行改进,引入最大共现强度作为模型权重,以更好地分析关键词与文本之间的共现关系,而文本特征词在文本中词频能很好反应文本内容信息,因此本研究通过先将clsvsm中文本潜在语义信息用特征项对应词频重新估计,然后再将词频信息赋予共现潜在语义信息,构建了词频加权模型。
技术实现要素:
针对上述问题本发明提供了一种基于词频共现分析的文献表示方法。
为了达到上述目的,本发明采用了下列技术方案:
一种基于词频共现分析的文献表示方法,包括以下步骤:
步骤1,数据收集以及准备:搜索并提取每篇文献的关键词,将文献所在主题名、篇名以及对应关键词导出,三者一一对应,将不能下载以及关键词不存在的文献予以剔除,将文献下载保存,最终处理得到研究的原始数据;
步骤2,以关键词为特征项,以每篇文献为空间向量,引入布尔权重,即某一特征项存在于某篇文献则赋值为1,否则赋值为0,构建向量空间模型(vsm:vectorspacemodel);
步骤3,根据clsvsm计算出共现矩阵,获得特征词的出现频次以及特征词之间两两共现频次;
步骤4,计算特征词之间的共现相对强度矩阵;
步骤5,以ii1={j丨aij=1}为选取指标集,即所有aij=1的特征词j的集合。将关键词共现信息引入向量空间模型中,构建clsvsm;
步骤6,文本数据整理,将每一篇文献进行分词处理,并统计出每个词在文本中的出现次数;根据构建clsvsm的关键词集合,从文本分词中搜寻并对应统计相关频次,最后构建文本词频向量;
步骤7,提出文献表示方法:基于词频共现分析方法,运用元素替换法和加权法分别构建词频clsvsm和词频加权模型。
进一步,所述步骤2,以关键词为特征项,以每篇文献为空间向量,引入布尔权重,即某一特征项存在于某篇文献则赋值为1,否则赋值为0,构建vsm,具体操作为:
di=(ai1,ai2,…,aim)∈rd,i=1,…n,j=1,…m
其中:rd表示所有文献构成的向量空间,di表示n篇文献中第i篇文献,aij为第j个关键词在第i篇文献中的所占权重,当第j个关键词是文献dl的关键词时alj等于1,否则为0,最终得到文献集的“篇-词”矩阵a=(aij)n×m。该模型挖掘了文本词频信息,并将词频信息加入clsvsm中,在共现潜在语义信息基础上,剔除了文本冗余的词频信息而构建新的文本向量,对词频特征项进行筛选和充分运用,进一步分析文献信息的相关性,降低文献分类的混乱度,进而提升了文献分类效果和检索效率。
进一步,所述步骤3,根据clsvsm计算出共现矩阵,获得特征词的出现频次以及特征词之间两两共现频次,具体操作为:
特征词之间的共现矩阵为:c=at·a=(cij)m×m,
当i=j时,cii为第i个特征词出现的总频次;
当i≠j时,cij表示词i与词j之间的共现频次。
进一步,所述步骤4计算特征词之间的共现相对强度矩阵,具体操作为:
其中,c11,c22,…,cmm分别为第1个,第2个,……,第m个关键词的频数,当i≠j时,bij为第i个词与第j个词的共现强度;显然当i=j时,bij=1,此时为最大共现强度。计算出特征词之间的共现强度,可以通过词之间的关系分析文献的关联度,体现了文献之间的潜在语义关系,进而为更好地构建文献表示空间打下基础。
进一步,所述步骤5以ii1={j丨aij=1}为选取指标集,即所有aij=1的特征词j的集合;将关键词共现信息引入向量空间模型中,构建clsvsm,具体操作为:
其中,
bjt表示共现强度;ii1表示选择指标。用特征词之间的最大共现强度对vsm模型进行补充,充分挖掘了文献潜在语义信息,大大提高了文献分类效果。
进一步,所述步骤6,文本数据整理,将每一篇文献进行分词处理,并统计出每个词在文本中的出现次数;根据构建clsvsm的关键词集合,从文本分词中搜寻并对应统计相关频次,最后构建文本词频向量,具体操作为:
fi=(ei1,ei2,…,eim)∈rd,i=1,…,n
由向量集可构成文档频数向量空间e=(eij)m×n,其中,fi为文本词频向量;eij代表第j个关键词在第i篇文档出现的频数;rd表示文本词频向量空间;
对文本特征项出现次数进行归一化处理:
其中,xij表示归一化后的文本词频;然后使用归一化处理后的频次计算。构建该模型以及对词频进行归一化处理,有利于消除特征项出现频次大小的影响,统一量化,减小实验的误差,并且利于处理,和后续模型的构建。
进一步,所述步骤7提出文献表示方法:基于词频共现分析方法,运用元素替换法和加权法分别构建词频clsvsm和词频加权模型;
所述构建词频clsvsm,具体操作为:
对于clsvsm和词频模型而言,二者分别反映了文本的不同语义信息,为了更好分析二者关系,以qij为选择指标,将clsvsm中共现权重用相应的词频权重重新估计,也就是将文本内容信息补充到clsvsm中,从而构建如下模型:
其中:ψ表示词频向量与词频clsvsm中向量的对应关系;
当qij=0时,不用关键词词频重新估计,ωij=0;当qij≠0时,用相对应关键词词频重新估计,则有ωij=xij;
该模型构建运用元素替换法,满足条件的元素引入clsvsm中,不满足条件的不引入,这种方法使得我们能够选择文本的一部分特征项去表示文本,也有利于文本冗余项的剔除,从而优化文本表示;
所述构建词频加权模型,具体操作为:
为了更好地表示文本,使文本语义信息更加优化表达,更好地进行特征项选择,基于tf-idf思想,本研究为特征词共现强度赋予相应的词频权重,在优化选取特征项的同时,也重新赋予其权重,含有更多文本语义信息,从而构建模型:
其中:τ表示词频向量与词频加权模型中向量的对应关系;kij表示词频加权模型中,第j个关键词在第i篇文献中所占权重;
当qij=0时,关键词在文本中权重不变;当qij≠0时,用qij*ωij重新估计,综合了文本潜在语义信息和词频信息,最终构建了词频加权模型。该模型将文献词频信息与共现潜在语义信息相结合,将二者综合体现,使特征项代表更多文本信息,剔除冗余信息同时,优化文本表达,提高文本分类效果和检索效率。
与现有技术相比本发明具有以下优点:
结合文本潜在语义信息和词频信息提出了构建文本向量空间的方法,第一种方法是对于词频信息的选择,在保证了提高文本分类性能的同时,也减少了对文献表示的特征项个数,提高了数据存储和相关计算的效率;第二种方法在基于第一种方法的基础上,将词频信息赋予共现潜在语义信息,使特征项所包含的文本信息更多,因为二者相互影响,考虑到这点,平衡信息表达,这种方法既有利于剔除文本冗余信息,同时优化模型表达,赋予特征项更全面的信息,使其更具有代表性,从而提高文本聚类和检索效果。
具体实施方式
实施例1
步骤1,数据收集以及准备:搜索并提取每篇文献的关键词,将文献所在主题名、篇名以及对应关键词导出,三者一一对应,将不能下载以及关键词不存在的文献予以剔除,将文献下载保存,最终处理得到研究的原始数据;
步骤2,以关键词为特征项,以每篇文献为空间向量,引入布尔权重,即某一特征项存在于某篇文献则赋值为1,否则赋值为0,构建vsm;
di=(ai1,ai2,…,aim)∈rd,i=1,…n,j=1,…m
其中:rd表示所有文献构成的向量空间,di表示n篇文献中第i篇文献,aij为第j个关键词在第i篇文献中的所占权重,当第j个关键词是文献di的关键词时aij等于1,否则为0,最终得到文献集的“篇-词”矩阵a=(aij)n×m。
步骤3,根据clsvsm计算出共现矩阵,获得特征词的出现频次以及特征词之间两两共现频次;
特征词之间的共现矩阵为:c=at·a=(cij)m×m,当i=j时,cii为第i个特征词出现的总频次;当i≠j时,cij表示词i与词j之间的共现频次。
步骤4,计算特征词之间的共现相对强度矩阵;
其中,c11,c22,…,cmm分别为第1个,第2个,……,第m个关键词的频数,当i≠j时,bij为第i个词与第j个词的共现强度;显然当i=j时,bij=1,此时为最大共现强度。
步骤5,以ii1={j丨aij=1}为选取指标集,即所有aij=1的特征词j的集合;将关键词共现信息引入向量空间模型中,构建clsvsm;
其中,
bjt表示关键词共现强度;ii1表示选择指标。
步骤6,文本数据整理,将每一篇文献进行分词处理,并统计出每个词在文本中的出现次数;根据构建clsvsm的关键词集合,从文本分词中搜寻并对应统计相关频次,最后构建文本词频向量;
fi=(ei1,ei2,…,eim)∈rd,i=1,…,n
由向量集可构成文档频数向量空间e=(eij)m×n,其中,fi为文本词频向量;eij代表第j个关键词在第i篇文档出现的频数;rd表示文本词频向量空间;
对文本特征项出现次数进行归一化处理:
其中,xij表示进行归一化后词频;然后使用归一化处理后的频次计算。
步骤7,提出文献表示方法:基于词频共现分析方法,运用元素替换法和加权法分别构建词频clsvsm和词频加权模型。
对于clsvsm和词频模型而言,二者分别反映了文本的不同语义信息,为了更好分析二者关系,以qij为选择指标,将clsvsm中共现权重用相应的词频权重重新估计,也就是将文本内容信息补充到clsvsm中,从而构建如下模型:
其中:ψ表示词频向量与词频clsvsm中向量的对应关系;
当qij=0时,不用关键词词频重新估计,ωij=0;当qij≠0时,用相对应关键词词频重新估计,则有ωij=xij;
构建词频加权模型:
其中:τ表示词频向量与词频加权模型中文本向量的对应关系;kij表示词频加权模型中,第j个关键词在第i篇文献中所占权重;
当qij=0时,关键词在文本中权重不变;当qij≠0时,用qij*ωij重新估计,综合了文本潜在语义信息和词频信息,最终构建了词频加权模型。
中文数据来自cnki中信息科学下的三个学科“图情”,“科学”,“宏观”,三个学科为三个类别。按照文献被引频次降序排列搜集数据,经过预处理,最后总共收集966篇文献,其中包含“图情”277篇,“科研”344篇,“宏观”355篇,1420个关键词。
实施例2
步骤1,数据收集以及准备:搜索并提取每篇文献的关键词,将文献所在主题名、篇名以及对应关键词导出,三者一一对应,将不能下载以及关键词不存在的文献予以剔除,将文献下载保存,最终处理得到研究的原始数据;
步骤2,以关键词为特征项,以每篇文献为空间向量,引入布尔权重,即某一特征项存在于某篇文献则赋值为1,否则赋值为0,构建vsm;
di=(ai1,ai2,…,aim)∈rd,i=1,…n,j=1,…m
其中:rd表示所有文献构成的向量空间,di表示n篇文献中第i篇文献,aij为第j个关键词在第i篇文献中的所占权重,当第j个关键词是文献di的关键词时aij等于1,否则为0,最终得到文献集的“篇-词”矩阵a=(aij)n×m。
步骤3,根据clsvsm计算出共现矩阵,获得特征词的出现频次以及特征词之间两两共现频次;
特征词之间的共现矩阵为:c=at·a=(cij)m×m,当i=j时,cii为第i个特征词出现的总频次;当i≠j时,cij表示词i与词j之间的共现频次。
步骤4,计算特征词之间的共现相对强度矩阵;
其中,c11,c22,…,cmm分别为第1个,第2个,……,第m个关键词的频数,当i≠j时,bij为第i个词与第j个词的共现强度;显然当i=j时,bij=1,此时为最大共现强度。
步骤5,以ii1={j丨aij=1}为选取指标集,即所有aij=1的特征词j的集合;将关键词共现信息引入向量空间模型中,构建clsvsm;
其中,
bjt表示关键词共现强度;ii1表示选择指标。
步骤6,文本数据整理,将每一篇文献进行分词处理,并统计出每个词在文本中的出现次数;根据构建clsvsm的关键词集合,从文本分词中搜寻并对应统计相关频次,最后构建文本词频向量;
fi=(ei1,ei2,…,eim)∈rd,i=1,…,n
由向量集可构成文档频数向量空间e=(eij)m×n,其中,fi为文本词频向量;eij代表第j个关键词在第i篇文档出现的频数;rd表示文本词频向量空间;
对文本特征项出现次数进行归一化处理:
其中,xij表示进行归一化后词频;然后使用归一化处理后的频次计算。
步骤7,提出文献表示方法:基于词频共现分析方法,运用元素替换法和加权法分别构建词频clsvsm和词频加权模型。
对于clsvsm和词频模型而言,二者分别反映了文本的不同语义信息,为了更好分析二者关系,以qij为选择指标,将clsvsm中共现权重用相应的词频权重重新估计,也就是将文本内容信息补充到clsvsm中,从而构建如下模型:
其中:ψ表示词频向量与词频clsvsm中向量的对应关系;
当qij=0时,不用关键词词频重新估计,ωij=0;当qij≠0时,用相对应关键词词频重新估计,则有ωij=xij;
构建词频加权模型:
其中:τ表示词频向量与词频加权模型中文本向量的对应关系;kij表示词频加权模型中,第j个关键词在第i篇文献中所占权重;
当qij=0时,关键词在文本中权重不变;当qij≠0时,用qij*ωij重新估计,综合了文本潜在语义信息和词频信息,最终构建了词频加权模型。
英文数据来自webofscience中信息科学与图书馆科学分类下的数据,最后经过数据处理得到文献总数332篇,其中,包含计算机科学信息系统118篇,计算机科学各学科间的应用52篇,管理92篇,最终获得不重复关键词1606个。
上述内容对实施例做了详细的说明,但本发明不受上述实施方式和实施例的限制,在不脱离本发明宗旨的前提下,在本领域技术人员所具备的知识范围内还可以对其进行各种变化和改进,这些变化和改进均落入本发明要保护的范围之内。
1.一种基于词频共现分析的文献表示方法,其特征在于:包括以下步骤:
步骤1,数据收集以及准备:搜索并提取每篇文献的关键词,将文献所在主题名、篇名以及对应关键词导出,三者一一对应,将不能下载以及关键词不存在的文献予以剔除,将文献下载保存,最终处理得到研究的原始数据;
步骤2,以关键词为特征项,以每篇文献为空间向量,引入布尔权重,即某一特征项存在于某篇文献则赋值为1,否则赋值为0,构建vsm;
步骤3,根据clsvsm计算出共现矩阵,获得特征词的出现频次以及特征词之间两两共现频次;
步骤4,计算特征词之间的共现相对强度矩阵;
步骤5,以ii1={j丨aij=1}为选取指标集,即所有aij=1的特征词j的集合;将关键词共现信息引入向量空间模型中,构建clsvsm;
步骤6,文本数据整理,将每一篇文献进行分词处理,并统计出每个词在文本中的出现次数;根据构建clsvsm的关键词集合,从文本分词中搜寻并对应统计相关频次,最后构建文本词频向量;
步骤7,提出文献表示方法:基于词频共现分析方法,运用元素替换法和加权法分别构建词频clsvsm和词频加权模型。
2.根据权利要求1所述的一种基于词频共现分析的文献表示方法,其特征在于:所述步骤2,以关键词为特征项,以每篇文献为空间向量,引入布尔权重,即某一特征项存在于某篇文献则赋值为1,否则赋值为0,构建vsm,具体操作为:
di=(ai1,ai2,…,aim)∈rd,i=1,…n,j=1,…m
其中:rd表示所有文献构成的向量空间,di表示n篇文献中第i篇文献,aij为第j个关键词在第i篇文献中的所占权重,当第j个关键词是文献di的关键词时aij等于1,否则为0,最终得到文献集的“篇-词”矩阵a=(aij)n×m。
3.根据权利要求1所述的一种基于词频共现分析的文献表示方法,其特征在于:所述步骤3,根据clsvsm计算出共现矩阵,获得特征词的出现频次以及特征词之间两两共现频次,具体操作为:
特征词之间的共现矩阵为:c=at·a=(cij)m×m,
当i=j时,cii为第i个特征词出现的总频次;
当i≠j时,cij表示词i与词j之间的共现频次。
4.根据权利要求1所述的一种基于词频共现分析的文献表示方法,其特征在于:所述步骤4计算特征词之间的共现相对强度矩阵,具体操作为:
其中,c11,c22,…,cmm分别为第1个,第2个,……,第m个关键词的频数,当i≠j时,bij为第i个词与第j个词的共现强度;显然当i=j时,bij=1,此时为最大共现强度。
5.根据权利要求1所述的一种基于词频共现分析的文献表示方法,其特征在于:所述步骤5以ii1={j丨aij=1}为选取指标集,即所有aij=1的特征词j的集合;将关键词共现信息引入向量空间模型中,构建clsvsm,具体操作为:
其中,
bjt表示关键词共现强度;ii1表示选择指标。
6.根据权利要求1所述的一种基于词频共现分析的文献表示方法,其特征在于:所述步骤6,文本数据整理,将每一篇文献进行分词处理,并统计出每个词在文本中的出现次数;根据构建clsvsm的关键词集合,从文本分词中搜寻并对应统计相关频次,最后构建文本词频向量,具体操作为:
fi=(ei1,ei2,…,eim)∈rd,i=1,…,n
由向量集可构成文档频数向量空间e=(eij)m×n,其中,fi为文本词频向量;eij代表第j个关键词在第i篇文档出现的频数;rd表示文本词频向量空间;
对文本特征项出现次数进行归一化处理:
其中,xij表示进行归一化后词频;然后使用归一化处理后的频次计算。
7.根据权利要求1所述的一种基于词频共现分析的文献表示方法,其特征在于:所述步骤7提出文献表示方法:基于词频共现分析方法,运用元素替换法和加权法分别构建词频clsvsm和词频加权模型;
所述构建词频clsvsm,具体操作为:
对于clsvsm和词频模型而言,二者分别反映了文本的不同语义信息,为了更好分析二者关系,以qij为选择指标,将clsvsm中共现权重用相应的词频权重重新估计,也就是将文本内容信息补充到clsvsm中,从而构建如下模型:
其中:ψ表示词频向量与词频clsvsm中向量的对应关系;
当qij=0时,不用关键词词频重新估计,ωij=0;当qij≠0时,用相对应关键词词频重新估计,则有ωij=xij;
所述构建词频加权模型,具体操作为:
其中:τ表示词频向量与词频加权模型中文本向量的对应关系;kij表示词频加权模型中,第j个关键词在第i篇文献中所占权重;
当qij=0时,关键词在文本中权重不变;当qij≠0时,用qij*ωij重新估计,综合了文本潜在语义信息和词频信息,最终构建了词频加权模型。
技术总结