本申请涉及自然语言处理技术领域,更具体的说,是涉及一种重题检测方法、相关设备及可读存储介质。
背景技术:
随着互联网技术的发展,在线教育越来越频繁的出现在人们的视野。一个成功的在线教育系统离不开良好的教育资源建设。在现有的模式下,教育资源库的建设需要投入大量的人力,通过不断的添加并加工新的题目,增大资源库的知识点覆盖度。
目前,在线教育系统是基于个性化推荐算法为用户推荐资源库中的题目的,但是,随着资源库的扩展,题目的数量将在百万甚至是千万级,由于各题目加工的时间、地点、加工者等不同,资源库中不可避免地出现了重复的题目,这直接导致为用户推荐重复的题目,导致用户体验效果不佳。
因此,需要提供一种重题检测方法,以尽量避免为用户推荐重复题目。
技术实现要素:
鉴于上述问题,本申请提出了一种重题检测方法、相关设备及可读存储介质。具体方案如下:
一种重题检测方法,包括:
获取待进行重题检测的题目对;
确定所述题目对中每一题目的检测数据,所述检测数据包括题面数据、解析数据和学生作答数据;
根据所述题目对中每一题目的检测数据,确定所述题目对中两个题目的词相似度结果、语义相似度结果和作答分布相似度结果;
基于所述词相似度结果、所述语义相似度结果以及所述作答分布相似度结果,确定所述题目对中两个题目是否为重题。
可选地,所述确定所述题目对中每一题目的检测数据,包括:
获取所述题目对中每一题目的原始数据;
基于所述题目对中每一题目的原始数据,确定所述题目对中每一题目的检测数据;
其中,所述基于所述题目对中每一题目的原始数据,确定所述题目对中每一题目的检测数据,包括:
将所述题目对中每一题目的原始数据,作为所述题目对中每一题目的检测数据;
或,
对所述题目对中每一题目的原始数据进行标准化处理,处理后的数据作为所述题目对中每一题目的检测数据。
可选地,根据所述题目对中每一题目的检测数据,确定所述题目对中两个题目的词相似度结果,包括:
对所述题目对中每一题目的检测数据中的题面数据进行分词处理,得到所述题目对中每一题目的题面分词结果;
基于所述题目对中两个题目的题面分词结果,得到所述题目对中两个题目的词相似度结果。
可选地,根据所述题目对中每一题目的检测数据,确定所述题目对中两个题目的语义相似度结果,包括:
对所述题目对中每一题目的检测数据中的题面数据和解析数据的组合进行语义分词处理,得到所述题目对中每一题目的第一语义分词结果;
基于所述题目对中两个题目的第一语义分词结果,得到所述题目对中两个题目的语义相似度结果。
可选地,根据所述题目对中每一题目的检测数据,确定所述题目对中两个题目的作答分布相似度结果,包括:
对所述题目对中每一题目的检测数据中的学生作答数据进行语义分词处理,得到所述题目对中每一题目的第二语义分词结果;
基于所述题目对中两个题目的题面分词结果和第二语义分词结果,得到所述题目对中两个题目的作答分布相似度结果。
可选地,所述基于所述题目对中两个题目的题面分词结果和第二语义分词结果,得到所述题目对中两个题目的作答分布相似度结果,包括:
基于所述题目对中每一题目的题面分词结果和第二语义分词结果,得到所述题目对中每一题目的错误作答分布相似度结果和正确作答分布相似度结果;
所述题目对中两个题目的错误作答分布相似度结果和正确作答分布相似度结果作为所述题目对中两个题目的作答分布相似度结果。
可选地,所述基于所述词相似度结果、所述语义相似度结果以及所述作答分布相似度结果,确定所述题目对中两个题目是否为重题,包括:
将所述词相似度结果、所述语义相似度结果以及所述作答分布相似度结果,输入分类模型,确定所述题目对中两个题目是否为重题;
所述重题检测模型是以训练题目对中各训练题目的词相似度结果、所述语义相似度结果以及所述作答分布相似度结果为训练样本,以用于标识训练题目对中两个题目是否为重题的标注信息为样本标签训练得到。
一种重题检测装置,所述装置包括:
获取单元,用于获取待进行重题检测的题目对;
检测数据确定单元,用于确定所述题目对中每一题目的检测数据,所述检测数据包括题面数据、解析数据和学生作答数据;
相似度确定单元,用于根据所述题目对中每一题目的检测数据,确定所述题目对中两个题目的词相似度结果、语义相似度结果和作答分布相似度结果;
重题确定单元,用于基于所述词相似度结果、所述语义相似度结果以及所述作答分布相似度结果,确定所述题目对中两个题目是否为重题。
可选地,所述获取单元,包括:
原始数据获取单元,用于获取所述题目对中每一题目的原始数据;
检测数据确定单元,用于基于所述题目对中每一题目的原始数据,确定所述题目对中每一题目的检测数据;
其中,所述检测数据确定单元,包括:
第一检测数据确定单元,用于将所述题目对中每一题目的原始数据,作为所述题目对中每一题目的检测数据;
或,
第二检测数据确定单元,用于对所述题目对中每一题目的原始数据进行标准化处理,处理后的数据作为所述题目对中每一题目的检测数据。
可选地,所述相似度确定单元,包括:
题面分词单元,用于对所述题目对中每一题目的检测数据中的题面数据进行分词处理,得到所述题目对中每一题目的题面分词结果;
词相似度结果确定单元,用于基于所述题目对中两个题目的题面分词结果,得到所述题目对中两个题目的词相似度结果。
可选地,相似度确定单元,包括:
第一语义分词单元,用于对所述题目对中每一题目的检测数据中的题面数据和解析数据的组合进行语义分词处理,得到所述题目对中每一题目的第一语义分词结果;
语义相似度结果确定单元,用于基于所述题目对中两个题目的第一语义分词结果,得到所述题目对中两个题目的语义相似度结果。
可选地,相似度确定单元,包括:
第二语义分词单元,用于对所述题目对中每一题目的检测数据中的学生作答数据进行语义分词处理,得到所述题目对中每一题目的第二语义分词结果;
作答分布相似度确定单元,用于基于所述题目对中两个题目的题面分词结果和第二语义分词结果,得到所述题目对中两个题目的作答分布相似度结果。
可选地,所作答分布相似度确定单元,具体用于:
基于所述题目对中每一题目的题面分词结果和第二语义分词结果,得到所述题目对中每一题目的错误作答分布相似度结果和正确作答分布相似度结果;
所述题目对中两个题目的错误作答分布相似度结果和正确作答分布相似度结果作为所述题目对中两个题目的作答分布相似度结果。
可选地,所述重题确定单元,具体用于:
将所述词相似度结果、所述语义相似度结果以及所述作答分布相似度结果,输入分类模型,确定所述题目对中两个题目是否为重题;
所述重题检测模型是以训练题目对中各训练题目的词相似度结果、所述语义相似度结果以及所述作答分布相似度结果为训练样本,以用于标识训练题目对中两个题目是否为重题的标注信息为样本标签训练得到。
一种重题检测系统,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上所述的重题检测方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的重题检测方法的各个步骤。
借由上述技术方案,本申请公开了一种重题检测方法、相关设备及可读存储介质,获取待进行重题检测的题目对之后,基于该题目对中每一题目的多种检测数据,即题面数据、解析数据和学生作答数据,确定该题目对中两个题目的词相似度结果、语义相似度结果和作答分布相似度结果;基于确定的词相似度结果、语义相似度结果以及作答分布相似度结果,确定该题目对中两个题目是否为重题,能够实现从多个角度检测该题目对中两个题目是否重题,相对于从单一角度检测该题目对中两个题目是否为重题,可以提升检测该题目对中两个题目是否为重题的准确度,实现了尽量避免为用户推荐重复题目的目的。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例公开的一种重题检测方法的流程示意图;
图2为本申请实施例公开的一种重题检测模型的示意图;
图3为本申请实施例公开的一种重题检测装置结构示意图;
图4为本申请实施例公开的一种重题检测系统的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
接下来,通过下述实施例对本申请提供的重题检测方法进行介绍。
请参阅图1,图1为本申请实施例公开的一种重题检测方法的流程示意图,该方法可以包括:
s101:获取待进行重题检测的题目对。
在本申请中,待进行重题检测的题目对可以为在线教育系统的教育资源库中的任意题目对,从题型上来说,可以为各种题型的题目对,如填空题、选择题、解答题等,从所属学科上来说,可以为数学、物理、化学等学科的题目。待进行重题检测的题目对可以为一个,也可以为多个。
s102:确定所述题目对中每一题目的检测数据。
现有技术中,在进行重题检测时,仅是直接确定待进行重题检测的题目对中每一题目的题面数据作为检测数据,根据题目对中每一题目的题面数据,检测出从题面即可以明显判断出的重题,即人第一眼看到就能判断为重复的题目。直观上看,题面完全一样的题目或者大部分一样的题目对人的视觉冲击较大,给人的第一印象大概率是重题。事实上,从一线反馈的数据来看,这一类型的数据也占有较大的比重,极其容易被用户投诉。
但是,题目一般都包括题面、解析、学生作答三部分,有些情况下,虽然两个题目的题面表象不相似,但是,两个题目可能考察的知识点以及作答要点却有很大的相似性,而这种情况下,两个题目应该被确定为重题,但是,仅仅基于题面数据,会得出两个题目不为重题的结果。
因此,在本申请中,题目对中每一题目的检测数据包括该题目的题面数据、解析数据和学生作答数据。其中,学生作答数据可以包括多个不同的作答数据。
s103:根据所述题目对中每一题目的检测数据,确定所述题目对中两个题目的词相似度结果、语义相似度结果和作答分布相似度结果。
在本申请中,确定题目对中每一题目的题面数据、解析数据和学生作答数据之后,即可根据题目对中每一题目的题面数据、解析数据和学生作答数据确定所述题目对中两个题目的词相似度结果、语义相似度结果和作答分布相似度结果。
在本申请中,可以针对词级、语义级、作答内容级别三个不同层面的需求,将题目对中每一题目的题面数据、解析数据和学生作答数据划分为不同分组,并基于不同分组内的检测数据,得到对应级别的相似度结果。
作为一种可实施方式,在本申请中,可以将题目对中每一题目的题面数据划分为一组,将题目对中每一题目的题面数据和解析数据划分为一组,将题目对中每一题目的题面数据和学生作答数据划分为一组。基于此划分方式,本申请中,可以根据所述题目对中每一题目的题面数据,确定题目对中两个题目的词相似度结果,根据题目对中每一题目的题面数据和解析数据,确定题目对中两个题目的语义相似度结果,根据题目对中每一题目的题面数据和学生作答数据,确定题目对中两个题目的作答分布相似度结果。确定各相似度结果的具体实现方式将通过以下实施例详细说明。
s104:基于所述词相似度结果、所述语义相似度结果以及所述作答分布相似度结果,确定所述题目对中两个题目是否为重题。
在本申请中,在根据题目对中每一题目的题面数据、解析数据和学生作答数据确定所述题目对中两个题目的词相似度结果、语义相似度结果和作答分布相似度结果之后,可以基于词相似度结果、语义相似度结果以及作答分布相似度结果,确定所述题目对中两个题目是否为重题。
需要说明的是,基于词相似度结果、语义相似度结果以及作答分布相似度结果,确定题目对中两个题目是否为重题的具体实现方式可以有多种,作为一种可实施方式,可以确定词相似度结果、语义相似度结果以及作答分布相似度结果在确定题目对中两个题目是否为重题时所占的权重,基于词相似度结果以及其权重、语义相似度结果以及其权重、作答分布相似度结果以及其权重,确定题目对中两个题目是否为重题。作为又一种可实施方式,可以采用不同的神经网络模型实现基于词相似度结果、语义相似度结果以及作答分布相似度结果,确定题目对中两个题目是否为重题,具体实现方式将通过以下实施例详细说明。
本实施例公开了一种重题检测方法,获取待进行重题检测的题目对之后,基于该题目对中每一题目的多种检测数据,即题面数据、解析数据和学生作答数据,确定该题目对中两个题目的词相似度结果、语义相似度结果和作答分布相似度结果;基于确定的词相似度结果、语义相似度结果以及作答分布相似度结果,确定该题目对中两个题目是否为重题,能够实现从多个角度检测该题目对中两个题目是否重题,相对于从单一角度检测该题目对中两个题目是否为重题,可以提升检测该题目对中两个题目是否为重题的准确度,实现了尽量避免为用户推荐重复题目的目的。
在本申请中,还公开了确定题目对中每一题目的检测数据的具体实现方式,该方式可以包括如下步骤:
s201:获取题目对中每一题目的原始数据。
在本申请中,题目对中每一题目的原始数据包括该题目对中每一题目的原始题面数据、原始解析数据和原始学生作答数据。
s202:基于所述题目对中每一题目的原始数据,确定所述题目对中每一题目的检测数据。
作为一种可实施方式,本申请中可以将题目对中每一题目的原始数据,作为题目对中每一题目的检测数据。
但是,题目对中每一题目的原始数据往往存在各种问题,比如,公式表示不唯一、存在无法识别的图片数据等,这些问题将直接影响后续的重题检测准确性。
为解决上述问题,作为另一种可实施方式,本申请中还可以将题目对中每一题目的原始数据进行标准化处理,处理后的数据作为题目对中每一题目的检测数据。其中,标准化处理包括图片识别处理、公式正则化处理等。
为便于理解,本申请中以数学题为例,给出对数学题原始数据进行标准化处理的具体实现方式如下:
首先,针对数学题原始数据中的每一个模块的html数据,判断是否存在图片公式数据,如果存在,则采用数学公式ocr识别系统,将图片中的公式识别并提取出来,替换对应图片为latex公式,以此保证公式数据内容的完整性。
然后,对数学题原始数据中的公式数据进行正则化处理,将公式数据中的所有符号转换为latex符号表示、同义latex表示归一化、简化latex表示,并去除所有诸如黑体表示、颜色表示、箭头表示等特效表示。
基于上述方式,对数学题原始题面数据处理,即能得到数学题的标准化题面数据,对数学题原始解析数据处理,即能得到数学题的标准化解析数据,对数学题原始学生作答数据处理,即能得到数学题的标准化学生作答数据。
需要说明的是,本申请中可以将题目对中每一题目的检测数据,输入相似度检测模型,得到所述题目对中两个题目的词相似度结果、语义相似度结果和作答分布相似度结果。其中,相似度检测模型包括分词系统、语义分词系统、词级别检测系统、语义级别检测系统、学生作答检测系统。
基于以上相似度检测模型,在本申请中公开了根据所述题目对中每一题目的检测数据,确定所述题目对中两个题目的词相似度结果、语义相似度结果和作答分布相似度结果的实现方式,具体通过以下内容详细说明。
在本申请中,公开了一种根据题目对中每一题目的检测数据,确定题目对中两个题目的词相似度结果的实现方式,该方式可以包括:
s301:对所述题目对中每一题目的检测数据中的题面数据进行分词处理,得到所述题目对中每一题目的题面分词结果。
在本申请中,可以将题目对中每一题目的检测数据中的题面数据输入分词系统,得到题目对中每一题目的题面分词结果。
需要说明的是,分词系统可以为现有的中文分词系统如jieba,snownlp,stanfordcorenlp,英文分词系统如nltk,spacy和standfordcorenlp。但是,对于包含中文,英文字母,英文符号,数学特殊符号等的题目,由于其包含的字符种类较多,现有的中文分词系统或英文分词系统均无法直接应用于该类题目,在本申请中,可以采用多种分词系统融合,并结合该类题目的内在逻辑、该类题目对应的常用词词表,构建新的分词系统。
s302:基于所述题目对中两个题目的题面分词结果,得到所述题目对中两个题目的词相似度结果。
在本申请中,可以将题目对中两个题目的题面分词结果,输入词级别检测系统,得到题目对中两个题目的词相似度结果。
词级别检测系统可以构造题目对中两个题目的题面分词结果对应的向量,并计算两个题目的题面分词结果对应的向量的相似度作为题目对中两个题目的词相似度结果。计算两个题目的题面分词结果对应的向量的相似度的方式可以有多种,比如可以计算两个向量表示的余弦相似度,统计两个向量的n-gram的分布和占比,通过比较n-gram的差异得到两个向量的相似度等。
在本申请中,还公开了一种根据题目对中每一题目的检测数据,确定题目对中两个题目的语义相似度结果的具体实现方式,该方式可以包含如下步骤:
s401:对所述题目对中每一题目的检测数据中的题面数据和解析数据的组合进行语义分词处理,得到所述题目对中每一题目的第一语义分词结果。
由于重题的解析有着极其相似的格式和方法,而解析变化多样,难以比较,导致无法单独使用解析。因此,在本申请中,可以将题目对中每一题目的检测数据中的题面数据和解析数据输入语义分词系统,得到题目对中每一题目的第一语义分词结果。
需要说明的是,语义分词系统是s301中描述的分词系统的改进,语义分词系统相对于分词系统来说,具有对分词系统的分词结果进行抽象与归一化处理的功能,在一定程度上能够消除分词上的歧义。比如,分词系统中的delta与三角形,在语义分词系统中均表示为三角形。
s402:基于所述题目对中两个题目的第一语义分词结果,得到所述题目对中两个题目的语义相似度结果。
在本申请中,可以将题目对中两个题目的第一语义分词结果,输入语义级别检测系统,得到题目对中两个题目的语义相似度结果。
本申请中,语义级别检测系统可以构造题目对中两个题目的第一语义分词结果对应的编码信息,并基于两个题目的第一语义分词结果对应的编码信息进行映射,得到题目对中两个题目的语义相似度结果。
构造题目对中两个题目的第一语义分词结果对应的向量的方式可以如下:首先,基于如word2vec、glove、fasttext等方式获得题目对中两个题目的第一语义分词结果对应的初始低维向量,然后,将初始低维向量经过多层lstm得到第一语义分词结果对应的编码信息,该编码信息能够表征第一语义分词结果的深层次语义和句法。
在本申请中,还公开了一种根据题目对中每一题目的检测数据,确定题目对中两个题目的作答分布相似度结果的具体实现方式,该方式包括如下步骤:
s501:对所述题目对中每一题目的检测数据中的学生作答数据进行语义分词处理,得到所述题目对中每一题目的第二语义分词结果。
在本申请中,可以将题目对中每一题目的检测数据中的学生作答数据输入语义分词系统,得到题目对中每一题目的第二语义分词结果。语义分词系统可参见s301和s401中的相关描述,此处不再赘述。
s502:基于所述题目对中两个题目的题面分词结果和第二语义分词结果,得到所述题目对中两个题目的作答分布相似度结果。
对于重复的题目,其中一个题目的作答在不考虑具体应用背景的情况下,可以看作另一个题目的作答,或者,两道题目的多个作答结果中,错误的答案中错误类型或错误逻辑的分布,如果有多个正确答案,正确答案类型或正确答案的逻辑的分布也会具有相似性,因此,本申请中,可以通过确定题目对中两个题目的作答分布相似度结果,进而确定题目对中两个题目是否为重题。
作为一种可实施方式,可以将题目对中两个题目的题面分词结果和第二语义分词结果输入学生作答检测系统,得到题目对中两个题目的作答分布相似度结果。
由于学生作答有着多样性,且作答方式受个人影响较大,编码时噪音可能将重要的信息掩盖,因此,直接比较题目对中两个题目的学生作答确定题目对中两个题目的作答分布相似度结果是不可取的。而且,题目对中每一题目的学生作答可以包括正确作答和错误作答。正确作答和错误作答有类似的作答分布。
因此,在本申请中,学生作答检测系统可以基于题目对中每一题目的题面分词结果和第二语义分词结果,得到所述题目对中每一题目的错误作答分布相似度结果和正确作答分布相似度结果;所述题目对中两个题目的错误作答分布相似度结果和正确作答分布相似度结果作为所述题目对中两个题目的作答分布相似度结果。
为便于理解,假设题目对中包含题目a和题目b,题目a的正确学生作答数据为a1~ak,错误学生作答数据为ak 1~an,题目b的正确学生作答数据为b1~bj,错误学生作答数据为bj 1~bm。
对于题目a的每一正确学生作答数据a1~ak,通过多层lstmright得到每一正确学生作答数据的向量编码,与题目a的题面分词结果中每个分词编码进行注意力计算,得到正确学生作答数据的注意力计算结果,并对正确学生作答数据的注意力计算结果进行归一化处理,得到正确学生作答数据的注意力计算结果的分布;对正确学生作答数据的注意力计算结果的分布取平均,得到题目a的正确学生作答数据对应的题目a的信息分布dra;
对于题目a的每一错误学生作答数据ak 1~an,通过多层lstmwrong得到每一错误学生作答数据的向量编码,与题目a的题面分词结果中每个分词编码进行注意力计算,得到错误学生作答数据的注意力计算结果,并对错误学生作答数据的注意力计算结果进行归一化处理,得到错误学生作答数据的注意力计算结果的分布;对错误学生作答数据的注意力计算结果的分布取平均,得到题目a的错误学生作答数据对应的题目a的信息分布dwa;
对于题目b的每一正确学生作答数据b1~bj,通过多层lstmright得到每一正确学生作答数据的向量编码,与题目a的题面分词结果中每个分词编码进行注意力计算,得到正确学生作答数据的注意力计算结果,并对正确学生作答数据的注意力计算结果进行归一化处理,得到正确学生作答数据的注意力计算结果的分布;对正确学生作答数据的注意力计算结果的分布取平均,得到题目b的正确学生作答数据对应的题目a的信息分布drb;
对于题目b的每一错误学生作答数据bj 1~bm,通过多层lstmwrong得到每一错误学生作答数据的向量编码,与题目a的题面分词结果中每个分词编码进行注意力计算,得到错误学生作答数据的注意力计算结果,并对错误学生作答数据的注意力计算结果进行归一化处理,得到错误学生作答数据的注意力计算结果的分布;对错误学生作答数据的注意力计算结果的分布取平均,得到题目b的错误学生作答数据对应的题目a的信息分布dwb;
计算dra和drb的kullback-leibler距离得到在题目a的正确作答分布相似度结果,计算dwa和dwb的kullback-leibler距离得到题目a的错误作答分布相似度结果。
同理,可以得到在题目b的正确作答分布相似度结果,和,在题目b的错误作答分布相似度结果。
需要说明的是,对于重复的题目,题面的有效信息是相同的。由于正确作答利用的题面信息是相似的,因此可以利用正确作答与题面交互获得正确作答对应的题面信息分布,通过比较两个题目正确作答与同一题面交互得到的题面信息分布差异,判断两个题目是否重复。同理,可以利用错误作答做类似判断。
在本申请中,还公开了一种基于词相似度结果、语义相似度结果以及作答分布相似度结果,确定题目对中两个题目是否为重题的具体实现方式,该方式可以如下:
将词相似度结果、语义相似度结果以及作答分布相似度结果,输入分类模型,确定题目对中两个题目是否为重题。
需要说明的是,分类模型是以训练题目对中各训练题目的词相似度结果、语义相似度结果以及作答分布相似度结果为训练样本,以用于标识训练题目对中两个题目是否为重题的标注信息为样本标签训练得到。
分类模型可以是一个多层感知机。分类模型的输出可以为题目对中两个题目为重题的概率,则基于分类模型确定题目对中两个题目是否为重题时,可以判断分类模型输出的概率是否大于预设阈值,如果分类模型输出的概率大于预设阈值,则确定题目对中两个题目为重题,如果分类模型输出的概率小于等于预设阈值,则确定题目对中两个题目不为重题。
进一步需要说明的是,如图2所示,本申请中,可以将由分词系统、语义分词系统、词级别检测系统、语义级别检测系统、学生作答检测系统组合生成相似度检测模型,并将该相似度检测模型与上述分类模型组合为一个重题检测模型,基于该重题检测模型进行重题检测时,可以由该重题检测模型中的分词系统、语义分词系统、词级别检测系统、语义级别检测系统、学生作答检测系统执行根据所述题目对中每一题目的检测数据,确定所述题目对中两个题目的词相似度结果、语义相似度结果和作答分布相似度结果的步骤,由分类模型执行基于所述词相似度结果、所述语义相似度结果以及所述作答分布相似度结果,确定所述题目对中两个题目是否为重题的步骤,具体执行方式可参见上述相关描述,此处不再赘述。
下面对本申请实施例公开的重题检测装置进行描述,下文描述的重题检测装置与上文描述的重题检测方法可相互对应参照。
参照图3,图3为本申请实施例公开的一种重题检测装置结构示意图。如图3所示,该重题检测装置可以包括:
获取单元21,用于获取待进行重题检测的题目对;
检测数据确定单元22,用于确定所述题目对中每一题目的检测数据,所述检测数据包括题面数据、解析数据和学生作答数据;
相似度确定单元23,用于根据所述题目对中每一题目的检测数据,确定所述题目对中两个题目的词相似度结果、语义相似度结果和作答分布相似度结果;
重题确定单元24,用于基于所述词相似度结果、所述语义相似度结果以及所述作答分布相似度结果,确定所述题目对中两个题目是否为重题。
可选地,所述获取单元,包括:
原始数据获取单元,用于获取所述题目对中每一题目的原始数据;
检测数据确定单元,用于基于所述题目对中每一题目的原始数据,确定所述题目对中每一题目的检测数据;
其中,所述检测数据确定单元,包括:
第一检测数据确定单元,用于将所述题目对中每一题目的原始数据,作为所述题目对中每一题目的检测数据;
或,
第二检测数据确定单元,用于对所述题目对中每一题目的原始数据进行标准化处理,处理后的数据作为所述题目对中每一题目的检测数据。
可选地,所述相似度确定单元,包括:
题面分词单元,用于对所述题目对中每一题目的检测数据中的题面数据进行分词处理,得到所述题目对中每一题目的题面分词结果;
词相似度结果确定单元,用于基于所述题目对中两个题目的题面分词结果,得到所述题目对中两个题目的词相似度结果。
可选地,相似度确定单元,包括:
第一语义分词单元,用于对所述题目对中每一题目的检测数据中的题面数据和解析数据的组合进行语义分词处理,得到所述题目对中每一题目的第一语义分词结果;
语义相似度结果确定单元,用于基于所述题目对中两个题目的第一语义分词结果,得到所述题目对中两个题目的语义相似度结果。
可选地,相似度确定单元,包括:
第二语义分词单元,用于对所述题目对中每一题目的检测数据中的学生作答数据进行语义分词处理,得到所述题目对中每一题目的第二语义分词结果;
作答分布相似度确定单元,用于基于所述题目对中两个题目的题面分词结果和第二语义分词结果,得到所述题目对中两个题目的作答分布相似度结果。
可选地,所作答分布相似度确定单元,具体用于:
基于所述题目对中每一题目的题面分词结果和第二语义分词结果,得到所述题目对中每一题目的错误作答分布相似度结果和正确作答分布相似度结果;
所述题目对中两个题目的错误作答分布相似度结果和正确作答分布相似度结果作为所述题目对中两个题目的作答分布相似度结果。
可选地,所述重题确定单元,具体用于:
将所述词相似度结果、所述语义相似度结果以及所述作答分布相似度结果,输入分类模型,确定所述题目对中两个题目是否为重题;
所述重题检测模型是以训练题目对中各训练题目的词相似度结果、所述语义相似度结果以及所述作答分布相似度结果为训练样本,以用于标识训练题目对中两个题目是否为重题的标注信息为样本标签训练得到。
图4为本申请实施例公开的一种重题检测系统的硬件结构框图,参照图4,重题检测系统的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器cpu,或者是特定集成电路asic
(applicationspecificintegratedcircuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取待进行重题检测的题目对;
确定所述题目对中每一题目的检测数据,所述检测数据包括题面数据、解析数据和学生作答数据;
根据所述题目对中每一题目的检测数据,确定所述题目对中两个题目的词相似度结果、语义相似度结果和作答分布相似度结果;
基于所述词相似度结果、所述语义相似度结果以及所述作答分布相似度结果,确定所述题目对中两个题目是否为重题。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:
获取待进行重题检测的题目对;
确定所述题目对中每一题目的检测数据,所述检测数据包括题面数据、解析数据和学生作答数据;
根据所述题目对中每一题目的检测数据,确定所述题目对中两个题目的词相似度结果、语义相似度结果和作答分布相似度结果;
基于所述词相似度结果、所述语义相似度结果以及所述作答分布相似度结果,确定所述题目对中两个题目是否为重题。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
1.一种重题检测方法,其特征在于,包括:
获取待进行重题检测的题目对;
确定所述题目对中每一题目的检测数据,所述检测数据包括题面数据、解析数据和学生作答数据;
根据所述题目对中每一题目的检测数据,确定所述题目对中两个题目的词相似度结果、语义相似度结果和作答分布相似度结果;
基于所述词相似度结果、所述语义相似度结果以及所述作答分布相似度结果,确定所述题目对中两个题目是否为重题。
2.根据权利要求1所述的方法,其特征在于,所述确定所述题目对中每一题目的检测数据,包括:
获取所述题目对中每一题目的原始数据;
基于所述题目对中每一题目的原始数据,确定所述题目对中每一题目的检测数据;
其中,所述基于所述题目对中每一题目的原始数据,确定所述题目对中每一题目的检测数据,包括:
将所述题目对中每一题目的原始数据,作为所述题目对中每一题目的检测数据;
或,
对所述题目对中每一题目的原始数据进行标准化处理,处理后的数据作为所述题目对中每一题目的检测数据。
3.根据权利要求1所述的方法,其特征在于,根据所述题目对中每一题目的检测数据,确定所述题目对中两个题目的词相似度结果,包括:
对所述题目对中每一题目的检测数据中的题面数据进行分词处理,得到所述题目对中每一题目的题面分词结果;
基于所述题目对中两个题目的题面分词结果,得到所述题目对中两个题目的词相似度结果。
4.根据权利要求1所述的方法,其特征在于,根据所述题目对中每一题目的检测数据,确定所述题目对中两个题目的语义相似度结果,包括:
对所述题目对中每一题目的检测数据中的题面数据和解析数据的组合进行语义分词处理,得到所述题目对中每一题目的第一语义分词结果;
基于所述题目对中两个题目的第一语义分词结果,得到所述题目对中两个题目的语义相似度结果。
5.根据权利要求3所述的方法,其特征在于,根据所述题目对中每一题目的检测数据,确定所述题目对中两个题目的作答分布相似度结果,包括:
对所述题目对中每一题目的检测数据中的学生作答数据进行语义分词处理,得到所述题目对中每一题目的第二语义分词结果;
基于所述题目对中两个题目的题面分词结果和第二语义分词结果,得到所述题目对中两个题目的作答分布相似度结果。
6.根据权利要求5所述的方法,其特征在于,所述基于所述题目对中两个题目的题面分词结果和第二语义分词结果,得到所述题目对中两个题目的作答分布相似度结果,包括:
基于所述题目对中每一题目的题面分词结果和第二语义分词结果,得到所述题目对中每一题目的错误作答分布相似度结果和正确作答分布相似度结果;
所述题目对中两个题目的错误作答分布相似度结果和正确作答分布相似度结果作为所述题目对中两个题目的作答分布相似度结果。
7.根据权利要求1所述的方法,其特征在于,所述基于所述词相似度结果、所述语义相似度结果以及所述作答分布相似度结果,确定所述题目对中两个题目是否为重题,包括:
将所述词相似度结果、所述语义相似度结果以及所述作答分布相似度结果,输入分类模型,确定所述题目对中两个题目是否为重题;
所述重题检测模型是以训练题目对中各训练题目的词相似度结果、所述语义相似度结果以及所述作答分布相似度结果为训练样本,以用于标识训练题目对中两个题目是否为重题的标注信息为样本标签训练得到。
8.一种重题检测装置,其特征在于,所述装置包括:
获取单元,用于获取待进行重题检测的题目对;
检测数据确定单元,用于确定所述题目对中每一题目的检测数据,所述检测数据包括题面数据、解析数据和学生作答数据;
相似度确定单元,用于根据所述题目对中每一题目的检测数据,确定所述题目对中两个题目的词相似度结果、语义相似度结果和作答分布相似度结果;
重题确定单元,用于基于所述词相似度结果、所述语义相似度结果以及所述作答分布相似度结果,确定所述题目对中两个题目是否为重题。
9.一种重题检测系统,其特征在于,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1至7中任一项所述的重题检测方法的各个步骤。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的重题检测方法的各个步骤。
技术总结