本发明属于基于计算机技术的考试评卷,尤其涉及一种基于hanlp的无纸化考试主观题自动评阅方法。
背景技术:
1、数字技术的迅猛发展,尤其是人工智能技术的显著进步,已使得无纸化考试系统实现了质的飞跃。这些先进的系统不仅能够管理整个考试流程,还省去了传统考试中繁琐的打印、批改、成绩统计和试卷归档等工作。这一变革清楚地表明,无纸化考试正在教育领域形成一股新兴的潮流。无纸化考试系统的应用范围已不仅限于高等院校,还逐渐扩展到企业培训和人才招聘等多种考试场景。这些系统通过提供稳定且高效的全流程在线考试服务,成功地满足了各类考试的多样化需求。随着技术的不断完善和社会的逐渐适应,无纸化考试有望成为未来考试方式的主流。
2、尽管无纸化考试系统已能实现客观题的自动评分,但主观题的评分仍主要依赖人工审阅,这导致了阅卷效率低下和评分一致性难以保证的问题。为了解决这一问题,行业内正在尝试利用文本相似度算法和模式识别技术来自动评阅主观题。文本相似度算法通过评估学生答案与标准答案之间的相似度来计算得分,而模式识别技术则尝试引入句法分析和模糊数学中的贴近度理论等高级方法,以更准确地评判答案的质量。然而,这些技术在处理复杂主观题时仍存在局限性,对于一些特定情况,如考生答案中的多个语句与参考答案中的一个语句相似,或者参考答案中的一个语句与考生答案中的多个语句相似,以及考生答案中关键词对得分的影响等问题,目前的自动阅卷系统还未能有效处理。
技术实现思路
1、针对上述问题,本发明提出一种基于hanlp的无纸化考试主观题自动评阅方法,包括以下过程:
2、步骤1,对主观题参考答案进行预处理;步骤包括段落拆分、语句拆分、词语拆分、关键词设定、语句得分点设定、关键词得分点设定、得分规则设定和生成自定义词典;其中,词语拆分是基于hanlp设置自定义词典路径、采用双向最长匹配并开启合并与词性标注功能,对语句拆分的语句列表中的语句进行逐句词语拆分,拆分的词语按照语句为单位分别存储,形成词语列表;通过以上步骤形成试题阅卷规则结构,包含试题id、试题分数、句子数量和句子列表;其中,句子列表包含句子分数、句子内容、判分方式、关键词分数和关键词列表;
3、步骤2,对主观题考生答案进行预处理;步骤包括段落拆分、语句拆分和词语拆分,其中,词语拆分采用hanlp分词模型,并融合分词策略;最终形成待评阅试题结构,包括试题id、得分、句子数量和句子列表;句子列表包含句子内容、句子得分、相似度、得分方式、关键词得分和关键词列表,关键词列表包含关键词和相似度;
4、步骤3,对考生答案进行相似度计算;步骤包括语句相似度计算、查找最匹配语句和词语相似度计算;
5、步骤4,试题得分计算;步骤包括计算参考答案语句得分和计算本题总得分。
6、优选的,所述步骤1中的关键词设定,具体为:在词语拆分后得到的词语列表中选择关键词,并放置到关键词列表中;为确保试题关键词的准确性和相关性,采用复选列表展示方式,在获取的词语列表中,形成一个可供选择的复选列表,这个列表包含了所有可能的词语及其对应的属性信息,包括词性、词义和出现频率;
7、命题专家将访问这个复选列表,进行关键词的选择,对每个词语进行复选,完成关键词设定,命题专家将通过逐句循环选择的方式,对试题中的每一句进行关键词的设定。
8、优选的,所述步骤1中的语句得分点设定是对本语句分数、得分阈值和得分计算方式的设定;语句分数是根据语句在答案中的重要性分配一个固定分值;得分阈值是确定相似度得分的一个界限,按照语句的重要性划分界限数值,那么只有当语句的相似度达到或超过界限数值时,该语句才能得分;得分计算方式分为分段式和比例式;分段式,为提前设定多个得分区间,每个区间由上限和下限构成,得分根据相似度落在的区间来确定;比例式为得分语句的总分乘以相似度。
9、优选的,所述步骤1中的关键词得分点设定包括匹配得分和漏词扣分两种方式,设定本语句关键词的总分;
10、其中,匹配得分方式为本语句关键词得分等于关键词总分除以关键词数量乘以匹配数量;
11、首先,系统将分析参考答案本语句中的关键词,并记录它们的数量以及它们的总分数;其次,系统将根据预设的阈值,对考生的答案进行逐个分析,统计考生答案中与参考答案中本语句关键词的匹配情况;如果出现多个考生答案中的关键词对应同一个参考答案中的关键词,系统将采用匹配度最高的关键词,以确保评分的准确性;最后,系统将综合以上信息,计算出考生在本语句关键词上的得分;
12、其中,漏词扣分方式为本语句关键词扣分等于关键总分除以关键词数量乘以漏词数量;
13、首先,系统将从标准答案中获取本语句的关键词,并记录这些关键词的数量以及它们得分;其次,系统将根据预设的阈值,对考生的答案进行详细分析,以统计考生答案中关键词与标准答案中本语句关键词的匹配程度;如果出现多个考生答案中的关键词对应同一个参考答案中的关键词,系统将采用匹配度最高的关键词;接下来系统进行反向统计,识别并记录那些在考生答案中未能与标准答案中本语句关键词匹配的关键词;最后,系统将综合以上统计信息,计算出考生因遗漏关键词而应被扣除的分数,扣分将基于关键词的重要性和考生答案中关键词的遗漏情况。
14、优选的,所述步骤1中的生成自定义词典,具体为:
15、通过对本次考试试卷中每道主观题参考答案中关键词的收集,形成自定义词典数据集,利用该数据集训练自定义word2vec模型;
16、数据准备:在数据准备阶段,首先对本次考试试卷中每道主观题的参考答案进行深入分析,以收集其中的关键词,这些关键词将被用于构建一个自定义的词汇表,该词汇表将反映专业学科知识的独特性;接下来,对文本进行预处理,包括将文本分割成单词或词汇单元,去除无关的标点、数字和特殊字符,此外,为确保单词的一致性,将所有文本转换为小写形式;最后对收集到的关键词进行去重处理,以形成最终精简的自定义词汇表;
17、训练自定义word2vec模型:选择skip-gram架构来训练自定义word2vec模型,skip-gram模型通过中心单词来预测上下文单词;
18、模型评估与调整:在模型训练完成后,使用一组测试答题的答案数据对自定义word2vec模型进行评估,对模型的参数进行必要的调整,以优化其性能。
19、优选的,所述步骤2中的词语拆分,采用hanlp分词模型,并融合三种不同的分词策略,包括ctb分词模型、pku分词模型以及bert分词模型,这三种模型各自针对不同的分词需求和场景,通过多次分词并合并去重,并包括以下过程:
20、首先,利用hanlp提供的ctb分词模型对语句进行第一次分词,能够识别和拆分出复杂的语法结构和词汇;接着,对语句进行第二次分词,使用的是hanlp的pku分词模型,能够识别和处理日常使用的词汇和句子结构;最后,对语句进行第三次分词,采用的是hanlp的bert分词模型,能够捕捉句子中的细微语义差异;通过这三次分词,得到三个不同角度的词语列表;为了合并这些列表并去除重复的词语,使用hanlp的去重功能,确保最终考生答案词语列表的准确性和完整性。
21、优选的,所述步骤3中的查找最匹配语句包括最高得分和最高相似度两种方式;
22、其中最高得分方式,首先汇总每个考生答案语句匹配不同参考答案语句下的得分情况填充参考答案与考生答案矩阵表;其次,依次筛选出参考答案句子对应考试答案中最高得分的句子;再次,判断没个参考答案句子对应的考试答案句子是否冲突,如果冲突则优先选择最高得分的,得分较低的更换其它考生答案句子;最后汇总出参考答案和考生句子的对应关系;
23、设参考答案的句子集合为r={r1,r2,...,rm},其中m是参考答案句子的总数;
24、设考生答案的句子集合为a={a1,a2,...,an},其中n是考生答案句子的总数;
25、定义得分矩阵s,其中sij表示考生答案句子ai与参考答案句子rj的匹配得分;
26、定义一个指示变量xij,如果考生答案句子ai与参考答案句子rj匹配,则xij=1,否则xij=0;
27、形成公式:
28、
29、其中最高相似度方式,首先汇总每个考生答案语句匹配不同参考答案语句下的相似度,然后按照参考答案分值降序方式对参考答案语句进行排序,再按照排序结果在考生答案中匹配出得分最高的对应语句,最后排除未被匹配的考试答案语句;
30、汇总相似度得分:对于每个考生答案句子ai和参考答案句子rj,计算相似度得分dij并填充相似度矩阵d;
31、排序参考答案语句:按照参考答案的分值v降序排序参考答案句子rj,得到排序后的参考答案句子集合r'={r′1,r′2,...,r′m};
32、匹配得分最高的对应语句:对于排序后的每个参考答案句子r'j,找出与其相似度得分最高的考生答案句子ai:
33、argmax1≤i≤ndij
34、排除未被匹配的考试答案语句:从考生答案集合a中移除已经被匹配的句子,得到最终的匹配结果。
35、优选的,所述步骤3中的的词语相似度计算是利用自定义word2vec模型计算参考答案每条语句中关键词与考生答案语句中词语的相似度,填充关键词相似矩阵;
36、设参考答案语句中的关键词集合为k={k1,k2,...,ki},其中i是关键词的总数;
37、设考生答案语句中的词语集合为w={w1,w2,...,wq},其中q是词语的总数;
38、定义相似度函数sim(ki,wj),表示关键词ki与词语wj的相似度;设定相似度阈值θ;
39、首先,获取参考答案语句中的一个关键词,并对考生答案匹配语句中的每个词语进行相似性对比,并记录相似性;
40、其次,根据设定的阈值,排除小于阈值的词语;对于每个关键词ki和词语wj,如果相似度sim(ki,wj)<θ,则排除该词语wj;
41、再次,循环完成参考答案语句中所有关键词相似度的计算,形成参考答案语句关键词和考生答案语句词语相似度矩阵:
42、sij=sim(ki,wj)
43、最后,统计出参考答案语句中所有关键词相似度的情况,并根据关键词得分点设置计算出该句关键词匹配的个数和漏词的个数。
44、优选的,所述步骤4中计算参考答案语句得分是根据关键词匹配得分方式或者漏词扣分方式循环计算参考答案每句相似得分和关键词得分,形成语句总得分;
45、所述步骤4中计算本题总得分是根据参考答案语句得分,汇总计算出本试题得分;
46、本试题得分为每句参考答案语句得分的总和,本地总得分公式:
47、
48、其中,n是参考答案中语句的数量,参考答案语句得分是第i个语句的得分。
49、优选的,所述关键词匹配得分方式具体为:语句总得分为语句相似得分加关键词匹配得分组成,两个分数之和为语句最终得分;关键词匹配得分为关键词得分等于关键词总分乘关键词匹配数量、再除答案中该语句关键词个数;关键词匹配得分可以通过以下公式计算:
50、
51、语句的总得分公式:
52、语句键得分(关键键匹配得分方式)=语句相似得分+关键键匹配得分
53、所述漏词扣分方式循环方式具体为:语句总得分为语句相似得分减关键词漏词扣分,两个分数的差为最终得分,扣分后如果语句得分小于0则设置为0;关键词漏词扣分为关键词总分乘未能匹配的关键词、再除答案中该语句关键词个数;
54、关键词漏词扣分可以通过以下公式计算:
55、
56、语句的总得分公式:
57、语句键得分=max(语句相似得分-关键键漏键扣分,0)。
58、与现有技术相比,本发明具有如下有益效果:
59、本发明通过结合hanlp和word2vec,实现分段、分句、分词,语句相似度和词语相似度的计算;基于试题得分计算规则得出试题分数。这种方法可以快速处理大量数据,使得自动阅卷成为可能,尤其在考生众多的考试中,能显著提高评分效率;能保持评分的一致性,每个考生的答案都按照统一标准评估,减少人为评分的主观偏差;减少对人力资源的依赖,长期来看,有助于降低考试评分成本;避免人为情感和偏见,提高评分的客观性。、
60、在语句拆分步骤中增加了对标点符号、特殊符号、控制字符、变音符号、非文本字符这些无效字符进行进行处理,确保后期处理的准确性。自定义的试题阅卷规则规定了判分方式、记录句子分数和关键词分数,提高了判分的灵活性和评阅速度。查找最匹配语句实现在最高得分和最高相似度两种方式下,避免考生同一语句重复与试题参考答案语句匹配,同时依照不同判分方式下更全面地评估考生的答题质量,并减少评分过程中的偏差。
1.一种基于hanlp的无纸化考试主观题自动评阅方法,其特征在于,包括以下过程:
2.如权利要求1所述的一种基于hanlp的无纸化考试主观题自动评阅方法,其特征在于,所述步骤1中的关键词设定,具体为:在词语拆分后得到的词语列表中选择关键词,并放置到关键词列表中;为确保试题关键词的准确性和相关性,采用复选列表展示方式,在获取的词语列表中,形成一个可供选择的复选列表,这个列表包含了所有可能的词语及其对应的属性信息,包括词性、词义和出现频率;
3.如权利要求1所述的一种基于hanlp的无纸化考试主观题自动评阅方法,其特征在于,所述步骤1中的语句得分点设定是对本语句分数、得分阈值和得分计算方式的设定;语句分数是根据语句在答案中的重要性分配一个固定分值;得分阈值是确定相似度得分的一个界限,按照语句的重要性划分界限数值,那么只有当语句的相似度达到或超过界限数值时,该语句才能得分;得分计算方式分为分段式和比例式;分段式,为提前设定多个得分区间,每个区间由上限和下限构成,得分根据相似度落在的区间来确定;比例式为得分语句的总分乘以相似度。
4.如权利要求1所述的一种基于hanlp的无纸化考试主观题自动评阅方法,其特征在于,所述步骤1中的关键词得分点设定包括匹配得分和漏词扣分两种方式,设定本语句关键词的总分;
5.如权利要求1所述的一种基于hanlp的无纸化考试主观题自动评阅方法,其特征在于,所述步骤1中的生成自定义词典,具体为:
6.如权利要求1所述的一种基于hanlp的无纸化考试主观题自动评阅方法,其特征在于:所述步骤2中的词语拆分,采用hanlp分词模型,并融合三种不同的分词策略,包括ctb分词模型、pku分词模型以及bert分词模型,这三种模型各自针对不同的分词需求和场景,通过多次分词并合并去重,并包括以下过程:
7.如权利要求1所述的一种基于hanlp的无纸化考试主观题自动评阅方法,其特征在于:所述步骤3中的查找最匹配语句包括最高得分和最高相似度两种方式;
8.如权利要求5所述的一种基于hanlp的无纸化考试主观题自动评阅方法,其特征在于:所述步骤3中的的词语相似度计算是利用自定义word2vec模型计算参考答案每条语句中关键词与考生答案语句中词语的相似度,填充关键词相似矩阵;
9.如权利要求1所述的一种基于hanlp的无纸化考试主观题自动评阅方法,其特征在于:
10.如权利要求9所述的一种基于hanlp的无纸化考试主观题自动评阅方法,其特征在于:
