本发明涉及数据处理,具体涉及一种基于汉语分词特征分析的写作能力评估方法及装置。
背景技术:
1、写作能力评估是促进个体语言素养提升、响应社会需求、推动教育质量和人才发展的重要工具和途径。传统的写作能力评估主要依靠专业人员进行人工评估,但这种方式评估时间长、成本高并且容易受到主观因素的干扰。
2、鉴于此,目前需要一种更高效地评估被测试者写作能力的方法。
技术实现思路
1、有鉴于此,本发明提供了一种基于汉语分词特征分析的写作能力评估方法及装置,以实现多维度、高效、准确地评估待测试对象的写作能力。
2、第一方面,本发明提供了一种基于汉语分词特征分析的写作能力评估方法,方法包括:获取待测试对象的写作文本,并提取写作文本在一个或者多个指定维度下的特征序列;针对一个或者多个指定维度中任一目标维度下的特征序列,获取与特征序列相匹配的参考序列;对比特征序列和参考序列,并基于对比结果得到特征序列的相似性系数;根据各个特征序列的相似性系数,确定写作文本的置信度;根据写作文本的置信度,生成待测试对象的写作能力信息。
3、在本公开实施例中,通过提取待测试对象的写作文本在指定维度下的特征序列,并对比与特征序列相匹配的参考序列,得到待测试对象的写作能力信息。能够从多个维度对待测试对象的写作能力进行评估,并通过数据直观反映,评估结果更贴近待测试对象的写作能力水平特征。同时,在实施过程中人工投入小,数据处理对设备要求不高。
4、在一种可选的实施方式中,取待测试对象的写作文本包括:获取待测试对象的手写文稿,并将手写文稿转换为电子文稿;识别电子文稿中具备第一格式的目标字符,并在电子文稿中确定包含目标字符的语义字段;基于语义字段表征的语义,将电子文稿中的目标字符修正为第二格式的转换字符,并基于修正后的电子文稿生成待测试对象的写作文本。
5、在本公开实施例中,通过文字识别技术获取电子文稿,并结合语义分析对文字识别后的结果进行修正。不仅能够确保写作文本的准确性,还适用于多个场景。
6、在一种可选的实施方式中,指定维度包括字词、句、词搭配、依存关系、结构、词汇衔接、语法衔接、话题衔接中的至少一种。
7、在本公开实施例中,以字词、句、词搭配、依存关系、结构、词汇衔接、语法衔接、话题衔接中的至少一种作为标准进行写作能力评估,能够针对特定方面对待测试者的写作能力进行标准化的评估。
8、在一种可选的实施方式中,提取写作文本在多个指定维度下的特征序列包括:基于文本处理函数和分词库,获取写作文本的分词结果和词性标注结果;基于分词结果、词性标注结果及文本分析函数,获取写作文本在指定维度下的初始特征序列;对初始特征序列中非数量统计类的序列数据进行预处理,并构建包含预处理后的特征参数的特征序列。
9、在本公开实施例中,通过提取写作文本在多个指定维度下的特征序列,并对提取到的序列数据进行预处理,方便后续特征序列与参考序列的比较。
10、在一种可选的实施方式中,获取与特征序列相匹配的参考序列包括:根据写作文本的文本主题,获取参考对象针对文本主题的参考文本;提取参考文本在目标维度下的参考序列,并将提取的参考序列作为与特征序列相匹配的参考序列。
11、在本公开实施例中,通过获取参考对象在确定文本主题下的参考文本,并提取参考文本在目标维度下的参考序列。可以保证参考文本与写作文本在内容上的紧密关联性,使写作能力评估结果更具有比较价值。
12、在一种可选的实施方式中,对比特征序列和参考序列,并基于对比结果得到特征序列的相似性系数包括:判断特征序列和参考序列表征的数据类型;根据数据类型确定特征序列的相似性系数。
13、若特征序列和参考序列均表征数量统计类的序列,在特征序列和参考序列中确定相匹配的特征参数对,并计算各个特征参数对的参数比值;基于各个参数比值的均值,生成特征序列和参考序列之间的相似度,并基于相似度确定特征序列的相似性系数。若特征序列和参考序列均表征非数量统计类的序列,计算特征序列和参考序列的皮尔逊系数,并基于皮尔逊系数确定特征序列的相似性系数
14、在本公开实施例中,根据信息特征类型进行处理,简化数据分析过程。
15、在一种可选的实施方式中,确定写作文本的置信度包括:构建包含各个特征序列的相似性系数的相似性系数向量;获取与特征序列相匹配的权重系数;基于相似性系数向量与权重系数,生成写作文本的置信度。
16、在本公开实施例中,通过调整特征序列的权重,可以根据实际需求,调整不同维度下的特征序列的重要性。
17、第二方面,本发明提供了一种基于汉语分词特征分析的写作能力评估装置,装置包括:特征提取模块,用于提取待测试对象的写作文本在指定维度下的特征序列;参考数据获取模块,用于针对任一指定维度下的特征序列,获取与特征序列相匹配的参考序列;数据处理模块,用于对比特征序列和参考序列,并基于对比结果得到特征序列的相似性系数;置信度计算模块,用于根据各个特征序列的相似性系数,确定写作文本的置信度;结果生成模块,用于根据写作文本的置信度,生成待测试对象的写作能力信息。
1.一种基于汉语分词特征分析的写作能力评估方法,其特征在于,所述方法包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,所述获取待测试对象的写作文本包括:
3.根据权利要求1所述的方法,其特征在于,所述指定维度包括字词、句、词搭配、依存关系、结构、词汇衔接、语法衔接、话题衔接中的至少一种。
4.根据权利要求1所述的方法,其特征在于,所述提取所述写作文本在一个或多个指定维度下的特征序列包括:
5.根据权利要求1所述的方法,其特征在于,所述获取与所述特征序列相匹配的参考序列包括:
6.根据权利要求1所述的方法,其特征在于,所述对比所述特征序列和所述参考序列,并基于对比结果得到所述特征序列的相似性系数包括:
7.根据权利要求6所述的方法,其特征在于,若所述特征序列和所述参考序列均表征数量统计类的序列,所述根据所述数据类型确定所述特征序列的相似性系数包括:
8.根据权利要求6所述的方法,其特征在于,若所述特征序列和所述参考序列均表征非数量统计类的序列,所述根据所述数据类型确定所述特征序列的相似性系数包括:
9.根据权利要求1所述的方法,其特征在于,所述确定所述写作文本的置信度包括:
10.一种基于汉语分词特征分析的写作能力评估装置,其特征在于,所述装置包括:
