本发明涉及教育数据挖掘领域,尤其涉及一种基于校园大数据的学生成绩预测方法。技术背景物联网、大数据和人工智能技术的兴起,一方面,为当下正处于探索之中的智慧校园建设提供了更加有力的发展环境;另一方面,在为师生提供便利的同时,也积累了相当可观的海量数据资源。对这些数据背后所蕴藏的丰富信息进行挖掘,不仅有助于深入理解学生的行为模式,对探索个性化学习服务具有重要的研究价值;而且也有助于评估当前智慧校园的发展现状,对智慧校园的进一步建设与优化具有重要的借鉴价值。对于“大数据”(bigdata),研究机构gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。校园作为一个小社会,其发展道路与社会发展有着相似的要求和规律。自20世纪80年代起,各学校逐渐开始建设支撑教学、科研、生活等活动的信息化系统。目前,全国大多数高校已初步建立了智慧校园体系。智慧校园运行所产生的数据主要来源于在校学生。利用spoc或mooc进行线上学习,利用一卡通、wifi开展线下活动,已成为当代大学生日常生活必不可少的重要环节。虽然智慧校园环境下,学生数据的来源已涵盖其学习和生活的方方面面。但是,以往关于学生成绩预测的研究并没有充分发挥和利用这一海量数据的天然优势,其相关研究存在以下几点不足:以往研究要么依赖于调查问卷,费时费力效率不高,且可行性也值得推敲;要么仅仅聚焦某单一学生行为(例如:线上学习),不能全面地反映学生的行为模式;要么不考虑时间因素的影响,不能反映学生行为模式随时间的动态变化过程。因此,探索一种基于校园大数据的学生成绩预测方法,运用时下热门的大数据、人工智能、时频分析技术对学生线上学习行为与线下生活行为进行综合分析,对学生成绩进行精准预测,具有重要的研究意义和应用价值。技术实现要素:本发明的目的是针对已有学生成绩预测方法所存在的不足,提供一种基于校园大数据的学生成绩预测方法,综合利用线性分析、深度学习和非线性分析技术,从行为变化、勤奋度和行为非线性三个方面系统地构建学生行为特征体系,通过对学生行为模式的深入挖掘,能较科学地、全面地对学生成绩进行预测,对高挂科风险学生提供预警。为达到发明目的,本发明采用下述技术方案。一种基于校园大数据的学生成绩预测方法,包括:(1)数据融合;(2)特征计算;(3)成绩预测。所述步骤(1)中数据融合具体为:在数据汇聚与预处理的基础上,构建数据模型,为后端的特征计算提供数据准备。具体操作:第一,数据汇聚与预处理:首先,数据汇聚。采集智慧校园环境下至少一个学期(复习考试周之前)的:(a)spoc(smallprivateonlinecourse,小规模限制性在线课程)线上学习行为数据:spoc线上学习平台的log日志详细记录了学生登录、登出spoc平台的学习行为数据;(b)一卡通和wifi线下生活行为数据:一方面,各高校一卡通管理中心会保留每位学生的校园卡使用数据。该数据详细记录了学生在校园餐厅和超市等地的消费记录、进图书馆记录、图书借阅记录、校医院预约记录、羽毛球等场馆的使用记录等原始数据;另一方面,各高校网络管理中心会自动保留一段时期内全校wifi的接入数据,该数据详细记录了哪位同学在哪个时间登录或登出了校园内哪个位置的wifi。其次,数据预处理。考虑到保护学生隐私的需求,在对原始数据中有问题或无效字段进行清洗的基础上,对学生学号进行加密处理后,将相关数据写入数库。第二,构建数据模型:首先,理清多维行为关键字段间的对应关系,建立按时间排布的学生行为序列集,实现多维行为的汇聚与融合。其次,把每个学生的每种行为按周次进行初步统计,生成按周统计的行为序列(例如:每周就餐的总次数和总金额、每周单次消费的平均金额等)。最后,设置长度为10分钟的时间窗口,把每个学生同一时间窗口内的同一种行为数据进行合并,生成多维行为序列。所述步骤(2)中特征计算具体为:从行为变化、勤奋度、行为非线性三个方面构建系统的行为特征体系,深入挖掘学生的多维行为模式及其动态变化过程。具体操作:第一,分别借助线性回归和长短期记忆模型(lstm),对学生行为的变化进行度量:(a)借助线性回归,计算行为的斜率、拐点以及残差平方和(rss),对一段时间内学生行为的线性变化进行度量。其中,斜率的值表征学生行为改变的方向和强度:斜率的绝对值越大表征学生行为变化越快,斜率的正负表征行为改变的方向。拐点是学生行为的断点,表征学生行为方式发生改变的时间,在断点之前和之后,学生的行为方式有所不同。残差平方和(rss)表征学生行为的线性拟合度:残差平方和(rss)越大,学生行为的线性拟合度越差。(b)另一方面,借助lstm,提取学生行为的时间序列特征。lstm所提取的特征无量纲,反应了行为特征与时序之间的关系,即:学生行为随时间的动态变化过程。第二,计算勤奋度指标,对学生学习的努力程度进行度量。其主要指标包括:进图书馆次数、图书借阅次数、出勤率、学习时长等。一般来说,进图书馆次数和图书借阅次数越多、出勤率越高、学习时间越长,学生学习越努力。第三,计算行为非线性指标,对学生多维行为的非线性特征进行度量。其主要指标包括:熵、复杂度(complexity)、李氏指数(lyapunovexponent)、hurst指数(hurstexponent)和dfa指数(detrendedfluctuationanalysis),分别表征了学生行为的规律性/多样性、复杂程度、稳定性、可预测性和长程相关性。这五个指标,从不同角度衡量了学生行为的非线性特征:一般来说,熵值越大,表征学生行为的规律性越差、不确定性越高(多样性越好);复杂度越大,表征学生行为的复杂程度越高;李氏指数越大,表征学生行为的稳定性越差;在hurst指数大于0.5时,其数值越大,表征学生行为的可预测性越好;而dfa指数越大,表征学生行为的长程相关性越显著。所述步骤(3)中成绩预测具体为:在特征选择的基础上,构建预测模型,对学生成绩进行预测,对高挂科风险学生提供反馈和预警。具体操作:首先,特征选择:在特征预处理(缺省值处理和归一化)的基础上,通过相关性分析,提取对学生成绩影响显著的特征集。其次,成绩预测:基于机器学习构建分类算法,对学习成绩进行预测,并通过交叉验证,检验预测算法的性能。最后,学情预警:基于所预测的成绩,对高挂科风险学生提供反馈和预警。本发明与已有技术相比,具有如下显而易见的突出实质性特点和显著的技术进步:就数据融合而言,本发明在智慧校园环境下,以学习者为中心,开展了动态的、无侵入式的数据采集,实现学生线上线下、课内课外多维行为数据的汇聚和融合;就特征计算而言,本发明综合利用线性分析、深度学习和非线性分析技术,从行为变化、勤奋度和行为非线性三个方面系统地构建学生多维行为特征体系,深入挖掘学生行为模式及其动态变化;就成绩预测而言,本发明基于机器学习算法,构建高精度的成绩预测模型,为高挂科风险学生群体提供反馈和预警。附图说明图1为本实施例方法的流程框图。图2为本实施例中hmm熵的计算框图。具体实施方式为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。如图1所示,一种基于校园大数据的学生成绩预测方法,包括以下步骤:(1)数据融合(1-1)数据汇聚与预处理:首先,数据汇聚部分:在智慧校园环境下,本实施例以学习者为中心,开展动态的、无侵入式的学生多维行为数据采集:(a)获取spoc线上学习数据。spoclog日志记录了学生在spoc平台的登录、登出等行为数据。(b)获取以一卡通和wifi为代表的线下生活行为数据。一方面,通过高校一卡通管理中心获得学生的一卡通使用数据。该数据详细记录了学生在校园餐厅和超市等地的消费记录、进图书馆记录、图书借阅记录、校医院预约记录、羽毛球等场馆的使用记录等原始数据;另一方面,通过高校网络管理中心获得全校wifi的接入数据。该数据详细记录了哪位同学在哪个时间登录或登出了校园内哪个位置的wifi。其次,数据预处理部分:(a)对数据进行清洗,删除有问题的或无用的数据。(b)采用crypto.cipher的aes算法,对学生学号等敏感信息进行加密,以保护学生的个人隐私。(c)将数据写入postgresql数据库,便于后续的进一步查询和分析。关于原始数据的几点说明:(i)spoc、一卡通和wifi的数据量都相对比较大,格式不统一(例如,spoclog日志:含登录/登出时间、点击按钮、观看视频/课件等行为数据;一卡通就餐记录:含就餐地点、就餐时间、消费金额等信息;一卡通图书借阅记录:含借书、还书、续借书的具体时间,以及所借书目的名称、作者、金额等信息;wifi记录:含学生登录或登出校园某区域wifi的具体时间,以及wifi信号强度等信息),但其数据结构都相对简单。以一卡通消费和wifi数据为例,虽然二者关键字段不同,见表1和表2,但都是结构化的数据。(ii)spoc、一卡通和wifi记录均与学生学号关联,而学号是学校为每一位学生分配的一个标识符,具有唯一性和排他性。因此,本实施例通过学号,将每位学生多个维度的行为数据从spoc、一卡通和wifi记录里提取出来。表1一卡通消费数据关键字段说明表2wifi数据关键字段说明学号时间信号强度rssiwifi接入点2019abcdef20190527-07:24:09-70学生宿舍52019abcdef20190527-07:36:13-652餐厅2019abcdef20190527-07:55:41-60教学楼1(1-2)构建时间序列模型,为后端的特征计算提供数据准备:首先,理清多维行为关键字段之间的对应关系,按时间顺序将其编码成具有统一格式的离散时间序列,实现多维行为的汇聚与融合。具体操作:把每位学生的行为数据按关键字段进行抽取,以时间为顺序,构建多维行为序列i=(e1,e2,…,en),其中ei表示第i种行为事件,ei=(t,l,p,m,a)。ei中含有五个关键字段:(i)t表示行为发生的具体时间;(ii)l表示行为所发生的具体地点;(iii)p表示该行为的具体类别(例如:就餐、进图书馆、图书借阅等);(iv)m表示该行为所产生的消费金额;(v)a表示与该行为相关的其他备注信息(例如:图书借阅行为包括三种类型:借书、还书、续借);若没有备注信息,则为空。其次,构建按周统计的序列。将行为轨迹i按不同行为和周次进行划分,统计每种行为一周内发生频次与消费金额(总和、均值等)等基本信息。以就餐行为为例,表3给出了前三周某学生就餐行为的统计信息,该信息主要包含了:每周就餐的总次数、消费的总金额、单次平均消费金额。表3某学生前三周就餐行为统计学号周次该周总次数该周总金额(元)该周单次平均消费金额(元/次)2018abcded1523.04.62018abcded221116.55.52018abcded31975.84.0第三,构建多维行为序列。设置长度为10分钟的时间窗口,把每位学生(每天同一时间窗口内的)同一种行为数据进行合并。具体操作:首先,按10分钟一个时间窗口,把每天划分为144个时间窗口;其次,在同一个时间窗口内,若多个行为事件ei具有相同的l(地点)和p(类别),则将其合并为一个新的行为事件其中t表示该学期的第几个10分钟时间窗口,具体计算为:t=(d-1)×24×6 wd表示本学期的第几天;w表示该天的第几个时间窗口,1≤w≤144。最后,用合并后的事件组成新的多维行为序列举例:表1中前两行数据是同一名学生的餐厅消费数据,可分别表示为ei1和ei2,见表4。由于(i)“20190527”是学校开学后的第92天,即:d=92;而“17:32:41”和“17:37:46”均属于当天的第106个时间窗口(17:30:00-17:39:59),即:w=17×6 4=106,所以t=(92-1)×144 106=13210。因此,ei1和ei2可合并为见表4:表4同一时间窗口内某行为序列的合并(2)特征计算综合利用线性分析、非线性分析和深度学习技术,从行为变化、勤奋度和行为非线性三个方面系统地对学生行为的特征进行计算,构建学生行为特征体系。(2-1)计算行为的变化。在实际校园生活中,学生行为可能随着学期的进行,而产生或多或少的变化。本实施例在对每周行为特征进行初步统计的基础上,分别采用线性回归和长短期记忆模型(lstm)厘清学生行为随时间的变化规律。(2-1-1)借助线性回归,计算学生行为的斜率、拐点及残差平方和(rss)。本实施例针对每位学生的每种行为,进行了两种方式的线性拟合:(i)学生行为在一个学期中可能存在拐点,即:可以在学期中找到一周,在此周之前和之后,学生的行为方式会有所不同。本实施例通过两个线性回归函数分别拟合学生行为从学期初到拐点(即:“前半学期”)和从拐点到学期末(即:“后半学期”)的斜率、拐点及残差平方和(rss),以捕获学生行为模式在前、后两个学期的变化。(ii)同时,学生行为在一整个学期内可能存在一个总的线性变化趋势,即:随着时间的推移,某行为可能变得更加积极或消极。本实施例通过一个线性回归函数拟合学生行为在一整个学期的变化曲线(斜率和rss),以捕获学生行为在一个学期的线性变化规律。以某学期进图书馆次数为例,其正斜率表示随着教学周的推进,学生去图书馆次数逐渐增多;而负斜率表示去图书馆次数逐渐减少。本实施例认为:一个好的线性拟合模型应该具有所有模型中最低的贝叶斯信息量(bayesianinformationcriterion,bic)。因此,本实例采用bic选择最佳线性回归模型。(2-1-2)借助长短期记忆模型(lstm),计算学生行为在一学期内的动态变化。本实施例采用keras库中的lstm和bidional函数,构建双向lstm网络,对行为特征的时序关系进行拟合。同时,采用scikit-learn库中的gridsearchcv函数,对双向lstm网络中的超参数进行优化。(2-2)计算勤奋度。本实施例勤奋度的度量指标主要包括:进图书馆次数、图书借阅次数、出勤率、学习时长等。其中,进图书馆次数、图书借阅次数可由一卡通数据获得;而出勤率和学习时长是由wifi数据获得:具体来说,出勤率的计算是通过查询wifi数据中,学生是否在上课时间按时接入课程所在教学楼的wifi接入点;而学习时长的计算,是通过统计wifi数据中,学生连入学校教学区中所有wifi接入点的总时长。(2-3)计算行为的非线性特征。本实施例非线性特征的度量指标主要包括:熵、复杂度、李氏指数、hurst指数、dfa指数。这五个非线性参数分别表征了行为的规律性/多样性、复杂程度、稳定性、可预测性和长程相关性。(2-3-1)基于隐马尔可夫模型(hiddenmarkovmodel,hmm)计算熵:hmm熵,其计算步骤如图2所示:(i)基于行为事件中的p字段生成学生行为的隐状态序列,即把中的行为字段数字化(例如:把图书借阅、进图书馆、就餐、超市消费……等不同种类的学生行为分别数字化为1、2、3、4……)。同时,基于中的l或a字段生成学生行为的显状态序列,即把行为所发生的具体地点/类型进行数字化(例如:把图书借阅行为的三种具体类型:借书、还书、续借分别数字化为1、2、3)。(ii)采用matlab的hmmestimate函数计算隐状态和显状态序列的转移矩阵和发射矩阵。其中,转移矩阵是隐状态之间的转换概率矩阵,表征某一行为状态转移到另一行为状态的概率(例如:在图书借阅行为发生的情况下,就餐行为随之发生的概率)。发射矩阵是从隐状态到显状态之间的发射概率矩阵,表征一行为中各具体类型所发生的概率(例如:就餐行为在1餐厅、2餐厅或3餐厅分别发生的概率;图书借阅行为中借书、还书或续借分别发生的概率)。(iii)采用matlab的entropy函数,分别计算转移矩阵和发射矩阵多种行为的熵,即:hmm熵。(2-3-2)采用acss库中的change_complexity函数,计算复杂度;采用nolds库中的lyap_e,hurst_rs,dfa三个函数,分别计算李氏指数、hurst指数、dfa指数。(2-3-3)本实施例所构建的多维行为特征体系,如表5所示。表5多维行为特征体系说明(3)成绩预测(3-1)特征选择。首先,对有缺漏的行为特征进行补零处理;同时,为消除不同特征之间数量级的差异,采用最大最小归一法将所有特征缩放到0到1之间。其次,在python3.7环境下,采用scikit-learn库中的selectkbest函数作为特征选择函数、采用f_classif作为评价指标,筛选对成绩影响较为显著的特征集。(3-2)成绩预测算法。基于机器学习算法构建分类模型,对学习成绩进行预测。首先,基于五种机器学习算法:随机森林(randomforest,rf)、梯度提升决策树(gradientboostregressiontree,gbrt)、k最近邻(k-nearestneighbor,knn)、支持向量机(supportvectormachine,svm)和极端梯度提升(extremegradientboosting,xgboost),构建分类模型。其次,采用scikit-learn库中的gridsearchcv函数,对各机器学习算法中的超参数进行优化。最后,采用scikit-learn库中的cross_validate函数进行十折交叉验证,对预测结果进行检验。说明:五种机器学习算法性能上各有优点。以gbrt算法为例,gbrt是一种泛化能力较强的迭代决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。该算法有以下三个优点:(i)可以灵活处理混合型数据(异构特征);(ii)强大的预测能力;(iii)在输出空间中对异常点的鲁棒性(通过具有鲁棒性的损失函数实现,如huber损失函数和分位数损失函数)。但总的来说,五种机器学习算法的分类性能在本数据集上差别不大。(3-3)学情预警。本实施例在复习考试周之前,基于所预测的成绩,对高挂科风险学生提供反馈和预警,提醒其重视学业、调整自身状态,以更好地迎接期末考核。本发明未详细阐述的部分属于本领域公知技术。应当说明的是,以上包含的本发明实例内容说明,是为了详解释本发明的技术特征。在不脱离本发明的前提下,所作出的若干改进和修饰也受本发明的保护,因此本发明的保护范围应当以本申请的权利要求所界定的内容为标准。当前第1页1 2 3 
技术特征:1.一种基于校园大数据的学生成绩预测方法,其特征在于该方法包括以下步骤:
(1)数据融合;
以学习者为中心,开展动态的、无侵入式的学生多维行为数据采集,实现线上线下、课内课外校园大数据的汇聚与融合;
(2)特征计算;
综合利用线性分析、深度学习和非线性分析技术,从行为变化、勤奋度和行为非线性三个角度对学生行为特征进行量化与计算,构建系统的多维行为特征体系;
(3)成绩预测;
在特征选择的基础上,构建预测模型,对学生成绩进行预测,对高挂科风险学生提供反馈和预警。
2.根据权利要求1所述的一种基于校园大数据的学生成绩预测方法,其特征在于步骤(1)所述的数据融合的具体过程如下:
(1-1)数据汇聚与预处理:首先,收集智慧校园环境下以spoc为代表的线上学习行为数据和以一卡通和wifi为代表的线下生活行为数据,实现学生线上线下、课内课外校园大数据的汇聚;其次,执行对数据的清洗、加密、和入库操作;
(1-2)构建时间序列模型:基于spoclog日志、一卡通和wifi数据,构建学生多维行为的时间序列模型;首先,理清多维行为关键字段间的对应关系,建立按时间排布的学生行为序列集,实现多维行为的汇聚与融合;其次,把每个学生的每种行为按周次进行初步统计,生成按周统计的行为序列;最后,设置长度为10分钟的时间窗口,把每个学生同一时间窗口内的同一种行为数据进行合并,生成多维行为序列。
3.根据权利要求1所述的一种基于校园大数据的学生成绩预测方法,其特征在于步骤(2)所述的特征计算的具体过程如下:
(2-1)分别借助线性回归和长短期记忆模型对学生行为的变化进行度量;
(2-1-1)借助线性回归,计算行为的斜率、拐点以及残差平方和,对一段时间内学生行为的线性变化进行度量;其中,斜率的值表征学生行为改变的方向和强度:斜率的绝对值越大表征学生行为变化越快,斜率的正负表征行为改变的方向;拐点是学生行为的断点,表征学生行为方式发生改变的时间,在断点之前和之后,学生的行为方式有所不同;残差平方和表征学生行为的线性拟合度:残差平方和越大,学生行为的线性拟合度越差;
(2-1-2)借助lstm,提取学生行为的时间序列特征;lstm所提取的特征无量纲,反应了行为特征与时序之间的关系,即:学生行为随时间的动态变化过程;
(2-2)计算勤奋度指标,对学生学习的努力程度进行度量,指标包括:进图书馆次数、图书借阅次数、出勤率、学习时长;
(2-3)计算行为非线性指标,对学生多维行为的非线性特征进行度量,指标包括:熵、复杂度、李氏指数、hurst指数和dfa指数,分别表征了学生行为的规律性/多样性、复杂程度、稳定性、可预测性和长程相关性,这五个指标,从不同角度衡量了学生行为的非线性特征:熵值越大,表征学生行为的规律性越差、不确定性越高即多样性越好;复杂度越大,表征学生行为的复杂程度越高;李氏指数越大,表征学生行为的稳定性越差;在hurst指数大于0.5时,其数值越大,表征学生行为的可预测性越好;dfa指数越大,表征学生行为的长程相关性越显著。
4.根据权利要求1所述的一种基于校园大数据的学生成绩预测方法,其特征在于步骤(3)所述的成绩预测的具体过程如下:
(3-1)在对行为特征进行预处理的基础上,通过特征选择,提取对学生成绩影响显著的特征集;
(3-2)基于机器学习算法构建分类模型,对学习成绩进行预测,并借助交叉验证,检验预测模型的性能;
(3-3)基于所预测的成绩,对高挂科风险学生群体提供反馈和预警。
技术总结本发明涉及教育数据挖掘领域,提供一种基于校园大数据的学生成绩预测方法,包括:(1)数据融合;在智慧校园环境下,以学习者为中心,开展动态的、无侵入式的数据采集,实现学生线上线下、课内课外多维行为数据的汇聚和融合;(2)特征计算;综合利用线性分析、深度学习和非线性分析技术,从行为变化、勤奋度和行为非线性三个方面系统地构建学生多维行为特征体系,深入挖掘学生行为模式及其动态变化;(3)成绩预测;基于机器学习算法,构建高精度的成绩预测模型,为高挂科风险学生群体提供反馈和预警。本发明方法能够科学地、全面地对学生成绩进行预测,对高挂科风险学生提供预警。
技术研发人员:杨宗凯;刘三女牙;赵亮;朱晓亮;孙建文;刘智
受保护的技术使用者:华中师范大学
技术研发日:2020.01.14
技术公布日:2020.06.09