本发明涉及人工智能与智慧教育的交叉领域,具体是一种基于bert神经网络的慕课帖子分类方法,可应用于各种慕课平台中论坛帖子的分类。
背景技术:
1、与传统的线下授课相比,大规模开放在线课程(massive online open courses,moocs,中文简称慕课)能使学习者更方便的参与课程,更容易获取学习资源。在授课的过程中,学习者与授课教师之间的互动是必不可少的一部分,慕课平台通过讨论论坛为双方提供了一个交流平台。学习者能在论坛表达自己的困惑,教师则通过论坛及时解决学习者的问题。但当帖子数量过多时,教师便无法及时回复每个帖子。实际上,在所有的帖子中大约只有20%是紧急的,这些紧急的帖子需要优先回复。因此,帮助教师自动识别紧急帖子,是优化学生学习过程、提高学生学习参与感和完成度的重要手段。
2、在区分紧急帖子上,慕课平台曾要求学习者在发帖的同时根据实际情况对帖子进行标记,以方便教师对帖子进行区分,但学习者往往不能正确标记帖子,使得真正的紧急帖子得不到正确分类。在早期的研究中,研究者使用传统的机器学习方法区分紧急帖子,如svm、k-means等,但这些算法并不能很好的理解每个单词的含义,在处理上下文方面也存在一定的缺陷,导致分类的效果并不理想。随着预训练语言模型(pre-trained languagemodels,plms)的广泛普及,现有主流研究使用强大的bert作为编码器来编码慕课帖子上下文中的信息。为此,本发明提出了一种基于bert神经网络的慕课帖子新型分类方法,通过在bert的下游构建由cnn、lstm和gru等组成的全局和局部语义细化网络,进一步提高慕课帖子的分类效果。
技术实现思路
1、本发明公开了一种基于bert神经网络的慕课帖子分类方法,能够快速区分出慕课论坛中的紧急帖子和非紧急帖子,其特征在于包括以下步骤:
2、s1.将慕课帖子送入一个bert神经网络进行处理,得到慕课帖子的bert编码;
3、s2.将慕课帖子的bert编码送入一个由卷积神经网络cnn和双向gru网络组成的局部语义细化层,得到慕课帖子的局部细化分类子向量;
4、s3.将慕课帖子的bert编码送入一个由双层逐点前馈网络、线性变换层、多头自注意力与门控组成的全局语义细化层,得到慕课帖子的全局细化分类子向量;
5、s4.将慕课帖子的局部细化分类子向量和全局细化分类子向量连结起来,得到慕课帖子的分类向量,然后将分类向量送入分类层,得出慕课帖子关于紧急帖子与非紧急帖子的类别标签;
6、所述gru网络是cho等人在论文“cho k,van merri¨enboer b,gulcehre c,bahdanau d,bougares f,schwenk h,bengio y(2014)learning phrase representationsusing rnn encoder-decoder for statistical machine translation.in:proceedingsof the 2014 conference on empirical methods in natural language processing,pp1724-1734.”中提出的门控循环单元(gated recurrent unit,gru)网络;
7、所述bert神经网络是指google ai language在论文“devlin j,chang m w,leek,et al.bert:pre-training of deep bidirectional transformers for languageunderstanding[j].arxiv preprint arxiv:1810.04805,2018”中提出的bidirectionalencoder representations from transformers(bert)语言模型;
8、进一步的,所述步骤s1具体包括:
9、s1.1将慕课帖子的文本句子s送入bert的分词器tokenizer,得到慕课帖子在bert中的子词序列其中n为x的长度,dw为子词编码的维度;
10、s1.2将慕课帖子的子词序列x送入bert的编码器,得到慕课帖子的bert编码h∈rn*d,其中d为bert中隐藏状态的维度;
11、进一步的,所述步骤s2具体包括:
12、s2.1将慕课帖子的bert编码h送入一个窗口大小为1的增强卷积神经网络enhcnn中进行语义增强学习,得到慕课帖子的增强编码计算过程如下所示:
13、
14、其中,enhcnn(·)表示窗口大小为1的增强卷积神经网络enhcnn,函数σ1(·)表示神经网络中的relu激活函数,分别表示enhcnn中所有滤波器的权重与偏置,e为enhcnn中滤波器filter的个数,“*”表示卷积运算;
15、s2.2将慕课帖子的增强编码分别送入三个窗口大小为2、3、4的并行卷积神经网络cnn2、cnn3、cnn4中进行深度局部特征学习,并采用左右边界0填充,得到慕课帖子的三个并行局部特征计算过程如下所示:
16、
17、其中,cnni(·)表示窗口大小为i的卷积神经网络,分别表示窗口大小为i的卷积神经网络中所有滤波器的权重与偏置,所述id表示i与d相乘,dl=d/3表示卷积神经网络中滤波器filter的个数,且三个并行卷积神经网络的滤波器filter的个数都为dl;
18、s2.3将慕课帖子的三个并行局部特征的隐藏状态连接起来,得到慕课帖子的组合局部特征计算过程如下所示:
19、
20、其中,[;]表示连接操作;
21、s2.4将慕课帖子的组合局部特征送入一个双向gru网络进行局部特征的深度语义细化,并将每个方向的gru网络中最后一个时间步所对应的隐藏状态连接起来,得到慕课帖子的局部细化分类子向量zl,计算过程如下所示:
22、
23、
24、
25、其中,分别表示从左到右、从右到左的gru网络,分别表示与中第一个时间步到第n个时间步的隐藏状态序列,分别表示与的输出,dr表示gru网络中隐藏状态的维度;
26、进一步的,所述步骤s3具体包括:
27、s3.1将慕课帖子的bert编码h送入一个双层逐点前馈网络,得到慕课帖子的前馈细化语义计算过程如下所示:
28、
29、其中,ffn(·)表示一个双层逐点前馈网络,分别为ffn(·)中第一层逐点前馈网络的权重与偏置,分别为ffn(·)中第二层逐点前馈网络的权重与偏置;
30、s3.2将慕课帖子的前馈细化语义与bert编码h的隐藏状态连接起来,得到慕课帖子的前馈连接细化语义并对其进行线性变换与多头注意力处理,得到慕课帖子的前馈融合细化语义计算过程如下所示:
31、
32、
33、其中,分别为线性变换层的权重与偏置,mhsa(·)表示一个缩放点积多头自注意力,所述缩放点积多头自注意力为论文“vaswani a,shazeer n,parmar n,et al.attention is all you need[j].advances in neural informationprocessing systems,2017,30.”所提出;
34、s3.3将慕课帖子的前馈融合细化语义的平均池化向量与bert分类符[cls]在中的隐藏状态hcls∈rd连接起来,得到慕课帖子的前馈细化分类子向量zf,计算过程如下所示:
35、
36、其中,avgpool(·)表示平均池化操作;
37、s3.4慕课帖子的前馈细化分类子向量zf送入一个门控进行过滤,得到慕课帖子的全局细化分类子向量zg,计算过程如下所示:
38、δ=σ2(wszf+bs)∈r2d (11)
39、zg=δ⊙zf∈r2d (12)
40、其中,δ为zf的门控系数,ws∈r2d×2d、bs∈r2d分别为门控中的权重与偏置,σ2(·)表示神经网络中的sigmoid激活函数;
41、更进一步的,所述步骤s4具体包括:
42、s4.1将慕课帖子的局部细化分类子向量zl和全局细化分类子向量zg连结起来,得到慕课帖子的分类向量z,计算过程如下所示:
43、
44、s4.2将分类向量z送入分类层,得到慕课帖子关于紧急帖子与非紧急帖子的类别标签计算过程如下所示:
45、o=woz+bo (14)
46、p=softmax(o) (15)
47、
48、其中,o∈r|ω|为分类向量z在标签集合ω={“紧急帖子”,“非紧急帖子”}上的置信向量,|ω|为标签集合ω中的标签个数,bo∈r|ω|分别为分类层中的权重与偏置,p∈r|ω|为慕课帖子在标签集合ω上的概率分布向量,softmax(·)表示神经网络中的归一化指数函数,表示求使得p(y)为最大值的ω中标签y,p(y)表示p中标签y的概率,y为ω中的任意一个标签。
49、本发明具有以下优点:
50、(1)使用bert模型的输出作为动态词向量,使同一个单词能在不同的慕课帖子上下文表示不同的语义,以便下游网络能更精确的提取出文本特征。
51、(2)使用一种新的全局语义细化方法:利用堆叠的双层逐点卷积和自注意力机制对bert输出的向量进行全局语义细化,以生成更具表现力的全局分类向量。
52、(3)提出一种新的局部语义提取方法:利用一种特征增强cnn和并行cnn对bert的输出进行局部语义提取,再利用bi-gru进一步提取局部特征,生成更具表现力的局部分类向量。
1.一种基于bert神经网络的慕课帖子分类方法,能够快速区分出慕课论坛中的紧急帖子和非紧急帖子,其特征在于包括以下步骤:
