一种高效的可解释序列模型构建方法及系统

专利2026-05-03  8


本发明属于序列数据处理,尤其涉及一种基于随机麦克劳林特征注意力的可解释序列模型构建方法及系统。


背景技术:

1、在当前信息时代,序列数据处理已成为许多领域中至关重要的任务,例如自然语言处理、时间序列分析、基因组学和金融预测等。随着深度学习技术的发展,基于神经网络的序列模型如循环神经网络(rnn)和注意力机制(attention mechanism)已成为处理序列数据的主流方法之一。注意力机制在处理序列数据时能够有效地对序列中不同部分进行加权,从而使得模型能够更好地关注于关键信息,提高了模型的性能和可解释性。然而,目前基于注意力的序列模型在实际应用中仍存在一些挑战和不足之处。首先,传统的注意力机制往往依赖于固定的特征表示,忽略了数据中的非线性结构和高阶关联,导致模型的表达能力受限,难以捕捉到数据中的更深层次的特征信息。其次,注意力机制通常需要计算所有序列元素之间的相似度,导致计算复杂度高,尤其是对于长序列数据而言,计算开销较大,限制了模型的扩展性和实用性。此外,现有的注意力机制在处理长序列数据时容易出现信息丢失和模型不稳定等问题,影响了模型的性能和可解释性。

2、近年来,基于随机特征核方法的注意力机制逐渐引起了研究人员的关注。随机特征核方法通过将原始特征映射到高维随机特征空间,利用随机特征核函数来近似原始特征空间中的核函数,从而提高了模型的表达能力和计算效率。相比于传统的注意力机制,基于随机特征核方法能够更好地捕捉到数据中的非线性结构和高阶关联,同时减少了计算复杂度,提高了模型的扩展性和实用性。

3、通过上述分析,现有技术存在的问题及缺陷为:

4、(1)传统的注意力机制往往依赖于固定的特征表示,忽略了数据中的非线性结构和高阶关联,导致模型的表达能力受限,难以捕捉到数据中的更深层次的特征信息;

5、(2)注意力机制通常需要计算所有序列元素之间的相似度,导致计算复杂度高,尤其是对于长序列数据而言,计算开销较大,限制了模型的扩展性和实用性;

6、(3)现有的注意力机制在处理长序列数据时容易出现信息丢失和模型不稳定等问题,影响了模型的性能和可解释性。

7、工业应用中存在的技术问题:

8、第一,实时处理能力有限:

9、尽管随机特征核方法通过降低计算复杂度提高了处理速度,但在需要极端实时处理的工业应用中(如金融市场监控、实时医疗监测),即使是小幅的延迟也影响决策的及时性和准确性。

10、在金融交易系统中,微秒级的延迟导致大量的经济损失;在医疗监控系统中,实时性的不足影响病情监测和紧急响应的效果。

11、第二,随机性带来的不稳定性:

12、虽然随机特征核方法利用随机映射以降低维度和计算复杂度,但随机性也导致模型结果的不稳定,尤其是在随机特征数量不足以充分覆盖数据复杂性时。在制造业质量控制或者自动驾驶系统的感知模块中,模型的不稳定导致误判,影响系统的安全性和可靠性。

13、第三,长序列数据的有效处理问题:

14、尽管改进的随机特征核方法降低了长序列数据的处理复杂度,但长序列中信息丢失和权重分配不均的问题仍影响模型性能。在物流和供应链管理中,长期的数据序列需要用于预测未来需求和库存控制,模型在处理这些长序列数据时的不足导致供应链中断或资源浪费。


技术实现思路

1、针对现有技术存在的问题,本发明提供了一种基于随机麦克劳林特征注意力的可解释序列模型构建方法及系统。

2、本发明是这样实现的,一种基于随机麦克劳林特征注意力的可解释序列模型构建方法,包括:

3、步骤一,训练嵌入矩阵,输入向量与训练得到的嵌入矩阵相乘得到嵌入向量;

4、步骤二,使用序列模型前向传播算法根据嵌入向量输入计算激活向量;

5、步骤三,使用基于随机麦克劳林特征的注意力机制计算每个激活向量对所有嵌入向量的注意力分数;

6、步骤四,根据注意力分数对嵌入向量加权求和,通过线性网络和激活函数得到预测值;

7、步骤五,根据预测值和真实值计算损失函数,通过梯度下降法对参数进行更新,重复步骤二至五直到模型收敛;

8、步骤六,解释模型,根据嵌入矩阵、模型参数和注意力分数计算输入向量每一维度对输出结果的贡献,作为序列模型的特征重要性解释。

9、进一步,所述随机麦克劳林特征是一种基于随机特征核方法的技术,数学定义:为输入向量,z:为一个随机特征映射,其中d和d为向量维度,z(·)满足条件<z(x),z(y)>≈k(x,y)=f(<x,y>),其中k(x,y)为点积核函数,基于麦克劳林展开的随机特征映射z(·)的计算方法如下:

10、1.计算f(·)的麦克劳林展开其中为麦克劳林展开式的系数;

11、2.取一超参数p>1,从集合中随机选择一个整数n,满足

12、3.从集合{-1,+1}d中随机选取n个拉德马赫随机变量ω1,...,ωn,构造特征映射z1:

13、4.固定超参数p,重复步骤2和3获取d个特征映射z1,...,zd;

14、5.输出随机特征映射z:

15、由此构造的随机特征映射,将输入向量映射后相乘可以得到原函数的近似:

16、

17、进一步,所述基于麦克劳林展开的随机特征方法,随机麦克劳林特征使用随机特征近似点积核f(<x,y>)=k(x,y)≈<z(x),z(y)>,z:将f(<x,y>)=exp(<x,y>)应用到注意力计算公式中得到:

18、

19、进一步,所述序列模型的特征重要性解释,假设模型基于注意力分数at对嵌入向量et加权求和,得到注意力输出并使用线性网络和激活函数值

20、

21、考虑到嵌入向量et可以看作嵌入矩阵wemb列根据xt元素的加权和,公式变形为:

22、

23、其中,wemb[:,l]表示切片操作,由此输入向量xi的每个元素xi,l对预测值为yt的贡献可以表示为:

24、ω(yt,xi,l)=ai·wemb[:,l]

25、ω(yt,xi,l)即序列模型的特征重要性解释。

26、本发明的另一目的在于提供一种基于随机麦克劳林特征注意力的可解释序列模型构建系统,所述基于随机麦克劳林特征注意力的可解释序列模型构建系统包括:

27、输入模块,用于获取输入数据;

28、嵌入模块,用于获取特征向量嵌入;

29、激活模块,用于根据嵌入向量输入计算激活向量;

30、注意力模块,用于计算每个激活向量对所有嵌入向量的注意力分数;

31、输出模块,用于得到预测结果。

32、本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述基于随机麦克劳林特征注意力的可解释序列模型构建方法的步骤。

33、本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述基于随机麦克劳林特征注意力的可解释序列模型构建方法的步骤。

34、本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述基于随机麦克劳林特征注意力的可解释序列模型构建系统。

35、结合上述的技术方案和解决的技术问题,本发明所要保护的技术方案所具备的优点及积极效果为:

36、第一、本发明旨在结合基于麦克劳林展开的随机特征近似点积核函数注意力机制,设计一种可解释序列模型的高效构建方法,以提高注意力计算模块的性能,同时提高模型的可解释性。

37、(1)本发明利用随机麦克劳林特征加速注意力模块的计算,提供了一种高效的注意力计算方法。本发明通过引入随机麦克劳林特征,有效地降低了注意力计算的复杂度,从而提供了一种高效的注意力计算方法。随机麦克劳林特征能够在保持模型性能的同时,显著减少计算量,使得模型能够更快地进行训练和推理,大大提高了模型的实用性和效率。

38、(2)本发明利用注意力分数构建端到端序列模型的特征重要性解释,提供了一种序列模型解释方法。本发明提出的方法利用注意力分数来解释模型对输入序列的关注程度,从而实现了对模型内部决策的解释。通过这种方法,可以清晰地了解模型在生成序列时所依据的重要特征,进而提高了模型的可解释性,使得模型的应用范围更加广泛和可靠。

39、第二,本发明提出的基于随机麦克劳林特征注意力的可解释序列模型构建方法,旨在解决现有序列模型在解释性方面的不足。通过引入随机麦克劳林特征的注意力机制,不仅提高了模型的预测性能,同时也增强了模型的可解释性。以下是该方法解决的技术问题以及获得的技术进步:

40、解决的技术问题:

41、1.模型预测性能的提升:传统的序列模型在处理复杂序列数据时,往往难以充分捕捉序列中的关键信息。本发明通过引入基于随机麦克劳林特征的注意力机制,能够自适应地关注序列中对结果影响较大的部分,从而提高模型的预测精度。

42、2.模型可解释性的增强:现有的很多深度学习模型,尤其是黑箱模型,其决策过程难以被理解和解释。本发明通过计算输入向量每一维度对输出结果的贡献,为模型提供了直观的特征重要性解释,使得模型的使用者能够更好地理解模型的决策过程。

43、获得的技术进步:

44、1.创新的注意力机制:本发明提出了基于随机麦克劳林特征的注意力机制,这一机制在序列模型中尚未被广泛研究和应用。该机制能够更好地捕捉序列中的关键信息,为序列模型的性能提升提供了新的思路。

45、2.增强的模型可解释性:通过计算输入向量每一维度对输出结果的贡献,本发明为序列模型提供了更加直观和具体的特征重要性解释。这不仅有助于理解模型的决策过程,还能够为后续的模型优化提供有价值的指导。

46、本发明提出的基于随机麦克劳林特征注意力的可解释序列模型构建方法,在提升模型预测性能、增强模型可解释性以及提高模型优化效率等方面都取得了显著的技术进步。

47、第三,作为本发明的权利要求的创造性辅助证据,还体现在以下几个重要方面:

48、(1)本发明的技术方案转化后的预期收益和商业价值为:

49、通过引入基于随机麦克劳林特征注意力的方法,将大幅提升现有序列模型的性能和可解释性,使得模型更加准确地捕捉序列数据中的关键特征和模式,从而为用户提供更可靠的预测和决策支持。该方法能够显著降低计算复杂度并提高模型的扩展性,将有效降低序列数据处理过程中的计算成本和资源消耗,为企业节省大量的时间和资源成本。由于序列模型具有广泛的应用前景,本发明可在自然语言处理、时间序列分析、基因组学、金融预测等领域得到广泛应用,为相关行业带来巨大的商业价值和市场潜力。

50、(2)本发明的技术方案填补了国内外业内技术空白:

51、本发明通过引入随机麦克劳林特征注意力的方法降低了注意力模块的计算开销,填补了传统注意力机制在序列模型中的技术空白;通过展示模型对于序列数据的关注点和决策依据,填补了序列模型的可信度和公平性的空白。

52、(3)本发明的技术方案解决了人们一直渴望解决、但始终未能获得成功的技术难题:

53、本发明通过引入基于麦克劳林展开的随机特征核方法,显著提高了注意力模块的计算效率,从而有效解决了传统注意力机制在处理长序列数据时计算复杂度高的问题,大幅降低了模型的训练和推理时间成本。本发明通过结合随机特征核方法和注意力机制,使得模型能够更好地捕捉序列数据中的非线性结构和高阶关联,进而提升了序列模型的可解释性,使得模型的预测结果更加符合人类直觉和专业知识,为用户提供了更加清晰和可信的解释和推理过程。本发明的技术方案在提升注意力模块的效率和提高序列模型的可解释性方面取得了突破性进展,为解决当前序列数据处理和模式识别领域中的关键技术难题提供了新的解决方案和思路。

54、(4)本发明的技术方案克服了技术偏见:

55、传统的注意力机制在计算相似度时需要考虑序列中所有元素之间的关系,导致计算复杂度高,特别是在处理长序列数据时,其计算开销巨大。本发明引入了随机麦克劳林特征核方法,将原始序列数据映射到高维随机特征空间,通过在随机特征空间中进行计算,避免了直接计算原始序列数据间的相似度,从而大大降低了计算复杂度,提高了模型的计算效率,克服了计算复杂度偏见。

56、传统的序列模型在处理过程中缺乏足够的可解释性,难以清晰地解释模型的推理过程和决策依据,这限制了其在实际应用中的可信度和可用性。本发明基于注意力机制,将重点放在序列中的关键部分,通过对注意力权重的解释和可视化,使得模型的推理过程更加透明和可解释,为用户提供了更可信的解释和决策依据,增强了模型的可解释性和可信度,克服了可解释性偏见。


技术特征:

1.一种基于随机麦克劳林特征注意力的可解释序列模型构建方法,其特征在于,包括:

2.根据权利要求1所述的基于随机麦克劳林特征注意力的可解释序列模型构建方法,其特征在于,所述随机麦克劳林特征是一种基于随机特征核方法的技术,数学定义:为输入向量,为一个随机特征映射,其中d和d为向量维度,z(·)满足条件<z(x),z(y)>≈k(x,y)=f(<x,y>),其中k(x,y)为点积核函数,基于麦克劳林展开的随机特征映射z(·)的计算方法如下:

3.根据权利要求1所述的基于随机麦克劳林特征注意力的可解释序列模型构建方法,其特征在于,所述基于麦克劳林展开的随机特征方法,随机麦克劳林特征使用随机特征近似点积核f(<x,y>)=k(x,y)≈<z(x),z(y)>,将f(<x,y>)=exp(<x,y>)应用到注意力计算公式中得到:

4.根据权利要求1所述的基于随机麦克劳林特征注意力的可解释序列模型构建方法,其特征在于,所述序列模型的特征重要性解释,假设模型基于注意力分数at对嵌入向量et加权求和,得到注意力输出并使用线性网值

5.一种实施如权利要求1-4任意一项所述于随机麦克劳林特征注意力的可解释序列模型构建系统,其特征在于,所述于随机麦克劳林特征注意力的可解释序列模型构建系统包括:

6.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1-4任意一项所述于随机麦克劳林特征注意力的可解释序列模型构建方法的步骤。

7.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1-4任意一项所述于随机麦克劳林特征注意力的可解释序列模型构建方法的步骤。

8.一种信息数据处理终端,其特征在于,所述信息数据处理终端用于实现如权利要求5所述于随机麦克劳林特征注意力的可解释序列模型构建系统。

9.一种基于权利要求1所述方法的自然语言处理中的文本分类方法,其特征在于,包括以下步骤:

10.一种基于权利要求1所述方法的金融时间序列预测方法,其特征在于,包括以下步骤:


技术总结
本发明属于序列数据处理技术领域,公开了一种高效的可解释序列模型构建方法及系统,包括:训练嵌入矩阵,输入向量与训练得到的嵌入矩阵相乘得到嵌入向量;计算激活向量;使用基于随机麦克劳林特征的注意力机制计算每个激活向量对所有嵌入向量的注意力分数;根据注意力分数对嵌入向量加权求和,通过线性网络和激活函数得到预测值;通过梯度下降法对参数进行更新,直到模型收敛;计算输入向量每一维度对输出结果的贡献,作为序列模型的特征重要性解释。本发明利用随机麦克劳林特征加速注意力模块的计算,提供了一种高效的注意力计算方法;利用注意力分数构建端到端序列模型的特征重要性解释,提供了一种序列模型解释方法。

技术研发人员:丁立中,果宇涵
受保护的技术使用者:北京理工大学
技术研发日:
技术公布日:2024/7/25
转载请注明原文地址: https://bbs.8miu.com/read-439851.html

最新回复(0)