一种大模型舆论话题传播关键协作群体发现方法及系统

专利2026-05-10  8


本发明属于大模型应用,尤其涉及一种大模型舆论话题传播关键协作群体发现方法及系统。


背景技术:

1、舆论话题传播网络用于建模人们如何在社交媒体和在线平台上共享和传播信息。了解舆论话题的传播方式和模式可以帮助理解公众对特定事件、问题或主题的态度和观点,掌握舆论动态,从而更好地进行舆情分析、舆论引导和决策支持。舆论话题传播过程中,基于个体之间的协同和合作工作,形成具有共同兴趣、目标或身份认同的协作群体。关键协作群体发现旨在通过分析舆论话题传播网络数据,来识别和理解对话题传播起重要推动作用的协作群体的组成和结构,从而有助于发现话题传播中潜在的重要合作者和影响者,为信息传播、舆论干预和引导等战略任务提供基础。


技术实现思路

1、针对如何有效的从舆论话题传播网络的图数据处理领域向大语言模型应用领域进行知识转移、并在此基础上运用大模型的理解和推理能力,提供可理解的舆论话题传播网络的协作群体发现,本发明提出了一种大模型舆论话题传播关键协作群体发现方法及系统。

2、本发明方法的技术方案为一种大模型舆论话题传播关键协作群体发现方法,具体包括以下步骤:

3、步骤1:根据关键字和目标时间段,采用数据爬取技术,获取特定主题的在线社交媒体舆论话题数据集,针对获取的舆论话题传播数据集,构建舆论话题传播数据集对应的舆论话题传播网络模型;

4、步骤2:将舆论话题传播网络模型中每个节点的文本属性采用自然语言处理编码器进行特征提取,得到舆论话题传播网络模型中每个节点的文本属性特征,进一步作为舆论话题传播网络模型中每个节点的初始特征,采用图神经网络图卷积模型对舆论话题传播网络模型中每个节点的进行多层图卷积编码,得到舆论话题传播网络模型中每个节点的特征表示向量;

5、步骤3:针对舆论话题传播网络模型图上已经标注的节点结合步骤2得到的舆论话题传播网络模型中每个节点的特征表示,通过多层感知机网络进行训练,采用交叉熵损失函数,以学习到节点所属不同类别的分类模型;根据学习到的分类模型进行预测得到舆论话题传播网络模型图上未标注的各节点的类别软标签;

6、步骤4:将特定主题的舆论话题传播数据集划分为训练集和测试集,基于舆论话题传播网络节点的上下文环境及对应的类别标签、构建问答对;结合基于图结构信息的节点分类知识,构建大模型微调损失函数,进行大模型微调,得到基于大模型的协作节点分类微调模型;

7、步骤5:设计大模型舆论话题传播协作群体发现应用的提示词模板,计算当前舆论传播网络图的特征表示,将当前舆论传播网络图的特征表示向量作为token文本,与舆论传播网络图的描述性文本及相关计算结果一同作为配置信息,放入大模型提示词;

8、步骤6:根据学习到的微调模型,由步骤5设计的提示词输入大模型微调后模型,生成特定主题的舆论话题传播网络的关键协作群体并给出解释。

9、作为优选,步骤1所述特定主题的在线社交媒体舆论话题数据集包括:

10、每个账号节点的多个舆论文本、每个账号节点的每个舆论文本的相互转发关系;

11、步骤1所述构建舆论话题传播数据集对应的舆论话题传播网络模型,具体如下:

12、特定主题的在线社交媒体舆论话题数据集中各账号节点建模为图的节点集合v,各账号节点关联的舆论文本建模为图节点属性集合a,账号节点间根据相互转发关系建模为图的边集合e,据此得到与获取的舆论话题传播数据集对应的舆论话题传播网络模型g(v,e,a);

13、所述各账号节点关联的舆论文本通过爬取技术实现;

14、所述根据数据集中节点的转发关系通过每个账号节点的每个舆论文本的相关字段构建转发关系;

15、根据当前舆论话题传播的关键协作群体发现应用需求和先验知识,采用人工标注方式,对图g中的一部分节点进行基于协作类别的标注,形成带标注的节点集合vlabel。人工标注的标准,根据舆论话题传播过程中的转发行为,是否存在频繁转发带有煽动性或攻击性的和低质量、带误导性的信息内容,同时结合社交媒体平台的用户反馈和举报作为重要参考依据,由人工对数据集中的恶意转发节点,进行标记。

16、作为优选,步骤2所述舆论话题传播网络模型中每个节点的文本属性特征,定义如下:

17、av=τ(av),v∈v

18、其中,τ为自然语言处理编码器如:bert编码器,av为节点v关联的舆论文本,av为节点v文本编码后的特征。

19、步骤2所述采用图神经网络图卷积模型对舆论话题传播网络模型中每个节点的进行多层图卷积编码,具体如下:

20、节点v本地采用随机游走方式提取节点k跳邻居节点形成子图g’(v),k由上层应用指定;

21、在该子图基础上采用基于消息传递与聚合方式,构建k层图卷积编码。在第0层卷积即初始状态,节点初始特征定义为节点文本属性特征编码,具体如下:

22、

23、在第k,k≥1,层通过消息传递后,如公式所示,

24、

25、其中,节点v处聚合了其邻接节点n(v)在第k-1层的特征,表示聚合后的特征,为节点v的邻接节点n(v)在第k-1层的特征,其中agg为聚合函数,由上层应用定义。

26、通过融合节点在第k-1层的节点特征及第k-1层形成的聚合邻居特征得到第k层卷积上形成的节点特征向量如公式所示,

27、

28、其中,为节点v在第k-1层的节点特征,为节点v的邻居节点在第k-1层的特征,σ为激活函数,w1(k-1),w2(k-1)是通过训练得到的该层上的权重参数;为通过融合第k-1层的节点特征及第k-1层形成的聚合邻居特征hu(k-1)得到的节点v在第k层的特征。

29、经过k层图卷积后,得到舆论话题传播网络模型图;

30、舆论话题传播网络模型图中任一节点v基于图结构化的特征表示向量

31、

32、作为优选,步骤3所述针对舆论话题传播网络模型图上已经标注的节点结合步骤2得到的舆论话题传播网络模型中每个节点的特征表示,具体如下:

33、通过一个2层的全连接层神经网络和一个映射层的方式得到,

34、

35、其中,hv表示节点v的特征表示,2-fnn表示2层全连接网络,φ表示一个映射层,将经过全连接网络的结果映射为0-1的概率值,为经过映射层后得到的节点类别概率值;

36、采用交叉熵损失函数进行训练,其训练的损失函数l为,

37、

38、

39、其中,表示训练中,各节点v与其标签yv之间的标准交叉熵损失函数,而损失函数l则为训练集合中所有节点的交叉熵损失函数值之和,c表示标注的节点类别数量。yvj表示节点v属于类别j的指示变量,即:如果节点v属于类别j则yvj=1,否则yvj=0。pvj则表示模型对节点v预测为类别j的概率;

40、通过交叉熵损失函数l的约束,使得训练过程中学习到的节点类别分布与标注的类别分布尽可能一致,由此学习到节点所属不同类别的分类模型。

41、步骤3所述根据学习到的分类模型进行预测得到舆论话题传播网络模型图上未标注的各节点的类别软标签,具体如下:

42、

43、其中,为经过映射层后得到的节点类别概率值,2-fnn表示2层全连接网络,φ表示一个映射层,hv表示节点v的特征表示;

44、作为优选,步骤4所述构建问答对,具体如下:

45、所述上下文环境定义为:指定网络节点v及其k跳邻居;

46、所述问题输入为:指定网络节点v及其k跳邻居信息,k由上层应用设定;根据标注的节点类别标签及未标注节点由步骤3得到的软标签,作为大模型输出答案;构建基于训练集的“问—答”对;

47、步骤4所述构建大模型微调损失函数,具体如下:

48、

49、其中,为节点v的预测结果,为节点v预测结果与真值yv之间的交叉熵损失值,为节点v预测结果与图神经网络模型的节点分类结果之间的kl散度,λ为超参数;

50、步骤4所述进行大模型微调,具体如下:

51、通过损失函数ltune,在训练过程中引入图神经网络模型的基于图结构化节点类别分布知识,并迁移到当前大语言模型的微调过程中,使其适应于下游任务;

52、步骤4所述微调后的模型能学习舆论传播网络中到协作节点类别的分布;

53、作为优选,步骤5具体包括:

54、步骤5所述提示词模板包括:应用背景、配置信息和问题指令;

55、步骤5.1:设置提示词模板的应用背景,具体如下,

56、“应用背景”设置具体舆论话题传播关键协作群体发现应用背景相关的文字描述。

57、步骤5.2:定义提示词模板的配置信息,具体如下,

58、“配置信息”定义舆论话题传播关键协作群体发现应用的配置信息,包含当前舆论话题传播网络图的特征表示及网络描述性文本及相关统计量信息。

59、当前舆论话题传播网络的特征表示,即:由步骤2得到的舆论话题传播网络节点的特征表示向量,采用池化技术后得到全图的特征表示向量,

60、hg=pool({hv:v∈v}),

61、其中,pool为池化函数,由上层应用指定,hv表示节点v的特征表示,hg为舆论话题传播网络图g的全图特征表示;

62、将当前舆论话题传播网络图的特征表示向量作为token文本,与当前舆论话题传播网络图的描述性文本及相关计算结果一同作为大模型提示词,具体如下,

63、当前舆论话题传播网络图<graph token>,舆论话题传播网络的源节点名称<n_name1,n_name2…>,源节点特征<n_token1,n_token2…>,网络度中心性节点名称<cn_name1,cn_name2…>,度中心性节点特征<cn_token1,cn_token2…>,其1跳邻居名称<1h_name1,1h_name2…>,特征为<1-h_token1,1-h_token2…>,其2跳邻居名称为<2h_name1,2h_name2…>,特征为<2-h_token1,2-h_token2…>,网络介数中心性节点<bn_name1,bn_name2…>,介数中心性节点特征<cn_token1,cn_token2…>,其1跳邻居节点名称为<1h_name1,1h_name2…>,特征为<1-h_token1,1-h_token2…>,其2跳邻居名称为<2h_name1,2h_name2…>,特征为<2-h_token1,2-h_token2…>,网络ks节点名称为<kn_name1,kn_name2…>,ks节点特征为<kn_token1,kn_token2…>,其1跳邻居名称为<1h_name1,1h_name2…>,特征为<1-h_token1,1-h_token2…>,其2跳邻居名称为<2h_name1,2h_name2…>,特征为<2-h_token1,2-h_token2…>;

64、其中,舆论话题传播网络的源节点,即话题传播的初始节点,输入其节点名称和节点特征编码,由步骤2得到;

65、网络度中心性节点定义为:网络中节点度数排名前n的节点。度中心节点将根据其边的连接关系,提取其1跳邻居节点和2跳邻居节点,分别输入1跳邻居节点名称及1跳邻居特征编码,由步骤2得到,以及2跳邻居节点名称及2跳邻居特征编码编码,由步骤2得到;

66、网络介数中心性节点定义为:网络中节点的介数排名前n的节点;

67、介数中心节点将根据其边的连接关系,提取其1跳邻居节点和2跳邻居节点,分别输入1跳邻居节点名称及1跳邻居特征编码,由步骤2得到,以及2跳邻居节点名称及2跳邻居特征编码编码,由步骤2得到;

68、其中,介数的计算可通过图论和网络分析中常规介数计算方法得到;

69、网络ks节点定义为:网络中节点的k-shell值排名前n的节点,n由上层应用指定。k-shell值的计算可以根据图论中的k-shell算法得到。网络重要节点将根据其边的连接关系,提取其1跳邻居节点和2跳邻居节点,分别输入1跳邻居节点名称及1跳邻居特征编码,由步骤2得到,以及2跳邻居节点名称及2跳邻居特征编码编码,由步骤2得到;

70、其中,网络节点k-shell值的计算可以根据图论中的k-shell算法得到;

71、步骤5.3:定义提示词模板的问题指令,“问题指令”定义为:针对由步骤5.1定义的应用背景和步骤5.2定义的配置信息,推理当前舆论话题传播网络中的关键协作群体并给出解释。

72、本发明还提供了一种大模型舆论话题传播关键协作群体发现系统,包括:

73、所述舆论话题传播网络模型构建模块,用于根据关键字和目标时间段,采用数据爬取技术,获取特定主题的在线社交媒体舆论话题数据集,针对获取的舆论话题传播数据集,构建舆论话题传播数据集对应的舆论话题传播网络模型;

74、所述节点特征表示向量提取模块,用于将舆论话题传播网络模型中每个节点的文本属性采用自然语言处理编码器进行特征提取,得到舆论话题传播网络模型中每个节点的文本属性特征,进一步作为舆论话题传播网络模型中每个节点的初始特征,采用图神经网络图卷积模型对舆论话题传播网络模型中每个节点的进行多层图卷积编码,得到舆论话题传播网络模型中每个节点的特征表示向量;

75、所述类别软标签提取模块,用于针对舆论话题传播网络模型图上已经标注的节点结合步骤2得到的舆论话题传播网络模型中每个节点的特征表示,通过多层感知机网络进行训练,采用交叉熵损失函数,以学习到节点所属不同类别的分类模型;根据学习到的分类模型进行预测得到舆论话题传播网络模型图上未标注的各节点的类别软标签;

76、所述协作节点分类微调模型构建模块,用于将特定主题的舆论话题传播数据集划分为训练集和测试集,基于舆论话题传播网络节点的上下文环境及对应的类别标签、构建问答对;结合基于图结构信息的节点分类知识,构建大模型微调损失函数,进行大模型微调,得到基于大模型的协作节点分类微调模型;

77、所述大模型提示词构建模块,用于设计大模型舆论话题传播协作群体发现应用的提示词模板,计算当前舆论传播网络图的特征表示,将当前舆论传播网络图的特征表示向量作为token文本,与舆论传播网络图的描述性文本及相关计算结果一同作为配置信息,放入大模型提示词;

78、所述关键协作群体生成模块,用于根据学习到的微调模型,由步骤5设计的提示词输入大模型微调后模型,生成特定主题的舆论话题传播网络的关键协作群体并给出解释。

79、本发明提供的方法具有如下优点或者有益技术效果:

80、本发明提出了一种基于知识转移的大模型舆论话题传播关键协作群体发现方法,首先利用图神经网络和人工标注的应用相关的部分节点类别,获取舆论传播网络的图结构化信息和节点类别软标签。在此基础上,将学习到的网络图结构化信息知识注入大模型,通过大模型微调,使得大语言模型学习到图结构化知识,具备学习节点协作类别分布的能力。通过提示词工程,推理舆论传播网络中对传播起重要推动作用的关键协作群体,并给出解释。大语言模型具有强大的理解和推理能力,但并不擅长提取和理解图结构化特征,本发明充分利用图神经网络对于图结构化信息的理解和特征表示能力,将图模型学习到的图结构化知识转移到大语言模型中,增强大语言模型对于图数据的理解和推理能力,将其运用于舆论话题传播关键协作群体发现应用任务,同时运用大模型的语言生成能力,提供可理解的协作群体发现的解释,有效服务于舆论引导和干预等战略任务。


技术特征:

1.一种大模型舆论话题传播关键协作群体发现方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的大模型舆论话题传播关键协作群体发现方法,其特征在于:

3.根据权利要求2所述的大模型舆论话题传播关键协作群体发现方法,其特征在于:

4.根据权利要求3所述的大模型舆论话题传播关键协作群体发现方法,其特征在于:

5.根据权利要求4所述的大模型舆论话题传播关键协作群体发现方法,其特征在于:

6.根据权利要求5所述的大模型舆论话题传播关键协作群体发现方法,其特征在于:

7.根据权利要求6所述的大模型舆论话题传播关键协作群体发现方法,其特征在于:

8.根据权利要求7所述的大模型舆论话题传播关键协作群体发现方法,其特征在于:

9.根据权利要求8所述的大模型舆论话题传播关键协作群体发现方法,其特征在于:

10.一种大模型舆论话题传播关键协作群体发现系统,其特征在于,包括:


技术总结
本发明提供了一种大模型舆论话题传播关键协作群体发现方法及系统。本发明针对特定主题的舆论话题传播数据,构建舆论话题传播网络图模型。采用图卷积形成节点的特征表示。针对图中已经标注协作类别的节点,学习节点分类模型,据此得到图上未标注节点的类别软标签。基于图中节点的上下文环境及类别标签、构建问答对,进行大模型微调。由设计的提示词输入微调模型,生成特定主题的舆论话题传播网络的关键协作群体并给出解释。本发明充分利用图模型学习到的图结构化信息和节点分布知识转移到大语言模型中,增强大语言模型对于图数据的理解能力,将其运用于可理解的舆论话题传播关键协作群体发现应用任务。

技术研发人员:曾园园
受保护的技术使用者:武汉大学
技术研发日:
技术公布日:2024/7/25
转载请注明原文地址: https://bbs.8miu.com/read-440176.html

最新回复(0)