本发明实施例涉及计算机技术领域,尤其涉及一种基于web数据的用户操作轨迹分析方法及装置。
背景技术:
云计算和容器云的普及,使得大量it应用系统逐步被部署在虚拟化、容器化环境中。而随着各类业务场景的不断丰富和业务量的井喷式增长,给系统及应用的易维护性上带来巨大的挑战。尤其是在电信行业,运营商本身就构建了非常多的应用系统为广大消费者提供各种特色服务,而有些系统功能更涉及到多个业务系统的子功能,需要多系统协同才能正常工作。架构的演变更加剧此类业务系统的复杂性,对用户操作行为分析提出了更高的要求。
针对上述问题,现有技术主要采用的方案有:方案一:基于人工梳理的操作轨迹整理:传统的维护人员想了解业务办理全流程的操作轨迹,需要项目阶段就要对业务操作流程进行整理,通过交维的手册的形式传递给后续维护人员,后续如果有业务变更和新增,需要依靠开发人员和维护人员的自觉行为予以更新。该方法适合小型等变化率不大的应用系统,见效相对稳定。方案二:基于代码预埋操作轨迹输出:代码预埋操作轨迹输出主要是在代码开发阶段,将操作轨迹所需要信息输出提前在代码中实现。待投入生产环境后,用户的每一步操作都会输出至轨迹分析中心,分析中心通过ip地址,用户标识,序列号,时间等维度将每笔业务的操作路径整理出来。后续新业务代码开发时,按照预订的开发规范进行编码即可保证后续的业务也能纳入操作轨迹中心。方案三:基于探针的操作轨迹获取:该方案是通过在中间件中引入探针包的方式,对部署的中间件获取方法级的调用记录。通过自动埋码和采集数据的软件开发工具包(softwaredevelopmentkit,sdk)来自动完成操作轨迹代码的注入工作。通过这种方式可以做到开发人员只需要修改少量代码甚至一行代码都无需修改。后续对调用方法及业务操作之间的关系映射,完成用户的操作轨迹分析。
但是现有技术均存在着严重的不足:随着目前各类系统集群规模的不断扩大,单纯的人工梳理已经成为一项艰巨的任务,更不用说由于敏捷开发的落地导致应用的代码变动与日俱增,从而带来的操作类型和步骤的暴增。急速增长的业务操作知识无法快速准确地得到梳理,而且现有的知识手册也越来越不准确。准确来说,该方式不适合中大型。方案二需要开发人员对整体项目预先就设计好操作轨迹输出方案,但是现有的生产系统往往有多个项目联合开发,引入不同的厂家,采用不同的技术框架,同系统中可能存在老中青三代系统,等等现实问题造成无法通过一次性改造甚至存在部分系统根本无法完成预埋改造,如果仅有部分系统输出数据效果并不明显。因此,该方式存在实际上的推广缺陷。方案三采用了基于中间件探针的操作轨迹采集方案,虽然对代码基本无需改动,但是现有技术在系统稳定性,系统快速部署,数据采集延展性离实际需要尚有一定的距离,暂时无法满足生产实际需要。综上,现有技术过于复杂、在数据分析能力上效率低下。
技术实现要素:
本发明实施例提供一种基于web数据的用户操作轨迹分析方法及装置,用以解决现有技术过于复杂、在数据分析能力上效率低下。
第一方面,本发明实施例提供了一种基于web数据的用户操作轨迹分析方法,包括:
实时获取用户操作轨迹,所述用户操作轨迹至少包括业务类型;
根据预先通过聚类算法获取的轨迹模型,将所述用户操作轨迹与具有相同业务类型的所有默认轨迹进行比对;其中,所述轨迹模型包括与每种业务类型对应的至少一条默认轨迹;
若所述用户操作轨迹与默认轨迹不同,则将所述用户操作轨迹标记为异常轨迹。
第二方面,本发明实施例提供了一种用于基于web数据的用户操作轨迹分析装置,其特征在于,包括:
流量采集单元,用于实时获取用户操作轨迹,所述用户操作轨迹至少包括业务类型;
轨迹分析单元,用于根据预先通过聚类算法获取的轨迹模型,将所述用户操作轨迹与具有相同业务类型的所有默认轨迹进行比对;其中,所述轨迹模型包括与每种业务类型对应的至少一条默认轨迹;
交叉识别单元,用于若所述用户操作轨迹与默认轨迹不同,则将所述用户操作轨迹标记为异常轨迹。
第三方面,本发明实施例还提供了一种电子设备,包括:
处理器、存储器、通信接口和通信总线;其中,
所述处理器、存储器、通信接口通过所述通信总线完成相互间的通信;
所述通信接口用于该电子设备的通信设备之间的信息传输;
所述存储器存储有可被所述处理器执行的计算机程序指令,所述处理器调用所述程序指令能够执行如下方法:
实时获取用户操作轨迹,所述用户操作轨迹至少包括业务类型;
根据预先通过聚类算法获取的轨迹模型,将所述用户操作轨迹与具有相同业务类型的所有默认轨迹进行比对;其中,所述轨迹模型包括与每种业务类型对应的至少一条默认轨迹;
若所述用户操作轨迹与默认轨迹不同,则将所述用户操作轨迹标记为异常轨迹。
第四方面,本发明实施例还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如下方法:
实时获取用户操作轨迹,所述用户操作轨迹至少包括业务类型;
根据预先通过聚类算法获取的轨迹模型,将所述用户操作轨迹与具有相同业务类型的所有默认轨迹进行比对;其中,所述轨迹模型包括与每种业务类型对应的至少一条默认轨迹;
若所述用户操作轨迹与默认轨迹不同,则将所述用户操作轨迹标记为异常轨迹。
本发明实施例提供的基于web数据的用户操作轨迹分析方法及装置,通过对将采集到的用户操作轨迹与对应业务类型的默认轨迹进行比较,若不同,则判定所述用户操作轨迹为异常轨迹,从而能够更加简单高效得对用户操作轨迹进行准确分析。
附图说明
图1为本发明实施例的基于web数据的用户操作轨迹分析方法流程图;
图2为本发明实施例的另一基于web数据的用户操作轨迹分析方法流程图;
图3为本发明实施例的又一基于web数据的用户操作轨迹分析方法流程图;
图4为本发明实施例的用于基于web数据的用户操作轨迹分析装置结构示意图;
图5为本发明实施例的另一用于基于web数据的用户操作轨迹分析装置结构示意图;
图6为本发明实施例的又一用于基于web数据的用户操作轨迹分析装置结构示意图;
图7示例了一种电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例的基于web数据的用户操作轨迹分析方法流程图,如图1所示,所述方法包括:
步骤s01、实时获取用户操作轨迹,所述用户操作轨迹至少包括业务类型。
通过采集网络中web数据,可以得到用户在办理业务时的用户操作轨迹,所述用户操作轨迹包括了用户操作的多维数据,具体至少包括业务类型、工号、地址、时间和时长等。
在具体的采集过程中传统的网络镜像使用交换机镜像端口或者分光器进行采集,对于目前敏捷发布,部署云化,容器化存在部署灵活不足。本发明实施例采用融合采集技术,既支持传统物理交换机,又能支持虚机和容器的灵活部署,能完整支持当前的技术架构。
1)对于部署在物理机上的系统,从现有的流量交换机上面引入流量镜像,并由部署在物理采集机上的采集程序对流量数据进行采集,并输出至流量汇聚机上供后续分析。
2)对于部署在wmware等虚拟机上面的系统,通过虚拟交换机(virtualswitch,vswitch)的镜像方案,在虚机集群内部署虚拟机流量采集程序,能自动对vmware网络封包进行解包,将解包后的流量数据输出至流量汇聚机上供后续分析。
3)对于采用容器技术部署的系统,由于容器的动态部署的特性,本身流量无法确定,采用对网络负载层的流量进行采集,并输出至流量汇聚机供分析。
对于采集过来的web数据,通过预设的业务信息自动处理功能,从web数据中获取工号,ip,业务类型,地址,时间及时长,返回结果,并可以定制化数据转换,处理完的数据按照指定格式输出为用户操作轨迹。
步骤s02、根据预先通过聚类算法获取的轨迹模型,将所述用户操作轨迹与具有相同业务类型的所有默认轨迹进行比对;其中,所述轨迹模型包括与每种业务类型对应的至少一条默认轨迹。
预先获取与每种业务类型对应的默认轨迹,相当于是用户办理该业务时典型的用户操作轨迹。所述默认轨迹的获取方法,可以是根据每种业务类型的分类和在整个业务中心的设置,直接得的至少一条预设的默认轨迹,也可以对实际的历史数据通过预设的算法,例如聚类算法,相当于,通过用户实际使用过程中的用户操作轨迹进行统计来获取轨迹模型,所述轨迹模型中包括有与每种业务类型对应的至少一条默认轨迹,例如进行变更套餐业务的默认轨迹为操作a1、a2、a3、a4、a5;进行订购流量的默认轨迹为操作b1、b2、b3、b4。
步骤s03、若所述用户操作轨迹与默认轨迹不同,则将所述用户操作轨迹标记为异常轨迹。
经过比对后,若所述用户操作轨迹与默认轨迹相同,则不进行任何后续操作。而若不同,则将所述用户操作轨迹标记为异常轨迹。可以进行告警或仅作记录。例如,所述用户在进行变更套餐业务时的用户操作轨迹为操作a1、a2、a3、a6、a7、a5,可见与默认轨迹操作a1、a2、a3、a4、a5不同,此时就可以将该用户操作轨迹作为异常轨迹进行记录。
本发明实施例通过对将采集到的用户操作轨迹与对应业务类型的默认轨迹进行比较,若不同,则判定所述用户操作轨迹为异常轨迹,从而能够更加简单高效得对用户操作轨迹进行准确分析。
图2为本发明实施例的另一基于web数据的用户操作轨迹分析方法流程图,如图2所示,所述方法还包括:
步骤s10、定期获取预设历史时间范围内所有的用户操作轨迹;
为了获取与每种业务类型对应的默认轨迹,需要预先获取预设历史时间范围内,例如当前时刻前半年内,或者1年等,的所有从web数据中得到的用户操作轨迹。
步骤s11、对所有的用户操作轨迹采用聚类算法得到至少一个簇。
采用聚类算法,根据不同维度条件,将所有的用户操作轨迹进行归类汇聚。从而根据对聚类算法的具体设置得到一个簇集,其中至少包括一个簇。
进一步地,所述聚类算法为k-means聚类算法。
聚类算法有很多种,例如k均值(k-means)聚类算法,k中心点(k-medians)聚类算法,均值漂移聚类算法,凝聚层类聚类算法等。在此仅以k-means聚类算法为例进行举例说明。
k-means算法通过预先设定的k值及每个类别的初始质心对相似的用户操作轨迹进行划分。并通过划分后的均值迭代优化获得最优的聚类结果。使用误差平方和(sumofthesquarederror,sse)作为聚类的目标函数,两次运行k均值产生的两个不同的簇集,sse越小的那个相似度越高。从而在sse最小时的簇集为最终的结果。其中所述k值可以根据业务类型的数量来进行设定。而且在得到最终的簇集后进行验证,并根据需要进行调整。
步骤s12、分别对每个簇中所包含的用户操作轨迹进行分析,得到所述轨迹模型。
通过对每个簇中所包含的用户操作轨迹的分析,从而可以得到在每个簇中包含的主要的用户操作轨迹,或者也可以认为是簇心所对应的用户操作轨迹,将该用户操作轨迹作为对应的业务类型的默认操作轨迹。统计后得到所述轨迹模型。
所述轨迹模型可以根据实际的需要定期进行统计,例如一个月或者半年等等,将在该段时间范围内得到新的用户操作轨迹加入到历史数据中,从而得到新的轨迹模型。
本发明实施例通过聚类算法对历史时间范围内所有用户操作轨迹分析得到所述轨迹模型,再将实时采集到的用户操作轨迹与对应业务类型的默认轨迹进行比较,若不同,则判定所述用户操作轨迹为异常轨迹,从而能够更加简单高效得对用户操作轨迹进行准确分析。
图3为本发明实施例的又一基于web数据的用户操作轨迹分析方法流程图,如图3所示,所述方法还包括:
步骤s20、对每种异常轨迹进行计数。
将得到的所有异常轨迹,根据不同的业务类型分别进行统计。从而可以得到每个业务类型产生的异常轨迹的种类,并对每种异常轨迹进行计数。例如在变更套餐的过程中用户的异常轨迹有操作a1、a2、a3、a6、a7、a5,或者操作操作a1、a2、a3、a8、a5,则可以判定对于变更套餐业务存在两种异常轨迹,并在每次接收到异常轨迹时,对相应种类的异常轨迹进行计数。
步骤s21、若所述计数超过预设的计数阈值,则发出预警信息。
预先设定计数阈值,若对其中一种异常轨迹的计数超过了所述计数阈值,或者在预设的时间范围内超过了预设的计数阈值,则可以发出对应的预警信息以告知对应的业务类型的默认轨迹可能发生变化或者出现了新的默认轨迹。
本发明实施例通过对每种业务类型的异常轨迹的统计,若一种异常轨迹的计数超过了预设的计数阈值,则发出预警信息,从而有助于更加简单高效得对用户操作轨迹进行准确分析。
图4为本发明实施例的用于基于web数据的用户操作轨迹分析装置结构示意图,如图4所示,所述装置包括:流量采集单元10、轨迹分析单元11和交叉识别单元12,其中,
所述流量采集单元10用于实时获取用户操作轨迹,所述用户操作轨迹至少包括业务类型;所述轨迹分析单元11用于根据预先通过聚类算法获取的轨迹模型,将所述用户操作轨迹与具有相同业务类型的所有默认轨迹进行比对;其中,所述轨迹模型包括与每种业务类型对应的至少一条默认轨迹;所述交叉识别单元12用于若所述用户操作轨迹与默认轨迹不同,则将所述用户操作轨迹标记为异常轨迹。具体地:
所述流量采集单元10通过采集网络中web数据,可以得到用户在办理业务时的用户操作轨迹,所述用户操作轨迹包括了用户操作的多维数据,具体至少包括业务类型、工号、地址、时间和时长等。
所述轨迹分析单元11预先获取与每种业务类型对应的默认轨迹,相当于是用户办理该业务时典型的用户操作轨迹。所述默认轨迹的获取方法,可以是根据每种业务类型的分类和在整个业务中心的设置,直接得的至少一条预设的默认轨迹,也可以对实际的历史数据通过预设的算法,通过用户实际使用过程中的用户操作轨迹进行统计来获取轨迹模型,所述轨迹模型中包括有与每种业务类型对应的至少一条默认轨迹。
经过比对后,若所述用户操作轨迹与默认轨迹相同,则不进行任何后续操作。而若不同,则由所述交叉识别单元12将所述用户操作轨迹标记为异常轨迹。可以进行告警或仅作记录。
本发明实施例提供的装置用于执行上述方法,其功能具体参考上述方法实施例,其具体方法流程在此处不再赘述。
本发明实施例通过对将由流量采集单元10采集到的用户操作轨迹在轨迹分析单元11中与对应业务类型的默认轨迹进行比较,若不同,则由交叉识别单元12判定所述用户操作轨迹为异常轨迹,从而能够更加简单高效得对用户操作轨迹进行准确分析。
图5为本发明实施例的另一用于基于web数据的用户操作轨迹分析装置结构示意图,如图5所示,所述装置包括:流量采集单元10、轨迹分析单元11、交叉识别单元12、数据仓库单元13、关联计算单元14和建模单元15,其中,
所述数据仓库单元13用于定期获取预设历史时间范围内所有的用户操作轨迹;所述关联计算单元14用于对所有的用户操作轨迹采用聚类算法得到至少一个簇;所述建模单元15用于分别对每个簇中所包含的用户操作轨迹进行分析,得到所述轨迹模型。
为了获取与每种业务类型对应的默认轨迹,需要所述数据仓库单元13预先获取预设历史时间范围内,例如当前时刻前半年内,或者1年等,的所有从web数据中得到的用户操作轨迹。
所述关联计算单元14采用聚类算法,根据不同维度条件,将所述数据仓库单元13中所有的用户操作轨迹进行归类汇聚。从而根据对聚类算法的具体设置得到一个簇集,其中至少包括一个簇。
进一步地,所述聚类算法为k-means聚类算法。
聚类算法有很多种,例如k均值(k-means)聚类算法,k中心点(k-medians)聚类算法,均值漂移聚类算法,凝聚层类聚类算法等。在此仅以k-means聚类算法为例进行举例说明。
k-means算法通过预先设定的k值及每个类别的初始质心对相似的用户操作轨迹进行划分。并通过划分后的均值迭代优化获得最优的聚类结果。使用误差平方和(sumofthesquarederror,sse)作为聚类的目标函数,两次运行k均值产生的两个不同的簇集,sse越小的那个相似度越高。从而在sse最小时的簇集为最终的结果。其中所述k值可以根据业务类型的数量来进行设定。而且在得到最终的簇集后进行验证,并根据需要进行调整。
所述建模单元15通过对由所述关联计算单元14得到的每个簇中所包含的用户操作轨迹的分析,从而可以得到在每个簇中包含的主要的用户操作轨迹,或者也可以认为是簇心所对应的用户操作轨迹,将该用户操作轨迹作为对应的业务类型的默认操作轨迹。统计后得到所述轨迹模型并发送给所述轨迹分析单元11。
所述轨迹模型可以根据实际的需要定期进行统计,所述流量采集单元10将在该段时间范围内得到新的用户操作轨迹加入到数据仓库单元13中,从而得到新的轨迹模型。
本发明实施例提供的装置用于执行上述方法,其功能具体参考上述方法实施例,其具体方法流程在此处不再赘述。
本发明实施例关联计算单元14通过聚类算法对所述数据仓库单元13中历史时间范围内所有用户操作轨迹分析,由所述建模单元15得到所述轨迹模型,再将同流量采集单元10实时采集到的用户操作轨迹在轨迹分析单元11与对应业务类型的默认轨迹进行比较,若不同,则由交叉识别单元12判定所述用户操作轨迹为异常轨迹,从而能够更加简单高效得对用户操作轨迹进行准确分析。
图6为本发明实施例的又一用于基于web数据的用户操作轨迹分析装置结构示意图,如图6所示,所述装置包括:
流量采集单元10、轨迹分析单元11、交叉识别单元12、数据仓库单元13、关联计算单元14、建模单元15和量化单元16,其中,
所述量化单元16用于对每种异常轨迹进行计数;所述量化单元16还用于若所述计数超过预设计数阈值,则发出预警信息。具体地:
所述量化单元16将得到的所有异常轨迹,根据不同的业务类型分别进行统计。从而可以得到每个业务类型产生的异常轨迹的种类,并对每种异常轨迹进行计数。
所述量化单元16预先设定计数阈值,若对其中一种异常轨迹的计数超过了所述计数阈值,或者在预设的时间范围内超过了预设的计数阈值,则可以发出对应的预警信息以告知对应的业务类型的默认轨迹可能发生变化或者出现了新的默认轨迹。
本发明实施例提供的装置用于执行上述方法,其功能具体参考上述方法实施例,其具体方法流程在此处不再赘述。
本发明实施例通过量化单元16对每种业务类型的异常轨迹的统计,若一种异常轨迹的计数超过了预设的计数阈值,则发出预警信息,从而有助于更加简单高效得对用户操作轨迹进行准确分析。
图7示例了一种电子设备的实体结构示意图,如图7所示,该服务器可以包括:处理器(processor)810、通信接口(communicationsinterface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行如下方法:实时获取用户操作轨迹,所述用户操作轨迹至少包括业务类型;根据预先通过聚类算法获取的轨迹模型,将所述用户操作轨迹与具有相同业务类型的所有默认轨迹进行比对;其中,所述轨迹模型包括与每种业务类型对应的至少一条默认轨迹;若所述用户操作轨迹与默认轨迹不同,则将所述用户操作轨迹标记为异常轨迹。
进一步地,本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:实时获取用户操作轨迹,所述用户操作轨迹至少包括业务类型;根据预先通过聚类算法获取的轨迹模型,将所述用户操作轨迹与具有相同业务类型的所有默认轨迹进行比对;其中,所述轨迹模型包括与每种业务类型对应的至少一条默认轨迹;若所述用户操作轨迹与默认轨迹不同,则将所述用户操作轨迹标记为异常轨迹。
进一步地,本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:实时获取用户操作轨迹,所述用户操作轨迹至少包括业务类型;根据预先通过聚类算法获取的轨迹模型,将所述用户操作轨迹与具有相同业务类型的所有默认轨迹进行比对;其中,所述轨迹模型包括与每种业务类型对应的至少一条默认轨迹;若所述用户操作轨迹与默认轨迹不同,则将所述用户操作轨迹标记为异常轨迹。
本领域普通技术人员可以理解:此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的电子设备等实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
1.一种基于web数据的用户操作轨迹分析方法,其特征在于,包括:
实时获取用户操作轨迹,所述用户操作轨迹至少包括业务类型;
根据预先通过聚类算法获取的轨迹模型,将所述用户操作轨迹与具有相同业务类型的所有默认轨迹进行比对;其中,所述轨迹模型包括与每种业务类型对应的至少一条默认轨迹;
若所述用户操作轨迹与默认轨迹不同,则将所述用户操作轨迹标记为异常轨迹。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
定期获取预设历史时间范围内所有的用户操作轨迹;
对所有的用户操作轨迹采用聚类算法得到至少一个簇;
分别对每个簇中所包含的用户操作轨迹进行分析,得到所述轨迹模型。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对每种异常轨迹进行计数;
若所述计数超过预设计数阈值,则发出预警信息。
4.根据权利要求1所述的方法,其特征在于,所述聚类算法为k-means聚类算法。
5.一种用于基于web数据的用户操作轨迹分析装置,其特征在于,包括:
流量采集单元,用于实时获取用户操作轨迹,所述用户操作轨迹至少包括业务类型;
轨迹分析单元,用于根据预先通过聚类算法获取的轨迹模型,将所述用户操作轨迹与具有相同业务类型的所有默认轨迹进行比对;其中,所述轨迹模型包括与每种业务类型对应的至少一条默认轨迹;
交叉识别单元,用于若所述用户操作轨迹与默认轨迹不同,则将所述用户操作轨迹标记为异常轨迹。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
数据仓库单元,用于定期获取预设历史时间范围内所有的用户操作轨迹;
关联计算单元,用于对所有的用户操作轨迹采用聚类算法得到至少一个簇;
建模单元,用于分别对每个簇中所包含的用户操作轨迹进行分析,得到所述轨迹模型。
7.根据权利要求5所述的装置,其特征在于,所述装置还包括:
量化单元,用于对每种异常轨迹进行计数;
所述量化单元,还用于若所述计数超过预设计数阈值,则发出预警信息。
8.根据权利要求5所述的装置,其特征在于,所述聚类算法为k-means聚类算法。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述用户操作轨迹分析方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至4任一项所述用户操作轨迹分析方法的步骤。
技术总结