本申请涉及电子信息技术领域,具体而言,涉及一种页面访问时长采集方法、装置、介质及电子设备。
背景技术:
页面访问时长采集是采集互联网页面中用户在访问时驻留的时长的过程。由于在使用手机、平板等智能设备访问互联网页面过程中,时长采集的方案:一般通过人为设置最大的访问时长来避免服务器超负荷,但这样会造成时长统计不准,上报数据会比实际情况少很多。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现要素:
本申请的目的在于提供一种页面访问时长采集方案,进而至少在一定程度上提升页面访问时长采集的准确性和可靠性。
根据本申请的一个方面,提供一种页面访问时长采集方法,包括:
获取目标页面的页面代码对应的事件埋点配置信息及目标访问者对所述目标页面的第一历史访问记录;
获取所述目标访问者对所述目标页面的关联页面的第二历史访问记录;
从所述事件埋点配置信息提取所述目标页面的事件埋点配置特征;
从所述第一历史访问记录及所述第二历史访问记录中提取预定时间段的事件埋点触发特征;
将所述事件埋点配置特征及所述事件埋点触发特征输入时长采集点预测模型,得到所述访问者的时长采集埋点信息,所述时长采集埋点信息中包括预测的所述访问者访问所述目标页面时会触发的事件埋点;
为所述页面代码中的目标事件埋点关联时长采集代码,以在所述访问者访问所述目标页面时,响应于目标事件埋点的触发使得与所述目标事件埋点关联的所述时长采集代码上报时长数据,所述目标事件埋点对应于于所述访问者的时长采集埋点信息中的事件埋点。
在本申请的一种示例性实施例中,从所述第一历史访问记录及所述第二历史访问记录中提取预定时间段的事件埋点触发特征,包括:
从所述第一历史访问记录及所述第二历史访问记录中提取预定时间段的事件埋点触发信息;
从所述预定时间段的事件埋点触发信息中提取事件埋点触发特征。
在本申请的一种示例性实施例中,从所述预定时间段的事件埋点触发信息中提取事件埋点触发特征,包括:
将所述预定时间段的事件埋点触发信息输入预设触发特征提取模型,得到所述事件埋点触发特征。
在本申请的一种示例性实施例中,确定所述预定时间段,包括:
获取所述目标页面的页面访问时长采集的目标时间段,所述目标时间段指示特定页面访问事件持续时间段;
获取所述特定页面访问事件持续时间段中所述特定页面访问事件的事件特征;
根据所述事件特征,从所述第一历史访问记录及所述第二历史访问记录中确定与所述事件特征相似度高于预定阈值的历史事件特征对应的历史事件的持续时间段;
将所述历史事件的持续时间段确定为所述预定时间段。
在本申请的一种示例性实施例中,从所述事件埋点配置信息提取所述目标页面的事件埋点配置特征,包括:
将所述事件埋点配置信息输入预设配置特征提取模型,得到所述目标页面的事件埋点配置特征。
在本申请的一种示例性实施例中,响应于目标事件埋点的触发使得与所述目标事件埋点关联的所述时长采集代码上报时长数据,包括:
当所述目标事件埋点为所述页面代码中关联了第一个时长采集代码的埋点时,所述第一个时长采集代码获取所述目标事件埋点的触发时间点与用户进入所述目标页面的时刻点的差值上报;
当所述目标事件埋点不是所述页面代码中关联了第一个时长采集代码的埋点时,所述目标事件埋点关联的时长采集代码获取所述目标事件埋点的触发时间点与时长采集代码的上一个时长采集代码的上报时刻点的时差上报。
在本申请的一种示例性实施例中,时长采集点预测模型的训练方法,包括:
获取特征样本集,其中每个样本包括事件埋点配置特征、事件埋点触发特征及标定的时长采集埋点信息;
将每个所述样本的数据分别输入时长采集点预测模型,得到所述时长采集点预测模型输出的预测时长采集埋点信息;
如果存在有所述样本的数据输入时长采集点预测模型后,得到的预测时长采集埋点信息与对所述样本事先标定的时长采集埋点信息不一致,则调整所述机器学习模型的系数,直到一致;
当所有所述样本的数据输入时长采集点预测模型后,得到的得到的预测时长采集埋点信息与对所述样本事先标定的时长采集埋点信息一致,训练结束。
根据本申请的一个方面,提供一种页面访问时长采集装置,其特征在于,包括:
第一获取模块,用于获取目标页面的页面代码对应的事件埋点配置信息及目标访问者对所述目标页面的第一历史访问记录;
第二获取模块,用于获取所述目标访问者对所述目标页面的关联页面的第二历史访问记录;
第一提取模块,用于从所述事件埋点配置信息提取所述目标页面的事件埋点配置特征;
第二提取模块,用于从所述第一历史访问记录及所述第二历史访问记录中提取预定时间段的事件埋点触发特征;
分析模块,用于将所述事件埋点配置特征及所述事件埋点触发特征输入时长采集点预测模型,得到所述访问者的时长采集埋点信息,所述时长采集埋点信息中包括预测的所述访问者访问所述目标页面时会触发的事件埋点;
采集模块,用于为所述页面代码中的目标事件埋点关联时长采集代码,以在所述访问者访问所述目标页面时,响应于目标事件埋点的触发使得与所述目标事件埋点关联的所述时长采集代码上报时长数据,所述目标事件埋点对应于于所述访问者的时长采集埋点信息中的事件埋点。
根据本申请的一个方面,提供一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令被处理器执行时实现上述任一项所述的方法。
根据本申请的一个方面,提供一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的程序指令;其中,所述处理器配置为经由执行所述程序指令来执行上述任一项所述的方法。
本申请一种页面访问时长采集方法及相关装置,获取目标页面的页面代码对应的事件埋点配置信息及目标访问者对所述目标页面的第一历史访问记录;获取所述目标访问者对所述目标页面的关联页面的第二历史访问记录;从所述事件埋点配置信息提取所述目标页面的事件埋点配置特征;从所述第一历史访问记录及所述第二历史访问记录中提取预定时间段的事件埋点触发特征;将所述事件埋点配置特征及所述事件埋点触发特征输入时长采集点预测模型,得到所述访问者的时长采集埋点信息,所述时长采集埋点信息中包括预测的所述访问者访问所述目标页面时会触发的事件埋点;为所述页面代码中的目标事件埋点关联时长采集代码,以在所述访问者访问所述目标页面时,响应于目标事件埋点的触发使得与所述目标事件埋点关联的所述时长采集代码上报时长数据,所述目标事件埋点对应于于所述访问者的时长采集埋点信息中的事件埋点。以这种方式,通过分析访问者的访问记录,通过将访问页面的事件埋点配置特征及访问记录的事件埋点触发特征输入时长采集点预测模型,预测出表现访问者的访问习惯的时长采集埋点信息,个性化的在页面代码中与时长采集埋点信息相应的事件埋点添加关联时长采集代码,进行上报时长数据,可以实现访问时长的分段上报,保证各种情况下采集到时长数据,避免访问时长数据丢失;同时可以避免全部埋点添加关联时长采集代码时出现代码过渡耦合,保证时长数据采集的可靠性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出一种页面访问时长采集方法的流程图。
图2示意性示出一种页面访问时长采集方法的应用场景示例图。
图3示意性示出一种触发特征获取的方法流程图。
图4示意性示出一种页面访问时长采集装置的方框图。
图5示意性示出一种用于实现上述页面访问时长采集方法的电子设备示例框图。
图6示意性示出一种用于实现上述页面访问时长采集方法的计算机可读存储介质。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本申请的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本申请的各方面变得模糊。
此外,附图仅为本申请的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
本示例实施方式中首先提供了页面访问时长采集方法,该页面访问时长采集方法可以运行于服务器,也可以运行于服务器集群或云服务器等,当然,本领域技术人员也可以根据需求在其他平台运行本发明的方法,本示例性实施例中对此不做特殊限定。参考图1所示,该页面访问时长采集方法可以包括以下步骤:
步骤s110,获取目标页面的页面代码对应的事件埋点配置信息及目标访问者对所述目标页面的第一历史访问记录;
步骤s120,获取所述目标访问者对所述目标页面的关联页面的第二历史访问记录;
步骤s130,从所述事件埋点配置信息提取所述目标页面的事件埋点配置特征;
步骤s140,从所述第一历史访问记录及所述第二历史访问记录中提取预定时间段的事件埋点触发特征;
步骤s150,将所述事件埋点配置特征及所述事件埋点触发特征输入时长采集点预测模型,得到所述访问者的时长采集埋点信息,所述时长采集埋点信息中包括预测的所述访问者访问所述目标页面时会触发的事件埋点;
步骤s160,为所述页面代码中的目标事件埋点关联时长采集代码,以在所述访问者访问所述目标页面时,响应于目标事件埋点的触发使得与所述目标事件埋点关联的所述时长采集代码上报时长数据,所述目标事件埋点对应于于所述访问者的时长采集埋点信息中的事件埋点。
以这种方式,通过分析访问者的访问记录,通过将访问页面的事件埋点配置特征及访问记录的事件埋点触发特征输入时长采集点预测模型,预测出表现访问者的访问习惯的时长采集埋点信息,个性化的在页面代码中与时长采集埋点信息相应的事件埋点添加关联时长采集代码,进行上报时长数据,可以实现访问时长的分段上报,保证各种情况下采集到时长数据,避免访问时长数据丢失;同时可以避免全部埋点添加关联时长采集代码时出现代码过渡耦合,保证时长数据采集的可靠性。
下面,将结合附图对本示例实施方式中上述页面访问时长采集方法中的各步骤进行详细的解释以及说明。
在步骤s110中,获取目标页面的页面代码对应的事件埋点配置信息及目标访问者对所述目标页面的第一历史访问记录。
本示例的实施方式中,参考图2所示,服务器201获取用户终端202的目标页面的页面代码对应的事件埋点配置信息及目标访问者(例如,可以是用户终端202或者对应于某个用户账号的访问者)对目标页面的第一历史访问记录。这样可以在后续步骤中,由服务器201对事件埋点配置信息及目标访问者对目标页面的第一历史访问记录进行处理,以准确采集目标页面的访问时长。可以理解,其中,服务器201可以是任何具有处理能力的设备,例如,电脑、微处理器等,在此不做特殊限定;用户终端202可以是任何具有互联网页面访问功能的终端。
事件埋点配置信息是目标页面的页面代码中预先配置的点击、滑动等事件对应的数据上报埋点的配置情况的相关信息,例如,配置的事件埋点与触发事件的关联关系、以及埋点的位置等。
目标访问者可以是访问该目标页面的用户(例如,对应于某个用户账号的访问者)或者访问该目标页面的终端(例如,某个访问页面所在的终端)。
第一历史访问记录是该目标访问者历史上访问该目标页面时产生的长期的操作数据,例如触发各个事件的次数、时间等数据。通过历史访问记录可以反映访问者的访问习惯,例如,用户会随着页面层级的加深而不断流失,流失率在前几页最高;按钮的点击量受页面层级影响;有些图片不是动态的,也让人很有点击的欲望,例如宝箱、礼物盒等生活中打开了会有惊喜的元素;页面首屏和最后一屏的平均停留时间比中间页面的平均停留时间长。
在步骤s120中,获取所述目标访问者对所述目标页面的关联页面的第二历史访问记录。
本示例的实施方式中,目标页面的关联页面可以是该目标页面访问后具有跳转关系的其它页面,或者,与该目标页面具有预定关联关系或者访问规律关系的页面(通常访问了该目标页面,还必须或者高概率会访问的其它关联页面)。
第二历史访问记录是该目标访问者历史上访问该关联页面时长期的操作数据,例如触发各个事件的规律数据等。
以这种方式,可以获取到目标访问者对该目标页面的关联页面的第二历史访问记录,可以涵盖访问者对该目标访问页面访问的隐性特征,进一步保证后续步骤中访问者对该目标页面访问规律分析的准确性。
在步骤s130中,从所述事件埋点配置信息提取所述目标页面的事件埋点配置特征。
本示例的实施方式中,事件埋点配置特征可以是提取的事件埋点配置信息的机器学习特征,例如信息的特征向量;也可以是通过与预设的标准数据进行比较,排除了异常数据(对于后续步骤中分析时长采集埋点无用、多余的配置信息)后得到的事件埋点配置特征,例如,剔除浏览页面时需操作的频率过于频繁的事件埋点中的几个。
以这种方式,可以获得对于分析时长采集埋点的标准形式的数据特征,保证分析效率和准确性。
一种实施例中,从所述事件埋点配置信息提取所述目标页面的事件埋点配置特征,包括:
将所述事件埋点配置信息输入预设配置特征提取模型,得到所述目标页面的事件埋点配置特征。
预设配置特征提取模型是预先训练好的机器学习模型,可以对大量的事件埋点配置信息,根据模型训练策略,自动计算分析当前的事件埋点配置信息,输出满足要求的目标页面的事件埋点配置特征。
一种实施例中,配置特征提取模型的训练方法包括:
获取事件埋点配置信息样本集,其中每个样本包括事件埋点配置信息及标定的事件埋点配置特征;
将每个所述样本的数据分别输入配置特征提取模型,得到所述配置特征提取模型输出的预测事件埋点配置特征;
如果存在有所述样本的数据输入配置特征提取模型后,得到的预测事件埋点配置特征与对所述样本事先标定的事件埋点配置特征不一致,则调整所述配置特征提取模型的系数,直到一致;
当所有所述样本的数据输入配置特征提取模型后,得到的得到的预测事件埋点配置特征与对所述样本事先标定的事件埋点配置特征一致,训练结束。
埋点配置信息样本集包括多个样本,其中每个样本包括事件埋点配置信息及由专家标定的对于时长采集埋点信息分析有用的、标准的事件埋点配置特征。这样可以保证模型训练的准确性。
在步骤s140中,从所述第一历史访问记录及所述第二历史访问记录中提取预定时间段的事件埋点触发特征。
本示例的实施方式中,预定时间段可以是根据需求设定,例如,某个事件持续的周期时间段或者全量的时间段。
第一历史访问记录及第二历史访问记录中包括了目标页面的访问信息,也就是可以包括访问者的访问规律(例如,对于特定事件中访问者的访问规律或者全量的记录中访问者的访问规律),这些规律可以清楚地通过访问者对于页面事件埋点的触发规律体现。
事件埋点触发特征可以是提取的访问记录的机器学习特征,例如信息的特征向量;也可以是通过与预设的标准数据进行比较,排除了异常数据(对于后续步骤中分析时长采集埋点无用、多余的操作信息)后得到的事件埋点触发特征,例如,剔除浏览页面时需操作的频率过于频繁的事件埋点中的几个。
以这种方式,可以获得对于分析时长采集埋点的标准形式的数据特征,保证分析效率和准确性。
一种实施例中,参考图3所示,从所述第一历史访问记录及所述第二历史访问记录中提取预定时间段的事件埋点触发特征,包括:
步骤s310,从所述第一历史访问记录及所述第二历史访问记录中提取预定时间段的事件埋点触发信息;
步骤s320,从所述预定时间段的事件埋点触发信息中提取事件埋点触发特征。
先提取预定时间段(可以是制定的时间段也可以是某个访问事件对应的时间段,例如某个营销活动时间段)的部分事件埋点触发信息,然后在提取该预定时间段的事件埋点触发信息中提取事件埋点触发特征。
一种实施例中,从所述预定时间段的事件埋点触发信息中提取事件埋点触发特征,包括:
将所述预定时间段的事件埋点触发信息输入预设触发特征提取模型,得到所述事件埋点触发特征。
预设触发特征提取模型是预先训练好的机器学习模型,可以对大量的事件埋点触发信息,根据模型训练策略,自动计算分析当前的事件埋点触发信息,输出满足要求的目标页面的事件埋点触发特征。
一种实施例中,触发特征提取模型的训练方法包括:
获取事件埋点触发信息样本集,其中每个样本包括事件埋点触发信息及标定的事件埋点触发特征;
将每个所述样本的数据分别输入触发特征提取模型,得到所述触发特征提取模型输出的预测事件埋点触发特征;
如果存在有所述样本的数据输入触发特征提取模型后,得到的预测事件埋点触发特征与对所述样本事先标定的事件埋点触发特征不一致,则调整所述触发特征提取模型的系数,直到一致;
当所有所述样本的数据输入触发特征提取模型后,得到的预测触发特征提取模型与对所述样本事先标定的事件埋点触发特征一致,训练结束。
事件埋点触发信息样本集包括多个样本,其中每个样本包括事件埋点触发信息及由专家标定的对于时长采集埋点信息分析有用的、标准的事件埋点触发特征。这样可以保证模型训练的准确性。
一种实施例中,确定预定时间段,包括:
获取所述目标页面的页面访问时长采集的目标时间段,所述目标时间段指示特定页面访问事件持续时间段;
获取所述特定页面访问事件持续时间段中所述特定页面访问事件的事件特征;
根据所述事件特征,从所述第一历史访问记录及所述第二历史访问记录中确定与所述事件特征相似度高于预定阈值的历史事件特征对应的历史事件的持续时间段;
将所述历史事件的持续时间段确定为所述预定时间段。
获取页面访问时长采集的目标时间段,其中,目标时间段指示特定页面访问事件持续时间段,例如,在需要在未来需要针对某个营销活动事件进行时间监控采集的持续时间段。这样可以针对某个特定时间段进行时长采集埋点的个性化分析。
获取该特定页面访问事件持续时间段中该特定页面访问事件的事件特征,可以获取到目标时间段中访问事件的事件特征,例如,事件的活动规则或者活动名称等特征。
然后,根据事件特征,从第一历史访问记录及第二历史访问记录中确定与事件特征相似度高于预定阈值的历史事件特征对应的历史事件的持续时间段,可以查找到第一历史访问记录及第二历史访问记录与目标事件段的活动规律相似的多个事件对应的历史事件的持续时间段。其中,预定阈值根据需求设定。
进而,可以将该历史事件的持续时间段确定为所述预定时间段。
在步骤s150中,将所述事件埋点配置特征及所述事件埋点触发特征输入时长采集点预测模型,得到所述访问者的时长采集埋点信息,所述时长采集埋点信息中包括预测的所述访问者访问所述目标页面时会触发的事件埋点。
本示例的实施方式中,时长采集点预测模型是预先训练好的机器学习模型,可以对大量的事件埋点配置特征及事件埋点触发特征,根据模型训练策略,自动计算分析当前的事件埋点配置特征及事件埋点触发特征,输出满足要求的访问者的时长采集埋点信息。根据访问者的时长采集埋点信息可以进行再对应的时长采集埋点设置时长采集代码,进行时长采集。
一种实施例中,时长采集点预测模型的训练方法,包括:
获取特征样本集,其中每个样本包括事件埋点配置特征、事件埋点触发特征及标定的时长采集埋点信息;
将每个所述样本的数据分别输入时长采集点预测模型,得到所述时长采集点预测模型输出的预测时长采集埋点信息;
如果存在有所述样本的数据输入时长采集点预测模型后,得到的预测时长采集埋点信息与对所述样本事先标定的时长采集埋点信息不一致,则调整所述机器学习模型的系数,直到一致;
当所有所述样本的数据输入时长采集点预测模型后,得到的得到的预测时长采集埋点信息与对所述样本事先标定的时长采集埋点信息一致,训练结束。
特征样本集包括多个样本,其中每个样本包括事件埋点配置特征、事件埋点触发特征及由专家标定的时长采集埋点信息。这样可以保证模型训练的准确性。
在步骤s160中,为所述页面代码中的目标事件埋点关联时长采集代码,以在所述访问者访问所述目标页面时,响应于目标事件埋点的触发使得与所述目标事件埋点关联的所述时长采集代码上报时长数据,所述目标事件埋点对应于所述访问者的时长采集埋点信息中的事件埋点。
本示例的实施方式中,在页面代码中与时长采集埋点信息相应的事件埋点添加关联时长采集代码,可以由时长采集代码在访问者访问目标页面时,响应于目标事件埋点的触发使得述目标事件埋点关联的时长采集代码上报时长数据,这样可以进行分段上报时长,也分段上报与访问者的访问习惯相关,即时长采集代码的关联于访问者的访问习惯关联,可以保证时长采集的准确性的同时最大可能的避免代码过渡耦合。
一种实施例中,响应于目标事件埋点的触发使得与所述目标事件埋点关联的所述时长采集代码上报时长数据,包括:
当所述目标事件埋点为所述页面代码中关联了第一个时长采集代码的埋点时,所述第一个时长采集代码获取所述目标事件埋点的触发时间点与用户进入所述目标页面的时刻点的差值上报;
当所述目标事件埋点不是所述页面代码中关联了第一个时长采集代码的埋点时,所述目标事件埋点关联的时长采集代码获取所述目标事件埋点的触发时间点与时长采集代码的上一个时长采集代码的上报时刻点的时差上报。
针对页面a访问流程,触发事件埋点1时,会上报进入页面开始到事件埋点1的间隔时长;触发事件埋点2时,会上报事件埋点1与事件埋点2之间的间隔时长;触发事件埋点3时,会上报事件埋点2与事件埋点3之间的间隔时长;最后在进入页面b后会上报页面a的最后一段时长,即事件埋点3到页面结束的间隔时长。页面a的总访问时长为4段时长的总和。利用分段上报,有效改善并解决了业务场景中的漏报情形以及数据重复统计的问题。
在相关技术中,时长数据采集的实现方案主要有两种;一种是进入第二个页面上报第一个访问页面的时长,另一种是采用心跳上报的方式。
第一种方式因未及时上报会造成数据丢失,也不能兼容异常退出等情况的出现;第二种方式服务器负荷过大,不符合业务量大的场景,而且做不到页面访问全程都用心跳,一般通过人为设置最大的访问时长来避免服务器超负荷,但这样会造成时长统计不准,上报数据会比实际情况少很多。
先前我们采用的是整条数据上报的方式,即下一个页面上报上一个页面的时长,对页面的访问结束点形成很大依赖。这种统计方式针对单页面应用非常不友好,会丢失很多一次性访问用户的时长数据,而且难以统计异常退出的访问时长。
而t 1做数据分析时,针对跨天的页面时长,会比较棘手。因为用户访问的结束点不明确,那么当天的访问时长可能会统计为第二天甚至第三天第四天的数据,而且对于没捕获到页面结束点的异常情况,时长数据就丢失了;而如果人为设置结束点(之前的处理方式),出现跨天的访问情况时,一个页面结束就被拆成了人为结束点和实际结束点两条数据,会造成重复统计。
本方案针对时长统计的痛点,结合事件埋点提出了时长分段上报的解决方案。
实时累计活跃时长:
监听鼠标键盘触摸等事件实时累计用户活跃时间,在页面不可见但未退出的情形下(例如手机页面切入后台,pc端在不关闭浏览器的情况下浏览别的网页),这部分时长不计入时长累计。过滤无效时长,数据跟接近真实数据。
拆解时长分段上报:
本方案以页面埋点为触发点,将访问时长拆分成多段。如果用户触发事件埋点或者其他的上报服务器事件,就将前一段累计的访问时长跟事件埋点一起上报到服务器,然后时长记数清空,从零开始累计下一段时长。在进入下一页面后,上报上一个页面最后的一段累计时长。
将同一个页面的访问,拆分成多段上报,每一段时长都相当于一个结束点,既能优化页面时长不及时上报造成的误差,也不会使服务器负荷过大。
保留异常情况下的访问时长:
传统h5页面时长的统计非常依赖页面结束节点,如果未能捕获结束(浏览器异常退出等),则无法计算正确的访问时长,一般这部分数据会因此丢失。本方案解耦了传统时长统计对页面结束节点的依赖,实现时长实时累加,用户多停留一秒,就会有多一秒的时长,就算浏览器异常退出,也可以保存用户真实的活跃时长。
跟随埋点上报:
h5每次触发事件会立即上报一条数据,本方案将时长的上报放入事件埋点的数据结构中上报,对服务器来说,是处理同一条数据,不会增加太多服务器负荷。
针对页面a访问流程,触发事件埋点1时,会上报进入页面开始到事件埋点1的间隔时长;触发事件埋点2时,会上报事件埋点1与事件埋点2之间的间隔时长;触发事件埋点3时,会上报事件埋点2与事件埋点3之间的间隔时长;最后在进入页面b后会上报页面a的最后一段时长,即事件埋点3到页面结束的间隔时长。页面a的总访问时长为4段时长的总和。利用分段上报,有效改善并解决了业务场景中的漏报情形以及数据重复统计的问题。
分段上报能最大程度地保证有效数据的成功采集,即使出现访问异常结束的情形,也会保留出现异常前的访问时长,而不会造成数据整条漏报或丢失,改善了数据采集的准确性。
兼容针对单页面的时长统计,既能保证页面有效时长及时上报,也不会给服务器造成过大负担。而且不用人为设置最大访问时长,统计的整体数据会更接近于真实的访问情况。
本方案采用分段统计页面访问时长的方案,每一小段时长都可以看成一个结束点,解耦了访问时长对页面结束点的依赖,解决了相关技术中t 1大数据计算不能当天及时统计同一个页面的跨天的访问时长,或者当同时出现人为结束点跟实际结束点时,造成重复计算的问题。在现有解决方案的基础上,每天时长累加,时长统计不会跨天也不会重复计算。
本申请还提供了一种页面访问时长采集装置。参考图4所示,页面访问时长采集装置,其特征在于,包括:
第一获取模块410用于获取目标页面的页面代码对应的事件埋点配置信息及目标访问者对所述目标页面的第一历史访问记录;
第二获取模块420用于获取所述目标访问者对所述目标页面的关联页面的第二历史访问记录;
第一提取模块430用于从所述事件埋点配置信息提取所述目标页面的事件埋点配置特征;
第二提取模块440用于从所述第一历史访问记录及所述第二历史访问记录中提取预定时间段的事件埋点触发特征;
分析模块450用于将所述事件埋点配置特征及所述事件埋点触发特征输入时长采集点预测模型,得到所述访问者的时长采集埋点信息,所述时长采集埋点信息中包括预测的所述访问者访问所述目标页面时会触发的事件埋点;
采集模块460用于为所述页面代码中的目标事件埋点关联时长采集代码,以在所述访问者访问所述目标页面时,响应于目标事件埋点的触发使得与所述目标事件埋点关联的所述时长采集代码上报时长数据,所述目标事件埋点对应于所述访问者的时长采集埋点信息中的事件埋点。
上述页面访问时长采集装置中各模块的具体细节已经在对应的页面访问时长采集方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本申请实施方式的方法。
在本申请的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图5来描述根据本发明的这种实施方式的电子设备500。图5显示的电子设备500仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,电子设备500以通用计算设备的形式表现。电子设备500的组件可以包括但不限于:上述至少一个处理单元510、上述至少一个存储单元520、连接不同系统组件(包括存储单元520和处理单元510)的总线530。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元510执行,使得所述处理单元510执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元510可以执行如图1中所示的步骤。
存储单元520可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(ram)5201和/或高速缓存存储单元5202,还可以进一步包括只读存储单元(rom)5203。
存储单元520还可以包括具有一组(至少一个)程序模块5205的程序/实用工具5204,这样的程序模块5205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线530可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备500也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得客户能与该电子设备500交互的设备通信,和/或与使得该电子设备500能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口550进行,可以包括与输入/输出(i/o)接口550连接的显示单元540。并且,电子设备500还可以通过网络适配器560与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器560通过总线530与电子设备500的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本申请实施方式的方法。
在本申请的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。
参考图6所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品600,其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、c 等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在客户计算设备上执行、部分地在客户设备上执行、作为一个独立的软件包执行、部分在客户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到客户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其他实施例。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由权利要求指出。
1.一种页面访问时长采集方法,其特征在于,包括:
获取目标页面的页面代码对应的事件埋点配置信息及目标访问者对所述目标页面的第一历史访问记录;
获取所述目标访问者对所述目标页面的关联页面的第二历史访问记录;
从所述事件埋点配置信息提取所述目标页面的事件埋点配置特征;
从所述第一历史访问记录及所述第二历史访问记录中提取预定时间段的事件埋点触发特征;
将所述事件埋点配置特征及所述事件埋点触发特征输入时长采集点预测模型,得到所述访问者的时长采集埋点信息,所述时长采集埋点信息中包括预测的所述访问者访问所述目标页面时会触发的事件埋点;
为所述页面代码中的目标事件埋点关联时长采集代码,以在所述访问者访问所述目标页面时,响应于目标事件埋点的触发使得与所述目标事件埋点关联的所述时长采集代码上报时长数据,所述目标事件埋点对应于所述访问者的时长采集埋点信息中的事件埋点。
2.根据权利要求1所述的方法,其特征在于,所述从所述第一历史访问记录及所述第二历史访问记录中提取预定时间段的事件埋点触发特征,包括:
从所述第一历史访问记录及所述第二历史访问记录中提取预定时间段的事件埋点触发信息;
从所述预定时间段的事件埋点触发信息中提取事件埋点触发特征。
3.根据权利要求2所述的方法,其特征在于,所述从所述预定时间段的事件埋点触发信息中提取事件埋点触发特征,包括:
将所述预定时间段的事件埋点触发信息输入预设触发特征提取模型,得到所述事件埋点触发特征。
4.根据权利要求1所述的方法,其特征在于,确定所述预定时间段,包括:
获取所述目标页面的页面访问时长采集的目标时间段,所述目标时间段指示特定页面访问事件持续时间段;
获取所述特定页面访问事件持续时间段中所述特定页面访问事件的事件特征;
根据所述事件特征,从所述第一历史访问记录及所述第二历史访问记录中确定与所述事件特征相似度高于预定阈值的历史事件特征对应的历史事件的持续时间段;
将所述历史事件的持续时间段确定为所述预定时间段。
5.根据权利要求1所述的方法,其特征在于,所述从所述事件埋点配置信息提取所述目标页面的事件埋点配置特征,包括:
将所述事件埋点配置信息输入预设配置特征提取模型,得到所述目标页面的事件埋点配置特征。
6.根据权利要求1所述的方法,其特征在于,所述响应于目标事件埋点的触发使得与所述目标事件埋点关联的所述时长采集代码上报时长数据,包括:
当所述目标事件埋点为所述页面代码中关联了第一个时长采集代码的埋点时,所述第一个时长采集代码获取所述目标事件埋点的触发时间点与用户进入所述目标页面的时刻点的差值上报;
当所述目标事件埋点不是所述页面代码中关联了第一个时长采集代码的埋点时,所述目标事件埋点关联的时长采集代码获取所述目标事件埋点的触发时间点与时长采集代码的上一个时长采集代码的上报时刻点的时差上报。
7.根据权利要求1所述的方法,其特征在于,所述时长采集点预测模型的训练方法,包括:
获取特征样本集,其中每个样本包括事件埋点配置特征、事件埋点触发特征及标定的时长采集埋点信息;
将每个所述样本的数据分别输入时长采集点预测模型,得到所述时长采集点预测模型输出的预测时长采集埋点信息;
如果存在有所述样本的数据输入时长采集点预测模型后,得到的预测时长采集埋点信息与对所述样本事先标定的时长采集埋点信息不一致,则调整所述机器学习模型的系数,直到一致;
当所有所述样本的数据输入时长采集点预测模型后,得到的预测时长采集埋点信息与对所述样本事先标定的时长采集埋点信息一致,训练结束。
8.一种页面访问时长采集装置,其特征在于,包括:
第一获取模块,用于获取目标页面的页面代码对应的事件埋点配置信息及目标访问者对所述目标页面的第一历史访问记录;
第二获取模块,用于获取所述目标访问者对所述目标页面的关联页面的第二历史访问记录;
第一提取模块,用于从所述事件埋点配置信息提取所述目标页面的事件埋点配置特征;
第二提取模块,用于从所述第一历史访问记录及所述第二历史访问记录中提取预定时间段的事件埋点触发特征;
分析模块,用于将所述事件埋点配置特征及所述事件埋点触发特征输入时长采集点预测模型,得到所述访问者的时长采集埋点信息,所述时长采集埋点信息中包括预测的所述访问者访问所述目标页面时会触发的事件埋点;
采集模块,用于为所述页面代码中的目标事件埋点关联时长采集代码,以在所述访问者访问所述目标页面时,响应于目标事件埋点的触发使得与所述目标事件埋点关联的所述时长采集代码上报时长数据,所述目标事件埋点对应于于所述访问者的时长采集埋点信息中的事件埋点。
9.一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令被处理器执行时实现权利要求1-7任一项所述的方法。
10.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的程序指令;其中,所述处理器配置为经由执行所述程序指令来执行权利要求1-7任一项所述的方法。
技术总结