本发明涉及大数据分析
技术领域:
,属于压缩天然气加气分析技术,尤其是一种基于非监督机器学习的cng加气子站异常加气行为识别方法。
背景技术:
:天然气经过压缩(20-25mpa)存储在高压钢瓶中而形成压缩天然气(compressednaturalgas,cng)。cng因其环保优势和相对汽油柴油等具有的价格优势而受到政府部门推荐和用户的偏好。以天然气汽车为例,相较于传统燃油汽车其排放物更为环保;而对于新能源汽车,其相较于氢燃料汽车成本更为低廉,技术更为成熟,使用更为安全,而相较于电动汽车其燃料补给更为便利,因此具有更为广阔的发展前景。目前,cng加气子站是国内建站的主要模式,其气源通过转运车由城市附近的母站提供,之后再由加气子站加注至相应的天然气车辆内。但由于目前加气效率的限制,其相较于传统燃油汽车的燃料加注需要更长的时间,子加气站的单位时间内服务的车辆少,运营成本高,进而导致了子加气站的数量少。在高峰时段,天然气汽车需要排队等待2-3小时才能充气,这降低了天然气汽车使用者的用户体验,增加天然气汽车使用者的时间成本,形成了恶性循环,阻碍着天然气车辆保有量的增加。因此,如何提高cng加气子站的加气效率,同时降低加气子站的运营成本,是目前扩大中国天然气汽车产业待解决的紧迫问题之一。基于数据挖掘的方法,申请人已于2017年申请过申请号为“2017102455457”的专利申请,但关于加气行为中异常行为的时别、异常行为原因分析及减少异常行为的方案等,则还未见有关文献发表。异常行为检测的目标是发现和大部分其他加气行为不同的加气行为。在数据的散布图中,异常数据远离其他数据,故异常行为又常称为离群行为。cng加气子站的异常加气行为不但降低cng加气子站加气效率,还影响加气子站正常加气行为的分析。因此,有必要对异常加气行为进行挖掘,识别出哪些加气行为属于异常加气行为,并找出这些异常加气行为产生的原因。通过减少或杜绝异常加气行为,可以提高cng加气子站的加气效率,从而助力cng加气子站的节能降耗。为此申请人基于上述设计要求和目的提出本次关于“基于非监督机器学习的cng加气子站异常加气行为识别方法”的专利申请。技术实现要素:针对现有技术中存在的不足,本发明的目的在于提供一种本发明提供一种基于非监督机器学习的cng加气子站异常加气行为识别方法,该方法用于cng加气子站异常加气行为的识别、原因分析,并给出减少异常加气行的方案,从而实现减少异常加气行为发生概率,达成提cng加气子站的加气效率,降低运营成本的目的。本发明采取的技术方案是:基于非监督机器学习的cng加气子站异常加气行为识别方法,其特征在于:包括如下步骤:步骤1:数据预处理,将原始cng加气子站加气日志导入分析系统;步骤2:描述加气行为的特征变量选择与构造;步骤3:加气行为特征变量间关系的可视化;步骤4:异常加气行为的识别;步骤5:异常加气行为的原因挖掘;步骤6:减少异常加气行为的方案。进一步的,所述步骤2包括:2。1基于信息熵的定义,计算各特征变量的信息熵;2。2根据信息熵的值的大小,并结合特征变量间相关性分析和物理过程分析,选出特征变量;2。3结合实际需求,构造新的描述加气行为的特征变量;2。4特征变量的分类。进一步的,所述步骤3包括:3。1特征变量的散点图矩阵:基于所选择和构造的加气行为特征变量,通过散点图矩阵将这些变量的关系可视化;3。2特征变量评价:结合特征变量的散点图矩阵、加气行为的物理过程和提高加气效率的目的,选择最终的特征变量。进一步的,所述步骤4包括:4。1基于单变量的异常加气行为识别:基于单变量包括加气体积、加气前压强、加气后压强和加气时间间隔,利用迭代boxplot方法和核密度估计方法识别该单变量表述的加气行为是否为异常行为;4。2基于多变量的异常加气行为识别;4。2。1基于双变量的异常加气行为识别;基于多属性的异常行为挖掘方法主要借助支持向量机即svm、椭圆包络线拟合即fittinganellipticenvelope、孤立森林即isolationforest和局部异常因子即localoutlierfactor,通过比较这四种非监督机器学习结果和基于单变量识别的结果,以及综合物理过程的分析等,获得四种方法中较好的识别方法;4。2。2基于三变量的异常加气行为识别;利用鲁棒协方差非监督异常行为方法对三变量描述的异常加气行为进行识别。进一步的,所述异常行为是指降低加气效率的加气行为。本发明的优点和积极效果是:1、本发明中,引入已获取的原始数据信息加载至数据库中,作为数据挖掘和对异常加气行为进行识别的基础。引入基于属性包括加气量v,开始加气时的压强pi和结束加气时的压强pf,以及构造压强变化值dp等变量。基于提高加气效率的目的,本发明定义的异常加气行为时加气量较少的加气行为。借助boxplot、鲁棒协方差等非监督机器学习方法对单变量描述的加气行为、双变量描述的加气行为和三变量描述的加气行为进行异常行为识别。2、本发明中,比较基于不同变量、利用不同方法识别的异常加气行为结果,分析这些识别结果的重叠书量,并对异常加气行为的原因进行分析。3、本发明中,基于异常加气行为识别结果和异常行为发生的原因分析结果,提出减少异常加气行为的方案,从而达成加气枪使用效率,减少加气汽车排队等待时间的目的。附图说明图1为本发明的流程图;图2天津某cng加气子站2014年5月到7月加气行为流水号和存储号关系散点图;图3cng加气子站加气行为基于v、pi、pf和dtcng的散点矩阵图;图4cng加气子站加气行为基于v、dp和dtcng等时间间隔变量的散点矩阵图;图5cng加气子站加气行为基于v、dp、dtcng和pi、pf等变量的散点矩阵图;图6cng加气子站加气行为基于v的boxplot图及柱状图和概率密度函数估计曲线图;图7cng加气子站加气行为基于pi的boxplot图及柱状图和概率密度函数估计曲线图;图8cng加气子站加气行为基于pf的boxplot图及柱状图和概率密度函数估计曲线图;图9cng加气子站加气行为基于dtcng的boxplot图及柱状图和概率密度函数估计曲线图;图10cng加气子站加气行为加气时间长度dtcng部分异常值是记录错误导致的分析图;图11整个cng加气子站加气行为时间间隔异常行为分析图;图12双变量v、dp描述的加气行为在设定异常行为比例为基于v单变量识别结果比例下的四种非监督异常行为机器学习方法识别结果图;图13双变量v、dp描述的加气行为在设定异常行为比例为基于pf单变量识别结果比例下的四种非监督异常行为机器学习方法识别结果图;图14局部异常因子(localoutlierfactor)方法对双变量描述加气行为的识别在两种异常比例设定下的异常行为评分分布柱状图;图15孤立森林(isolationforest)方法对双变量描述加气行为的识别在两种异常比例设定下的异常行为评分分布柱状图;图16支持向量机(supportverctormachine,svm)方法对双变量描述加气行为的识别在两种异常比例设定下的异常行为评分分布柱状图;图17鲁棒协方差(robustco-variance,又称椭圆包络线拟合(fittinganellipticenvelope)方法对双变量描述加气行为的识别在两种异常比例设定下的异常行为评分分布柱状图;图18三变量v、dp,dtcng描述的加气行为在设定异常行为比例为基于v单变量识别结果比例下的鲁棒协方差非监督异常行为机器学习方法识别结果图;图19三变量v、dp,dtcng描述的加气行为在设定异常行为比例为基于pf单变量识别结果比例下的鲁棒协方差非监督异常行为机器学习方法识别结果图;图20鲁棒协方差方法对三变量描述加气行为的识别在两种异常比例设定下的异常行为评分分布柱状图。具体实施方式下面结合实施例,对本发明进一步说明,下述实施例是说明性的,不是限定性的,不能以下述实施例来限定本发明的保护范围。基于非监督机器学习的cng加气子站异常加气行为识别方法,本发明的创新在于,包括如下步骤:步骤1:数据预处理,将原始cng加气子站加气日志(如表1天津市某cng加气子站加气日志记录的部分数据所示)导入分析系统;表1天津市某cng加气子站加气日志记录(部分)表1中每一行代表一次加气行为,每一列表示该次加气行为中的各特征变量的值。列1为交易事件记录该次加气行为的开始的时刻,即认定为加气行为发生的时间坐标;列2为加气行为发生的枪号,即哪一只加气枪在进行加气,可以认为是加气行为发生的空间坐标;列3、列4记录各加气枪累计加气次数(具体含义见信息熵部分解释);列5-列7为分别是加气量(v)、金额和单价是加气行为中的关键信息,且三者之间的关系是金额=加气量×单价可见消费金额与加气量是一一对应关系;列8-列16主要包含加气行为的一些环境或外在特征,主要有加气行为的承受方,即由卡中读取的加气汽车的信息;列17-列21主要表示执行加气行为的有关变量,包括班组,员工卡号,是否付款,收银员,标志等;列22、列23为加气量(v)开始压强(pi)、结束压强(pf);列24为加气时长(addgaslong,δt)表征着一个加气行为的物理特征。其中,列22、列23以及列24这两类特征主要用于异常加气行为原因分析上。通过python编写程序,将表1所示的天津市某cng加气子站加气日志记录加载进入mongodb数据库系统,为进一步分析奠定基础;mongodb数据库作为典型的非关系型开源数据库,既能兼顾不同记录格式的历史数据,还能免费使用而降低成本。本实施例收集天津某加气子站的如表1所示加气数据,该子站有6支加气枪。加气记录收集时间段为2014年5月1日至7月30日,共有加气记录125021条。步骤2:描述加气行为的特征变量选择与构造;本实施例的每一个加气行为涉及24个特征变量。应在上述24个特征变量中选择或构造出易于可视化的特征变量,在该过程中应剔除重复特征(即强相关特征变量),可通过双变量图矩阵或数据集属性对的散布图矩阵。但由于变量数量较多,制造一个24×24的矩阵图显得过于拥挤,因此应首先得通过其他方法降低变量个数。2。1基于信息熵的定义,计算各特征变量的信息熵;通过观察原始记录,发现有些特征变量的值不随时间和空间的变化而改变。为此,通过计算各特征变量的香农熵,剔除那些熵值较小的特征变量。如果某离散变量可能取值数为n,取到第i个值的概率为pi,则该离散变量的香农熵定义为s=-∑pi×log(pi),该定义的python实现后,表2列举了本实施例的cng加气子站24特征变量中香农熵值按降序排列的前16个变量。表2中第一行数值为天津该cng加气子站所有加气记录香农熵的值,第二行为该cng加气子站加气枪号为1的加气记录的香农熵的值。从两行数据对比看出,除了枪号外,其他变量的香农熵排序基本保持不变。表2记录加气行为特征变量的香农熵2。2根据信息熵的值的大小,并结合特征变量间相关性分析和物理过程分析,选出特征变量;对于香农熵低于1的变量,由于其取值变化几乎不变,故舍弃这些变量。而香农熵取值大于1的变量,卡余额是加气行为完成结算,用戶卡号中剩余金额值,该数值与该次加气行为关系表现为卡中金额减去本次加气金额的剩余值而与本次加气行为发生联系。另外,流水号和存储号都是记录各枪号加气行为的累计数。流水号每达到59999,则重新从0计数,而存储号的最大值为59999,也因此流水号的熵值比存储号的熵值要大,二者关系可视化结果如图2所示。由于这两个变量不涉及加气行为的时空信息,也不涉及具体加气行为特征值。这两个变量因对异常加气行为的识别没有直接联系而舍弃不用。从熵值看,用戶卡号和车牌号的熵值相同。而通过原始数据验证,二者也是保持高度一致。但也有特殊的卡号,比如班组卡,这种卡没有对应的车牌号。这是因为cng汽车驾驶员也有遗忘cng加气卡的时候,此时通过该加气时的班组的班组卡进行加气,消费费用通过班组卡正常扣减,驾驶员通过现金等方式支付相应的消费金额。同时,用戶卡号和车牌号标志加气对象的一个代号,对基于节能降耗的加气行为特征的挖掘关系不大。变量金额和体积的熵值相近,而在项目研究采集的数据周期内,cng的单价保持不变的,即4。2元/nm3。由于本发明研究目的是识别异常加气行为,因此以体积v为变量。而金额则会随价格而变化,属于体积的衍生变量。交易时间和枪号记录了每一个加气行为发生的时刻和地点,相当于该事件的时空坐标。因此交易时间和枪号是本发明中加气行为的两个基本变量。而员工卡号和班组则可以作为加气工作者的考核的变量。作为描述加气行为的基本物理量为该次加气的加气量,即体积(v),以及待加气汽车储气容器中压强(pi),在加气前后的值(pf),该加气行为所用的时间,即加气时长。因此,本项目主要使用的来自于原始记录的变量有如下变量:(1)交易时刻,表示加气行为发生的时间,用t表示;(2)枪号,表示加气行为发生的具体枪号,或位置(本项目研究过程中也常称为空间,因为交易时刻和枪号记录了加气行为发生的时空坐标),用r表示;(3)体积,表示该次加气行为中的cng体积,用nm3为单位,用v表示;(4)开始压力,表示加气行为发生前汽cng容器中的压强值,用pi、pi或pinital表示;(5)结束压力,表示加气行为发生完成后汽cng容器中压强值,用pf、pf或pfinal表示;(6)加气时长,表示加气行为所用的时间,用dtcng表示。2。3结合实际需求,构造新的描述加气行为的特征变量;为了异常加气行为的识别,本实施例还引入如下变量:(1)压强变化值,描述加气行为发生前后压强值的变化量,用δp表示,其定义为δp=pf-pi(2)加气行为时间间隔,表示同一枪号相邻加气行发生时刻之差,第i次加气行为的时间间隔用用δtig或dtig表示,其定义为δtig=ti 1g-tig其中tig与ti 1g表示该枪号g下的第i次和第i 1次加气行为发生的时间(开始加气的时间)。(3)加气行为的准备时长度,表示加气行为时间间隔中,有多的时间是非加气时的时间,我们理解为加气行为的准备时长长度,用δtprep或dtpre表示,其定义式为δtprep=δtig-dtcng(4)整个加气站相邻加气行为时间间隔,表示同一加气站相邻加气行(不一定是同一加气枪下发生的行为)发生时刻之差,第i次加气行为的时间间隔用用δti或dti表示,其定义为δti=ti 1-ti其中ti与ti 1表示该加气子站的第i次和第i 1次加气行为发生的时间(开始加气的时间)。上述关于时间的变量都是关于同一枪号下的加气行为有关的时间属性变量,但对于提高整个加气子站的加气效率而言,整个加气子站相邻加气行为之间的时间间隔显然比单个加气枪下的相邻加气行为时间间隔重要,因此该变量有必要引入。2。4特征变量的分类;基于描述加气行为的变量的信息熵值大小及简单分析,可以将描述加气行为的变量分为如下三类:第一类是刻画加气行为物理过程的物理量,如直接测量量加气体积(v)、加气前后的压强值(pi,pf)和加气时间长度(dtcng),以及构造的变量压强变化值(δp)。这些变量是加气行为异常识别时主要考察的变量;第二类是加气行为的间接影响的变量,如卡余额、加气准备时长长度等;第三类是加气行为的背景环境变量,如加气行为发生的时间、加气枪号、加气班组,以及用户卡号,车牌号等;在加气异常行为识别时,主要考察第一类变量,而其余变量可以作为解释异常行为发生的原因。步骤3:加气行为特征变量间关系的可视化;交易时间(t)和枪号是记录加气行为发生的时间和地点的变量,可以认为这两个变量为独立变量,故需要研究除这两个变量外的其他变量在描述加气行为上相互关系,从而选出描述加气行为的主要特征量,为异常加气行为的识别奠定基础。研究的方法是利用散点图矩阵展示相互之间的关系。3。1特征变量的散点图矩阵:基于所选择和构造的加气行为特征变量,通过散点图矩阵将这些变量的关系可视化,可视化结果如图3所示。值得一提的是,为了凸显可视化效果,我们将加气时长大于300秒的加气时长设定为300。这样设定是基于常识,因为当前的加气技术的常识告诉我们,正常的加气行为不可能持续超过5分钟。从图3看出,开始压强、结束压强与体积、加气时长有一定联系,但体积和加气时长与压强前后变化值更有相关关系。同时,引入加气时间间隔dt和加气行为的准备时长dtprep。为了可视化效果,对dt和dtprep大于600的值设定为600,而dtprep小于0秒的行为设定为0。通过散点图矩阵可视化的结果如图4所示。从图4可知,加气时间间隔dt和加气行为的准备时长dtprep与体积v、压强变化δp和加气时间dtprep关系弱化。而且因为交易时间t的记录精度只达到分钟,dt和dtprep都呈现离散化。3。2特征变量评价;因此,从可视化结果看,描述加气行为自身变量关系的主要变量为v、δp,dtcng和pf,pi。这些变量之间的关系通过散点图矩阵可视化结果如图5所示。从图5看出,前三者整体呈现正相关关系,符合常识。但同时也发现,有一些点处于离群状态,即有异常加气行为。这些异常加气行为将通过有关方法进行挖掘,并寻找这些点产生的原因。在v、δp和dtcng中δp是构造出来的变量,其由直接测量变量pf,pi之差决定,因此基于δp描述的加气行为异常,既可能是直接测量变量pf的异常,也可能是pi的异常,或者二者都是异常导致的,因此我们在下面的研究中将交替使用pf,pi和δp。结合特征变量的散点图矩阵、加气行为的物理过程和提高加气效率的目的,本发明在识别异常加气行为时,选择最终的特征变量为v、δp,dtcng和pf,pi,而其余变量则主要作为解释异常行为原因等使用。步骤4:异常加气行为的识别;异常行为的出现要么是硬件设备的缺陷导致,要么是管理的不当导致,这些异常行为的出现都降低了加气的效率,增加的cng加气子站的运营成本。因此有必要通过机器学习方法对异常加气行为进行识别。异常行为有局部/情景异常行为和全局异常行为的区别。全局异常行为全局异常行为一般需要用到行为所有属性来判断,而局部(local)或情景(contextual)异常行为则依情景属性(contextualattributes)而定。情景属性包括空间属性、时间、网络位置(networklocations)和复杂的结构化属性(sophisticat-edstructuredattributes)。另外,行为属性(behavioralattributes)定义了研究对象的特征,因此被用于评价某研究对象在其所属于的情景中是否为异常的。例如,在确定某地的温度是否异常时,描述地点的属性如空间(即经纬度)或位置(如图或网络中的点)属性即为情景属性。同时时间属性也属于该异常值确定问题的情景属性。再比如,在消费者关系(customer-relationship)管理中,某一个消费者是否属于异常的,依赖于该消费者与其具有相似消费者档案属性的其他消费者的行为。而所有定义了消费者档案的属性就构成了该情景异常中的情景属性,比如,年龄、收入、居住地等。对于cng加气子站的加气行为,直觉告诉我们,正常的加气行为应该是加气量v较大、开始压强pi较低,或结束压强pf较大。因为正常行为都是汽缸内压强小了,剩余的cng少了,需要加气,而加气完成后,应该具有高的压强。因此,我们所指的异常加气行为,主要是情景加气异常行为。另外,正常情况下,加气子站相邻加气行为发生时间间隔dtstation应该不大(可以为0,因为一座加气子站有多支加气枪可以同时加气),每一次加气行为持续时间dtcng既不能过长,也不应该过短。为了定量化什么样的数值为过大/多,或过小/少,需要用某种方法给出相应的临界值来辅助判断。这将通过基于单变量的异常值检验来实现。同时,可以用多个变量从各个角度来描述行为,因此描述行为的量将有多个属性。属性之间的相互关系,反映了行为的规律。少数数据点的偏离,说明其行为上有异常。因此可以借助多变量下的异常值检验来找出异常行为。4。1基于单变量的异常加气行为识别:基于单变量包括加气体积、加气前压强、加气后压强和加气前后压力变化值,利用迭代boxplot方法和核密度估计方法识别该单变量表述的加气行为是否为异常行为;设加气行为用某单一属性描述为{xi},i=1,。。。,n。依据单变量属性进行情景异常值识别时,我们主要依据统计方法,包括参数方法和非参数方法。本研究主要采用参数方法,具体是盒须图标准方法(boxplotmethod),它是一种经验法则。将xi按照升序排列,可以依次得到该有序序列的1/4分位数q1,中位数q2或m,以及3/4分位数q3,并定义四分位距(inter-quartilerange,iqr)为iqr=q3-q1盒须图标准方法定义异常值上下临界值为fu=q3 ku×iqr,fl=q1-kl×iqr其中标准盒须图中,ku=kl=1。5。如果xi满足正态分布,则1。5的选取使得属于该正态分布的测量值只有0。7%的概率被认定为异常值,近似于标准正态分布中3σ之外的数据占总数据的比为0。3%。标准盒须图优点之一是,和3σ方法比较,这种寻找异常值方法的参数fu,fl的计算受异常值的影响不大。在变量选择部分提到,加气行为描述量为加气量v、开始压强pi和结束压强pf。同时,本发明研究的目的是使cng加气子站效率提高,故异常加气行为包括发生必要性较小的行为,如加气量v较小、开始压强pi较大或结束压强pf较小等行为。为了识别某行为是否属于这些异常行为,需要对应物理量量化的异常值的临界值。在本发明基于单变量属性识别异常行为的研究中,主要借助盒须图标准方法来获得异常值的临界值。但项目迭代利用盒须图标准方法于某一属性,直到该属性异常值的临界值不再变化时所获得的异常值临界值,作为最终的判断标准。这些属性的异常值临界值的合理性,由分析这些异常行为产生的原因部分给出解释。4。1。1基于加气体积(v)的异常加气行为识别;加气子站第i次加气行为由其加气量vi描述。通过vi的时间序列图及其柱状图(如图6所示)发现,在体积较小的部分,概率密度函数有局部最大值。则按照盒须图标准方法,基于加气量vi的异常行为临界值为fu=q3 ku×iqr,fl=q1-kl×iqr对少量数据的情况,大多数文献对待研究数据仅使用盒须图标准方法或其衍生方法1次。但对本实施例涉及的12万多条数据,图6中fu1,fl1使用标准方法1次的结果不理想。按照c。c。aggarwal提供的异常值迭代剔除的想法,项目迭代使用盒须图标准方法直到提出异常值后的数据中不再有该方法定义的异常值为止。图6中f1,fi的上标分别表示仅使用1次和使用迭代(iterative)方法的结果。另外,图6中柱状图中组距(binwidth)直接利用了核密度估计中的带宽(bandwidth)。4。1。2基于开始加气压强(pi)的异常加气行为识别;利用类似方法,设加气子站第j次加气行为由其开始压强pij描述。通过pij的时间序列图及其柱状图(如图7所示)发现,在开始压强较大的部分,概率密度函数有局部最大值。因此有异常行为的嫌疑。利用盒须图标准方法进行多次迭代,获得基于pi识别的异常加气行为。4。1。3基于结束加气压强(pf)的异常加气行为识别;利用类似方法,设加气子站第i次加气行为由其结束压强pfi描述。通过pfi的时间序列图及其柱状图(如图8所示)发现,在结束压强较小的部分存在不少加气行为。因此有异常行为的嫌疑。利用盒须图标准方法进行多次迭代,获得基于pf识别的异常加气行为。4。1。4基于加气时间长度(dtcng)的异常加气行为识别;利用类似方法,设加气子站第i次加气行为的加气时间长度用dtcng描述。通过其时间序列图及其柱状图(如图9所示)发现,在加气时间长度较小的部分存在局域峰。因此有异常行为的嫌疑。利用盒须图标准方法进行多次迭代,获得基于时间长度识别的异常加气行为。为了数据可视化效果,对于加气时间长度大于2倍异常值上限阈值(fui)的取值,截断为2倍阈值(2fui)。利用利用python语言的函数sum(np。array(dtcng)>2fui),统计结果显示有139个加气时长大于2fui。利用strftime('%h:%m')抽取出这些异常加气行为发生时间的小时和分钟,并作图见图10。利用截断坐标技术,将所有过长的异常加气时间长度可视化。从图中看出,这是记录加气时间长度的设备在跨夜计算时不稳定导致的。经过核对原始记录,进一步确认时记录设备不稳定导致。而两个异常行为发生在20:39,和21:30,其值与216相差不大,应该是数据溢出导致。因此,该加气设备的时间长度的记录精度和稳定性较差,加气时长在异常识别中可靠性降低。因此,有必要进一步考察加气子站的相邻加气时间间隔的异常识别。4。1。5基于整个加气子站的加气时间间隔(δt)的异常加气行为识别由于本申请发明的目的是识别异常加气行为,提升加气效率。效率的提升包括整个加气子站的加气行为时间间隔(δt)不出现过大的时间间隔。为此有必要基于该变量对异常加气行为识别。图11中横轴表示相邻加气行为时间间隔δt,纵轴为时间间隔为δt的加气行为数量δn(δt)与总加气行为数n的比值(n个行为的时间间隔数为n-1,严格讲此处应该用n-1,但因n远远大于1,为了叙述和表示方便,本发明仍用n)。柱状图的柱宽为1分钟。从局部放大图看出,图11有两个峰的分布,而两个分布之间最小值对应的横坐标为19分钟,即可以将该数值作为更换载储气瓶组的最小时间或有故障的时间间隔值。4。2基于多变量的异常加气行为识别;基于多属性的异常行为挖掘方法主要借助支持向量机(supportverctormachine,svm)、椭圆包络线拟合(fittinganellipticenvelope,又称为鲁棒协方差方法,robustco-variance)、孤立森林(isolationforest)和局部异常因子(localoutlierfactor),通过比较这四种非监督机器学习结果和基于单变量识别的结果,以及综合物理过程的分析等,获得四种方法中较好识别方法。4。2。1基于双变量的异常加气行为识别;对于cng加气行为而言,该物理过程中最重要的两个量是往汽车中加入的cng体积v及汽车内储气瓶中压强在加气前后的变化量dp。因此,本发明首先利用sklearn提供的四种算法对该二属性变量描述的加气行为进行异常加气行为识别。sklearn提供的算法中的异常行为由学习决策函数(learneddecisionfunction)来界定,而学习决策函数需要给定异常行为的比例来确定。在本实例中,由于根据v、pi单变量boxplot方法识别的异常行为比例相近,而依据pf识别的比例较大,为此我们设定异行为比例分别为3。379%(基于v变量用boxplot方法识别的异常行为的比例,而基于pi变量用boxplot方法识别的异常行为比例为3。173%,二者接近,且二者识别的异常行为有高达91。305%的重合度。故以两比例中较大者为异常行为可能的比率。)和11。056%(基于pf变量用boxplot方法识别的异常行为的比例)。识别结果如图12和图13所示。从图12和图13看出,局部异常因子方法识别的结果较为差,没有明确的界限。孤立森林和支持向量机方法识别的异常行为分布类似,而鲁棒协方差方法给出的异常行为较为合乎人们的预期:正常的加气量v与压强变化量dp之间应该成线性关系。另外,图14-17分别给出了四种方法在两种异常行为比例下的加气行为异常性评分分布。其中图14和15表示的局部异常因子和孤立森林的评分分布不因异常行为比例而变化,不同的异常行为行为比例直接通过调整不同的异常行为评分临界值而实现对应比例的异常行为的识别。而图16和17表示的支持向量机和鲁棒协方差方法,形式上看,异常行为比例不同导致分布简单平移。但实际对比发现,具体分布形式会伴随给定的异常行为比率有一定的变化。或者说,根据表3,后两种方法是临界值保持不变,不同比例的异常值通过移动分布实现。表3四种方法在v-dp双变量描述的加气行为中识别的异常行为评分临界值4。2。2基于三变量的异常加气行为识别;对双变量描述的加气行为,利用非监督异常行为方法鲁棒协方差识别的结果比较好。本发明因此利用鲁棒协方差方法对三变量描述异常加气行为进行识别;因为本发明识别异常行为的目的是为了提高加气效率。因此从物理过程和时间角度看,描述加气行为的三个变量可以选为v、dp、dtcng。对这三个变量利用鲁棒协方差识别异常行为,误差比例设定为设定异行为比例分别为3。379%和11。056%的识别结果见图18和19,而图20为鲁棒协方差方法在这两种异常行为比例下的异常行为评分的柱状图。步骤5:异常加气行为的原因挖掘;本发明识别的异常行为是指降低加气效率的加气行为,因此依据单变量v识别的异常加气行为最为重要,为此v较小的加气行为在本发明中就被认为是异常加气行为,这个认定v较小的临界值通过boxplot方法确定。为了挖掘这些加气行为产生的原因,本发明利用python语言numpy模块中的sum语句计算出通过v识别的异常行为与基于pi,pf等识别的异常行为的重合数量见表4。表4基于不同变量及方法识别的异常行为间的重复性v<vcpi>picpf<pfcdp<dpcallv<vc42273623198041361362pi>pic36233968137138821362pf<pfc198013711382221951362dp<dpc41363882219547191362all13621361136213621362而利用鲁棒协方差方法对基于v、dp双变量识别的异常行为评分在v和pf单变量识别比率下的异常行为与v识别的异常行为的重合数量分别为685和3633。而在v、pf单变量识别的异常行为比例下,对v、dp、dtcng三变量识别的异常行为与基于v的单变量识别异常行为的重复数量为1324和3651。进一步分析发现,基于v单变量的boxplot识别的4227个异常加气行为,有4074是重复加气导致的,还有153个加气行为待解释。这153个非重复加气行为中有120个行为发生在整个加气子站加气行为时间间隔大于19分钟时,可以认为时加气子站槽车更换导致。其于33个非重复异常加气行为时因为该加气子站设置了当卡余额小于3。95时停止加气导致。步骤6:减少异常加气行为的方案。鉴于步骤5的分析结果,本发明提出减少异常加气行为的方案,即首要减少重复加气行为,这需要提高压强传感器的精度,不因传感器记录数据不准确性导致加气枪重复加气。其次是增加加气子站槽车调度的智能化和科学化。最后是更改卡余额低于3。95就停止加气的设定,可以购卡押金等形式允许卡余额低于3。95时仍可以继续加气,同时改变加气后才检查卡余额的方式为插时即对卡余额进行先检测再加气。本发明根据借助boxplot方法和鲁棒协方差等方法对cng加气子站异常加气行为进行识别,并对识别结果进行比较和分析,为这些加气行为提出一种基于非监督学习的异常行为识别和分析的数据挖掘方法。通过加气数据入数据库,特征变量选择与构造,基于单变量的boxplot方法,以及基于多变量的鲁棒协方差等非监督机器学习方法识别异常加气行为,并对不同异常加气行为识别结果,以及基于不同特征变量的识别结果进行比较分析。以上对本发明做了示例性的描述,应该说明的是,在不脱离本发明的核心的情况下,任何简单的变形、修改或者其他本领域技术人员能够不花费创造性劳动的等同替换均落入本发明的保护范围。当前第1页1 2 3 
技术特征:1.基于非监督机器学习的cng加气子站异常加气行为识别方法,其特征在于:包括如下步骤:
步骤1:数据预处理,将原始cng加气子站加气日志导入分析系统;
步骤2:描述加气行为的特征变量选择与构造;
步骤3:加气行为特征变量间关系的可视化;
步骤4:异常加气行为的识别;
步骤5:异常加气行为的原因挖掘;
步骤6:减少异常加气行为的方案。
2.根据权利要求1所述的基于非监督机器学习的cng加气子站异常加气行为识别方法,其特征在于:所述步骤2包括:
2。1基于信息熵的定义,计算各特征变量的信息熵;
2。2根据信息熵的值的大小,并结合特征变量间相关性分析和物理过程分析,选出特征变量;
2。3结合实际需求,构造新的描述加气行为的特征变量;
2。4特征变量的分类。
3.根据权利要求1所述的基于非监督机器学习的cng加气子站异常加气行为识别方法,其特征在于:所述步骤3包括:
3。1特征变量的散点图矩阵:
基于所选择和构造的加气行为特征变量,通过散点图矩阵将这些变量的关系可视化;
3。2特征变量评价:
结合特征变量的散点图矩阵、加气行为的物理过程和提高加气效率的目的,选择最终的特征变量。
4.根据权利要求1所述的基于非监督机器学习的cng加气子站异常加气行为识别方法,其特征在于:所述步骤4包括:
4。1基于单变量的异常加气行为识别:
基于单变量包括加气体积、加气前压强、加气后压强和加气时间间隔,利用迭代boxplot方法和核密度估计方法识别该单变量表述的加气行为是否为异常行为;
4。2基于多变量的异常加气行为识别;
4。2。1基于双变量的异常加气行为识别;
基于多属性的异常行为挖掘方法主要借助支持向量机即svm、椭圆包络线拟合即fittinganellipticenvelope、孤立森林即isolationforest和局部异常因子即localoutlierfactor,通过比较这四种非监督机器学习结果和基于单变量识别的结果,以及综合物理过程的分析等,获得四种方法中较好的识别方法;
4。2。2基于三变量的异常加气行为识别;
利用鲁棒协方差非监督异常行为方法对三变量描述的异常加气行为进行识别。
5.根据权利要求1所述的基于非监督机器学习的cng加气子站异常加气行为识别方法,其特征在于:所述异常行为是指降低加气效率的加气行为。
技术总结本发明涉及大数据分析技术领域,属于压缩天然气加气分析技术,尤其是一种基于非监督机器学习的CNG加气子站异常加气行为识别方法,包括如下步骤:步骤1:数据预处理,将原始CNG加气子站加气日志导入分析系统;步骤2:描述加气行为的特征变量选择与构造;步骤3:加气行为特征变量间关系的可视化;步骤4:异常加气行为的识别;步骤5:异常加气行为的原因挖掘;步骤6:减少异常加气行为的方案。
技术研发人员:李阳;卫勇;赵玉连;吴海云;孙金辉;靳登超
受保护的技术使用者:天津农学院
技术研发日:2020.02.18
技术公布日:2020.06.09