本发明涉及行动识别装置和行动识别方法。
背景技术:
在办公室或工厂等作业场所,利用照相机拍摄的影像对操作人员的作业动作进行可视化分析,对提高工作效率来说十分重要。
以往的行动识别方法例如参见专利文献1(日本特开2011-100175号公报),是用照相机连续获得的多帧图像来识别人物,将该人物重心的位置轨迹作为特征量提取出来后,与预先登记的行动重心轨迹进行对照,从而识别该人物的行动。
但是,作业人员工作时的行动不止一个,而是有很多,例如手持东西步行等。这些行动无法通过追踪上述重心的位置轨迹来识别。
技术实现要素:
本发明的目的在于,提供一种能够高精度地识别作业人员在作业时的行动的行动识别装置和行动识别方法。
针对上述目的,本发明提供一种行动识别装置,用于从拍摄作业人员的影像中识别被预先定为监视对象的标准作业,其中具备,图像取得部,用于取得所述影像包含的多帧图像;行动识别部,用于从所述各帧图像的特征性变化中识别所述标准作业中包含的多个要素行动,同时,求出这些要素行动的可信度;以及,行动判断部,用于综合处理所述各要素行动的可信度,判断所述要素行动中所述作业人员的作业行动。
本发明的效果在于,高精度地识别作业人员作业时的一连串行动。
附图说明
图1是第一实施方式涉及的行动识别装置的功能结构模块图。
图2是作业人员在作业场所的一例作业行动的示意图。
图3是一例商品入库作业的示意图。
图4是关于商品集装作业的一例作业行动的示意图。
图5是时空图像数据构成的示意图。
图6是f帧的时空图像数据的示意图。
图7是f帧的时空图像数据的更新方法示意图。
图8是各要素行动的可信度的变异特性图。
图9是时空图像数据的模块分割示意图。
图10是一例在图2的作业场所拍摄作业人员时从时空画像数据中提取的时间t的特征点的示意图。
图11是一例在图2的作业场所拍摄作业人员时从时空图像数据中提取的时间t δt时间以后的特征点的示意图。
图12是第一实施方式的行动识别装置的识别辞典制作的处理动作流程图。
图13是第一实施方式的行动识别装置的行动识别处理动作流程图。
图14是第一实施方式的行动识别装置的综合处理部所执行的综合处理动作流程图。
图15是第二实施方式的行动识别装置的综合处理部所执行的综合处理动作流程图。
图16是第三实施方式的行动识别装置的综合处理部所执行的综合处理动作流程图。
图17是第四实施方式的行动识别装置的综合处理部所执行的综合处理动作流程图。
图18是第五实施方式的行动识别装置的综合处理部所执行的综合处理动作流程图。
图19是第六实施方式的行动识别装置的综合处理部所执行的综合处理动作流程图。
图20是一例行动识别系统示意图。
图21是一例相机硬件结构示意图。
图22是行动识别装置的一例硬件结构示意图。
具体实施方式
以下参考附图说明本发明的实施方式。
本发明的行动识别装置用于从拍摄作业人员的照相机的映像中识别事先作为监视对象锁定的作业行为(称为标准作业)。所述作业场所包括例如办公室、工厂等,但本发明并不受此限制。
《第一实施方式》
图1是第一实施方式涉及的行动识别装置的功能结构模块图。
本实施方式中的行动识别装置100具有图像取得部101、时空特征提取部102、行动识别部103、综合处理部104、辞典制作部105、识别结果输出部106。
图像取得部101例如在如图2所示的作业场所201中设置的照相机203的影像中实时取得或离线取得。照相机203的设置场所是任意的,只要是可以拍摄到作业人员202在作业场所201中作业时的行动的场所,无论哪里都可以。该照相机203的影像可以从照相机203通过例如有线或无线直接送往行动识别装置100,或可以通过记录介质传送给行动识别装置100。
时空特征提取部102从图像取得部101得到的图像中包含的各帧图像中提取时空特征点。所谓"时空特征点"是表示图像的空间变化和时间变化的特征点,表示人物动作的变化。关于该空间特征点的提取方法,将在以下详述。
行动识别部103通过基于时空特征提取部102提取的时空特征点来检索行动识别辞典105a,在识别包含在标准作业中的多个要素行动的同时,计算这些要素行动的可信度。所谓"要素行动",是指包含在标准作业中的特征性行动,其按照作业内容存在多个种类。所谓"可信度"是表示识别结果的准确度的指标,在0.0~1.0的范围内取值,数值越大,意味着可信度越高。
行动识别辞典105a由辞典制作部105制作。行动识别辞典105a中事先登记了用于识别包含在标准作业中的各种行动(要素行动)的信息。关于行动识别辞典105a的制作方法,将在以下详述。
综合处理部104由行动判断部104a和行动时间计算部104b构成。行动判断部104a综合处理各要素行动的可信度,从各要素行动中按时间顺序判断作业人员202的作业行动。所谓"综合处理"是指,以规定的时间单位比较各要素行动的可信度,从这些各要素行动中导出最终的识别结果的处理。行动时间计算部104b按照帧率,求出被行动判断部104a判断为作业人员202的作业行动的要素行动的开始时间和持续时间。
识别结果输出部106执行由综合处理部104最终获得的识别结果的输出处理。
图2是作业人员在作业场所的一例作业行动的示意图,例如表示作业人员202在工厂等作业场所201进行商品入库作业的状态。
在商品入库作业时作业人员202的作业行动例如包括"把箱子204放置在地板上的行动(暂时放置行动)"、"核实箱子204内商品的行动(商品核实行动)"、"从箱子204中取出商品的行动(商品取出行动)"、"放入货架的行动(商品入库行动)"等。本实施方式中的行动识别装置100使用行动识别辞典105a,把这些行动作为要素行动来认识。
图3是关于商品入库作业的一例作业行动示意图,表示作业人员202把箱子临时放置204在地板上时的状态。图4是一例步行行动的示意图。由于作业人员202一边走一边进行商品入库作业的情况较多,所以需要进行包括步行行动在内的识别。
作业场所201内设置的照相机203具有连续拍摄的功能(视频拍摄功能)。行动识别装置100例如以每秒30帧的速率读取该照相机203的影像中包含的帧图像。在这种情况下,每一帧的时间为1/30秒。
图5是模式化表示时空图像数据构成的示意图。x轴为图像的宽度,y轴为图像的高度。纵深为时间t的长度,由帧数决定。帧图像的空间坐标为(x,y)。如果设一帧的时间为t,则如图5所示,时空图像数据可以用三维立方体表示。即,时空图像数据的坐标为(x,y,t),时空图像数据的一个像素值i成为空间坐标(x,y)和时间t的函数。
图6是f帧的时空图像数据的示意图。纵轴表示可信度p,横轴表示时间t,与帧编号成比例。q表示将f帧的时空图像数据换算成时间时的中心位置。
在本实施方式中,将f帧的时空图像数据作为一个识别对象单位。f是帧数,可任意设定。例如,如果需要在2秒内识别作业人员202的工作行动,可以设定为f=60帧。
如上所述,作业人员202的作业行动中包含多个要素行动,在识别这些要素行动时计算可信度pi(q)。即在识别如图3所示的商品入库作业行动时,求出可信度p0(q)。另外,在如图4所示在识别作业人员202步行行动时求出可信度p1(q)。当具有i个要素行动时,可以得到p0(q)~pi-1(q)的i个可信度。
在此,将从f帧的时空图像数据中得到的要素行动的可信度pi(q)作为该时空图像数据的中心帧的结果。即如图6所示,当设中心位置为q时,可信度pi(q)为第q个的帧位置的第i个要素行动的可信度。
图7是用于说明f帧的时空图像数据的更新方法的示意图。纵轴表示可信度p,横轴表示时间t。
图7的示例显示了让f帧的时空图像数据在时间轴方向上一帧一帧移动的状态。如上所述,将f帧的时空图像数据作为一个识别对象单位,将要素行动的可信度pi(q)作为该时空图像数据的中心帧的结果。图中q、q 1、…q n(n为0以上的整数)分别表示移动f帧的时空图像数据时的中心位置。另外,移动时空图像数据的间隔不限于一帧,也可以以多帧为单位。
图8是各要素行动的可信度变动特性图。在图8的示例中,在识别沿时间轴方向一帧一帧地移动f帧的时空图像数据时所得到的两个要素行动a,b时的可信度的变化。横轴是时间,单位是帧数。纵轴表示可信度p。
图中的tw表示监视要素行动的时间(判断时间),thre表示可信度的阈值。关于判断时间tw和阈值thre,之后将在其他实施方式中详述。
一般来说,在商品入库作业中,作业人员202边走边作业的情况较多,因此有必要进行包括步行行动在内的识别。实线表示要素行动a(例如商品的入库行动)的可信度的变动特性。虚线表示要素行动b(例如步行行动)的可信度的变动特性。在图8的例子中,为了简化说明,只显示了两个要素行动a、b,但实际上,商品入库作业还存在其他多个要素行动,可以得到每个这些要素行动各自的可信度的变动特性。
接下来用图9~图11,说明使用时空图像数据的行动识别方法。
图9是表示时空图像数据的块分割图。横轴为空间坐标x,纵轴为空间坐标y。时间轴用t表示。也就是说,时间轴t的方向是在例如1秒内以30帧速率输入的映像的时间序列轴。以帧数换算,可求得实际的时间。当作业人员202进行某种行动时,时空图像数据中便会发生的变化点。通过找出这个变化点即时空的特征点,便可以识别要素行动。
如图9所示,按规定大小(mp,np,t)的块分割时空图像数据。mp、np是像素量数,t是用于提取特征点的时间宽度。也就是说,一块大小为横mp像素、纵np像素、纵深t帧。当作业人员进行某一行动时,对应于该动作的时空图像数据块的特征量就会变大。也就是说,在时空间内产生了很大的变化量。将该变化量大的块作为特征点提取。
首先,为了在作为空间方向的(x,y)方向上除去噪声,进行式(1)的平滑处理。
l(x,y,t)=i(x,y,t)*g(x,y)式(1)
在此,l(x,y,t)是时间t的帧图像,(x,y)坐标中的像素值。g(x,y)是用于平滑处理的内核。*是卷积处理。平滑处理既可以是像素平均处理,也可以是现有的gaussian平滑滤波处理。
然后,在时间轴上进行过滤处理。在此,进行式(2)所示的gabor过滤处理。
r(x,y,t)=(l(x,y,t)*gev)2 (l(x,y,t)*god)2式(2)
在此,gev和god是式(3)和式(4)所示的gabor滤波器的内核。*是卷积处理。τ和ω是gabor滤波器内核的参数。
对于图9所示的时空图像数据的所有像素,上述式(2)的滤波处理后,用式(5)求出时空坐标(x,y,t)中的块r的平均值m。
然后,如式(6)所示,当块r的平均值m(x,y,t)比一定阈值thre_m高时,将该块r作为特征点提取。
m(x,y,t)>thre_m式(6)
图10是从在图2的作业场所201拍摄作业人员202时的空间画像数据中提取的一例时间t的特征点。例如,在作业人员202蹲着时,把时空图像数据中有动作的部分作为特征点提取。图11是从时间t δt时间后的时空间图像数据中提取的一例特征点。
接下来说明从时空图像数据中提取的特征点的描述方法。
当从时空图像数据中提取作为特征点的块时,求出该块内的像素i(x,y,t)的时空边缘信息e(x,y,t)。具体而言,进行以下式(7)的微分运算。
因为1块中有mp×np×t个的像素,所以可以得到mp×np×t×3个微分值。该块可以用mp×np×t×3维向量来描述。也就是说,特征点可以用mp×np×t×3维向量来描述。
接下来对于本实施方式中的行动识别装置100的处理动作,分(a)识别辞典作成处理和(b)行动识别处理的两部分说明。以下各流程图所示的处理是通过作为计算机的行动识别装置100读取指定程序来执行的。
(a)识别辞典作成处理
图12是用于说明第一实施方式的行动识别装置100的识别辞典制作处理动作的流程图。
在图2所示的作业场所201识别作业人员202的作业行动的情况下,需要事先制作行动识别辞典105a。行动识别装置100按照以下步骤制作行动识别辞典105a。
首先,行动识别装置100通过图像取得部101取得学习视频数据(步骤s11)。也就是说,收集有关标准作业的视频样本,并将该视频样本作为学习视频数据使用。这种情况下,将视频样本中的f帧的时空图像数据作为一个学习视频数据。行动识别装置100具备的时空特征提取部102把与上述方法相对应的特征点作为要素行动,从该学习视频数据(f帧的时空图像数据)中提取(步骤s12)。
这样,收集多个学习视频数据,从各个学习视频数据中分别提取与动作变化相对应的特征点。在这种情况下,如果是相同的行动,行动识别的系统即使不同也可以。总之,只要取得关于后述的k类要素行动的数据即可。行动识别部103用上述式(7)对从上述各学习视频数据中提取的各特征点进行微分处理,求出mp×np×t×3维向量,并根据k-means法对每个要素行动进行分类(步骤s13)。
在此,如果将分类后的类别数量设为k,则从多个学习视频数据中提取的特征点被分类为k种类的要素行动。同一种类的特征点具有类似的特征。行动识别部103对被分类为k类要素行动的各特征点,分别平均化相同种类的特征点的mp×np×t×3维向量,制作平均向量vk(步骤s14)。该平均向量vk是代表各个要素行动特征点的向量。
行动识别部103计算与k类特征点对应的块的合计数量,求出学习用的直方图h(k)(步骤s15)。该直方图h(k)表示k类特征点的频率。
这样,求出各特征点的平均向量vk和直方图h(k)。辞典制作部105将这些信息作为学习信息登记到行动识别辞典105a中(步骤s16)。
(b)行动识别处理
图13是用于说明第一实施方式的行动识别装置100的行动识别处理动作流程图。
首先,行动识别装置100按照时间顺序取得设置在作业场所201的照相机203拍摄的影像中所包含的多帧图像(步骤s21)。行动识别装置100的时空特征提取部102用这些帧图像,以f帧为单位,生成时空图像数据,用上述方法将与动作变化对应的的多个特征点作为要素行动从该时空间图像数据中提取(步骤s22)。
在此,行动识别部103求出从f帧的时空图像数据中提取的各特征点的mp×np×t×3维向量(步骤s23)。该3维向量和行动识别辞典105a中登记了的k种的平均向量vk之间距离为最近的向量成为相同要素行动的特征点。
接下来,行动识别部103把从f帧的时空图像数据中提取的各特征点分类为k种的要素行动,分别制作直方图ts(k)(步骤s24)。行动识别部103通过将这些直方图ts(k)和登记在行动识别辞典105a中的各特征点的直方图h(k)进行比较,用公式(8)求得两者的相似度s(ts,h)。行动识别部103将该相似度s(ts,h)作为可信度p来计算(步骤s25)。
行动识别部103反复对f帧时空图像数据中包含的各要素行动进行上述处理,得到各自的可信度p(步骤s26)。综合处理部104根据行动识别部103所得到的各要素行动的可信度p,根据各要素行动判断作业人员202的作业行动(步骤s27)。关于该综合处理,之后将参考图14说明。识别结果输出部106执行综合处理部104最终获得的识别结果的输出处理(步骤s28)。该输出处理包括,例如在没有图示的监视者的终端装置上以时间序列可视地显示要素行动种类和时间,以及通过通信网络发送到外部监控中心等。
为了便于说明,图13的流程图只显示了f帧的处理。实际上如图7所示,一边在时间轴方向上一帧一帧地移动f帧的时空图像数据,一边重复同样的处理,以帧为单位识别标准工作期间的一连串行动,输出该行动的识别结果。
图13的流程图所示的处理既可以是离线运行也可以是实时运行。以下为了便于说明,假设为离线处理。
〈综合处理〉
图14是第一实施方式的行动识别装置100的综合处理部104实行的综合处理动作流程图。该流程图所示的综合处理在图13的步骤s27中执行。在作业场所201中,作业人员202的作业行动不止一个,而是有包括行走行为在内的各种行动(要素行动)。这些行动在时间上有时会重叠,重要的是准确判断当时主要采取什么样的行动。行动识别装置100的综合处理部104按照以下步骤,对由行动识别部103识别的各要素行动的可信度p进行综合处理,按照时间顺序对作业人员202的一连串行动进行区别判断。
也就是说,首先,综合处理部104从行动识别部103中同时取得f帧的各要素行动和这些要素行动的可信度p,并保存到未图示的工作存储器中(步骤s31)。综合处理部104搜索所述工作存储器,选择f帧中具有最大可信度p的要素行动(步骤s32)。
综合处理部104将这些受到选择的要素行动判断为对象作业行动(步骤s33),求出该对象作业行动的开始时间和持续时间(步骤s34)。所谓"对象作业行为",指的是被作为监视对象的作业人员202的作业行为。
具体而言,设定从图6所示的f帧时空图像数据中得到n种要素行动。综合处理部104综合这些要素行动的可信度p,决定其中的对象作业行为。在此,第一实施方式将从f帧的时空图像数据中得到的n种要素行动中可信度p为最大值pmax的要素行动作为对象作业行为。
把作为对象作业行动而受到选择的要素行动当作图6所示的f帧的中心位置q的识别结果。根据帧速率计算要素行动的开始时间。也就是说,每次影像的帧的取得为开始时间点,可以兼顾要素行动的判断来决定。帧在f帧的中心位置q中存在的持续时间为该要素行动的持续时间。
具体来说,在当帧速率为f_rat的情况下,每秒为f_rat帧,所以每一帧的时间为1/f_rat秒。例如,当帧速率为"30"时,每1帧的时间为1/30秒。要素行动最初被检测到时的开始帧为q,开始时间为q/f_rat秒。当要素行动被连续检测到的持续帧数为q_act帧时,持续时间为q_act/f_rat秒。如果将该要素行动的开始时间和持续时间可视化,对例如作业人员造成负担的作业进行分析等有帮助。
这样,综合处理部104将f帧中可信度p最高的要素行动判断为对象作业行动,以该f帧的中心位置q为基准,求出该要素行动的开始时间和持续时间(步骤s35)。
之后如图7所示,f帧每次更新一帧时,反复执行上述同样的处理。由此,如果是图8的例子,就会输出以下的识别结果。要素行动a例如是商品的入库行动。要素行动b例如是步行行动。
·t0~t4:要素行动b
·t4~t5:要素行动a
·t5~t8:要素行动b
·t8~t12:要素行动a
如上所述,根据第一实施方式,通过综合处理从各帧图像得到的各要素行动的可信度p,在每个要素行动中选择可信度p最高的要素行动,便可以按时间顺序区分并正确识别作业人员的一连串行动。
《第二实施方式》
接下来说明第二实施方式。
第二实施方式在上述第一实施方式中加入要素行动的可信度p高于预先设定为判断基准的阈值thre的条件进行综合处理。
在本实施方式中行动识别装置100的基本构成与上述第1个实施方式的图1是相同。在第二实施方式中,综合处理部104的行动判断部104a具有将各要素行动的可信度p以帧单位进行比较,判断可信度p比阈值thre高且可信度p为最高的要素行动为对象作业行动的功能。以下详述第二实施方式的处理动作。
图15是用于说明在第二实施方式中行动识别装置100的综合处理部104实行的综合处理动作的流程图。该流程图所示的综合处理在图13的步骤s27中执行。
与上述第一实施方式一样,首先,综合处理部104从行动识别部103中取得f帧各要素行动和这些要素行动的可信度p,并保存在未图示的工作存储器中(步骤s41)。综合处理部104搜索所述工作存储器,选择f帧中具有最大可信度p的要素行动(步骤s42)。
在此,在第二实施方式中,综合处理部104具有预先设定为要素行动的判断基准的阈值thre。该阈值thre根据作业场所401的环境和作业内容等任意设定。
综合处理部104判断在步骤s42中选择的要素行动的可信度p是否高于阈值thre(步骤s43)。在要素行动的可信度p高于阈值thre时(步骤s43的是),综合处理部104将该要素行动判断为对象作业行动(步骤s44),求出该对象作业行动的开始时间和持续时间(步骤s46)。
另一方面,如果步骤s42中选择的要素行动的可信度p在阈值thre以下(步骤s43的否),则综合处理部104将该要素行动判断为具有对象作业行为的可能性(步骤s45)。
在要素行动的可信度p为阈值thre以下的情况下,也可以判断为不是对象作业行动。但是,如果具有一定程度的可信度p,便存在是对象作业行动的可能性,因此优选判断为具有可能性。在判断为具有对象作业行动可能性的情况下,也求出该对象作业行动的开始时间和持续时间。另外,在判断为具有对象作业行动可能性的情况下,优选例如附加特定颜色后输出识别结果等,用以与上述步骤s44中判断的对象作业行动有所区别。
这样,综合处理部104将要素行动的可信度p高于阈值thre为条件,从f帧中判断对象作业行动。
之后如图7所示,f帧每次更新一帧时,反复执行上述同样的处理(步骤s47)。由此,如果是图8的例子,就会输出以下的识别结果。要素行动a是例如商品的入库行动。要素行动b是例如步行行动。
·t1~t4:要素行动b
·t4~t5:要素行动a
·t5~t7:要素行动b
·t9~t10:要素行动a
包含具有可能性,如下所示。
·t0~t1:具有要素行动b的可能性
·t7~t8:具有要素行动b的可能性
·t8~t9:具有要素行动a的可能性
·t10~t12:具有要素行动a的可能性
如上所述,根据第二实施方式,通过设定要素行动可信度p的阈值thre,将具有高于该阈值thre的可信度p的要素行动判断为对象作业行动,能够更正确地识别作业人员的一连串行动。
《第三实施方式》
接下来说明第三实施方式。
在第三实施方式中,具有用于判断要素行动的判断时间tw,用该判断时间tw的间隔来判断要素行动。
行动识别装置100的基本构成与上述第一实施方式的图1相同。在第三实施方式中,综合处理部104的行动判断部104a具有比较在判断时间tw各要素行动的可信度p,把可信度p最高的要素行动判断为对象作业行动的功能。下面详述第三实施方式的处理动作。
图16是用于说明在第三实施方式中行动识别装置100的综合处理部104执行的综合处理动作的流程图。该流程图所示的综合处理在图13的步骤s27中执行。
首先,综合处理部104设定用来判断要素行动的判断时间tw(步骤s51)。该判断时间tw是f帧的时间以上,按照作业场401的环境等任意设定。
综合处理部104从行动识别部103中同时取得判断时间tw中的所有帧的要素行动和这些要素行动的可信度p,并保存在未图示的工作存储器中(步骤s52)。综合处理部104搜索所述工作存储器,从判断时间tw的所有帧中选择具有最大可信度p的要素行动(步骤s53)。
综合处理部104将该受到选择的要素行动判断为对象作业行动(步骤s54),求出该对象作业行动的开始时间和持续时间(步骤s55)。要素行动的开始时间以包含该要素行动的帧为基准计算。
要素行动的开始时间在最初检测到要素行动时,以判断时间tw为单位,测量要素行动的开始时间。该要素行动的持续时间是包含该要素行动的帧在判断时间tw的持续时间。这种情况下,是连续检测到要素行动的判断时间tw的倍数时间。例如,连续3次判断时间tw内检测到的要素行动,其持续时间为3×tw。
这样,综合处理部104对于判断时间tw的所有帧反复进行同样的处理,将可信度p最高的要素行动判断为对象作业行动,并以包含该要素行动的帧为基准,求出该要素行动的开始时间和持续时间(步骤s56)。
由此,如果是图8的示例,则在判断时间tw的间隔(t0~t3,t3~t6,t6~t11)内的要素行动受到判断,输出如下识别结果。要素行动a例如是商品的入库行动。要素行动b例如是步行行动。
·t0~t3:要素行动b
·t3~t6:要素行动a
·t6~t11:要素行动b
如上所述,根据第三实施方式,对用来判断要素行动的时间赋予一定幅度,在该时间间隔中判断要素行动。由此,便能够在例如图像中含有噪音的情况下,防止由于该噪音引起的误判,正确识别作业人员202的行动。
另外,作业人员在作业动作中有时会有不规则的行动,例如转向其他方向等。在这种情况下,通过让判断时间具有一定幅度,可以防止因不规则行动所导致的误判。
《第四实施方式》
接下来说明第四实施方式。
第四实施方式是在该第三实施方式中把可信度p高于阈值thre的情况加入条件进行综合处理。
行动识别装置100的基本构成与上述第一实施方式的图1相同。在第四实施方式中,综合处理部104的行动判断部104a具有在判断时间tw比较各要素行动的可信度p,把可信度p比阈值thre高且可信度p最高的要素行动判断为对象作业行动的功能。以下详述第四实施方式的处理动作。
图17是用于说明在第四实施方式中行动识别装置100的综合处理部104执行的综合处理动作流程图。该流程图所示的综合处理在图13的步骤s27中执行。
与上述第三实施方式相同,首先,综合处理部104设定用于判断要素行动的判断时间tw(步骤s61)。这个判断时间tw是f帧的时间以上,根据作业场所401的环境和作业内容等任意设定。
综合处理部104从行动识别部103中同时取得判断时间tw的所有帧的要素行动和这些要素行动的可信度p,并保存在未图示的工作存储器中(步骤s62)。综合处理部104搜索所述工作存储器,从判断时间tw的所有帧中选择具有最大可信度p的要素行动(步骤s63)。
在第四实施方式中,综合处理部104具有预先设定为要素行动的判断基准的阈值thre。该阈值thre根据作业场所401的环境和作业内容等任意设定。
综合处理部104判断在该步骤s63中选择的要素行动的可信度p是否高于阈值thre(步骤s64)。要素行动的可信度p高于阈值thre时(步骤s64的是),综合处理部104将该要素行动判断为对象作业行动(步骤s65),求出该对象作业行动的开始时间和持续时间(步骤s67)。
另一方面,在该步骤s63中选择的要素行动的可信度p在阈值thre以下的情况下(步骤s64的no),综合处理部104将该要素行动判断为具有对象作业行动的可能性(步骤s66)。
在要素行动的可信度p为阈值thre以下的情况下,也可以判断为不是对象作业行动。但是,如果具有一定程度的可信度p,便会有是对象作业行动的可能性,因此优选判断为具有可能性。在判断为具有对象作业行动可能性的情况下,也求出该对象作业行动的开始时间和持续时间。另外,在判断为具有对象作业行动可能性的情况下,优选例如附加特定颜色后输出识别结果等,用以与该步骤s65中判断的对象作业行动有所区别。
这样,综合处理部104反复对判断时间tw的所有帧作同样的处理,以阈值thre为基准,将可信度p最高的要素行动判断为对象作业行动,以包含该要素行动的帧为基准求出该要素行动的开始时间和持续时间(步骤s68)。
由此,如果是图8的示例,则判断时间tw的间隔(t0~t3,t3~t6,t6~t11)内的要素行动受到判断,输出以下的识别结果。要素行动a例如是商品的入库行动,要素行动b例如是步行行动。
·t0~t3:要素行动b
·t3~t6:要素行动a
·t6~t11:要素行动b
在判断时间tw中要素行动a和要素行动b的其中之一的可信度p在阈值thre以下时,可信度p高的要素行动被选择为具有对象作业行动的可能性。
如上所述,根据第四实施方式,把要素行动的可信度p的阈值thre加入条件,能够比上述第三实施方式更准确地识别作业人员的一连串行动。
《第五实施方式》
接下来说明第五实施方式。
在第五实施方式中,与上述第三实施方式相同,具有用于判断要素行动的判断时间tw,用该判断时间tw的间隔来判断要素行动。但是,第五实施方式和第三实施方式之间的不同之处在于,上述第三实施方式选择在判断时间tw中具有最大可信度p的要素行动,而第五实施方式在对判断时间tw中按照时间顺序具有最大可信度p的要素行动的数量进行计数,选择计数值最多的要素行动。
行动识别装置100的基本构成与上述第一实施方式的图1相同。在第五实施方式中,综合处理部104的行动判断部104a具有用判断时间tw的间隔比较各要素行动的可信度p,把可信度p最大的频率为最大的要素行动判断为对象作业行动的功能。下面详述第五实施方式的处理动作。
图18是用于说明在第五实施方式中行动识别装置100的综合处理部104执行的综合处理动作流程图。该流程图所示的集成处理在图13的步骤s27中执行。
首先,综合处理部104设定用于判断要素行动的判断时间tw(步骤s71)。该判断时间tw是f帧的时间以上,根据作业场所401的环境和作业内容等任意设定。
综合处理部104从行动识别部103中同时取得判断时间tw中的所有帧的要素行动和这些要素行动的可信度p,并保存在未图示的工作存储器中(步骤s72)。
在第五实施方式中,综合处理部104搜索所述工作存储器,对判断时间tw中具有最大可信度p的要素行动的数量进行计数(步骤s73)。该计数值表示在判断时间tw之间可信度p为最大的要素行动的频率。
综合处理部104选择计数值最大的要素行动即判断时间tw之间可信度p为最大的频率最多的要素行动(步骤s74)。综合处理部104把该受到选择的要素行动判断为对象作业行动(步骤s75),求出该对象作业行动的开始时间和持续时间(步骤s76)。
要素行动的开始时间以包含该要素行动的帧为基准来计算。要素行动的开始时间是最初检测出要素行动时,以判断时间tw为单位,计测要素行动的开始时间。另外,该要素行动的持续时间是判断时间tw中包含该要素行动的帧的持续时间。为要素行动连续检测到的判断时间tw的倍数时间。例如,在连续三次判断时间tw内作为要素行动被检测到时,持续时间为3×tw。这样,综合处理部104反复对判断时间tw的所有帧进行同样的处理,将可信度p最大的频率作为最大的要素行动判断为对象作业行动,以包含该要素行动的帧为基准求出该要素行动的开始时间和持续时间(步骤s77)。
由此,如果是图8的示例,在判断时间tw的间隔(t0~t3,t3~t6,t6~t11)要素行动受到判断,输出以下的识别结果。要素行动a例如是商品的入库行动,要素行动b例如是步行行动。
·t0~t3:要素行动b
·t3~t6:要素行动a
·t6~t11:要素行动a
如上所述,根据第五实施方式,设定用于判断要素行动的判断时间tw,把在该判断时间tw的间隔内可信度p最大的频度为最大的要素行动判断为对象作业行动。由此,在例如图像中容易出现噪音的工作环境下,可以防止由于噪音引起的判断误差,正确识别作业人员202的行动。另外也可以应对作业人员在一瞬间发生的不规则行动。尤其是第五实施方式由于根据可信度p为最大的频度来判断要素行动,所以与第三实施方式相比,能够防止由噪音或不规则行为引起的判断误差,得到更正确的识别结果。
《第六实施方式》
接下来说明第六实施方式。
在第六实施方式中,在该第五实施方式中把可信度p高于阈值thre加入条件,进行综合处理。行动识别装置100的基本构成与上述第一实施方式的图1相同。在第六实施方式中,综合处理部104的行动判断部104a具有比较判断时间tw的间隔中各要素行动的可信度p,把可信度p比阈值thre高且可信度p为最大的频率最多的要素行动判断为对象作业行动的功能。下面详述第六实施方式的处理动作。
图19是用于说明在第六实施方式中行动识别装置100的综合处理部104执行的综合处理动作的流程图。该流程图所示的综合处理在图13的步骤s27中执行。
与上述第五实施方式相同,首先,综合处理部104设定用于判断要素行动的判断时间tw(步骤s81)。该判断时间tw是f帧的时间以上,根据作业场所401的环境和作业内容等任意设定。
综合处理部104从行动识别部103中共同取得判断时间tw内的所有帧的要素行动和这些要素行动的可信度p,并保存在未图示的工作存储器中(步骤s82)。在此,在第六实施方式中,综合处理部104具有预先设定为要素行动的判断基准的阈值thre。该阈值thre根据作业场所401的环境和作业内容等任意设定。
综合处理部104搜索所述工作存储器,对判断时间tw中比阈值thre大且具有最大可信度p的要素行动的数目进行计数(步骤s83)。该计数值表示判断时间tw之间大于阈值thre且可信度p为最大的要素行动的频率。
综合处理部104选择计数值最大的要素行动即判断时间tw之间比阈值thre大且可信度p为最大的频率最多的要素行动(步骤s84)。综合处理部104把该被选择的要素行动判断为对象作业行动(步骤s85),求出该对象作业行动的开始时间和持续时间(步骤s86)。
这样,综合处理部104对判断时间tw的全部帧反复进行同样的处理,把比阈值thre大且可信度p为最大的频度最大的要素行动判断为对象作业行动,以包含该要素行动的帧为基准,求出该要素行动的开始时间和持续时间(步骤s87)。
由此,如果是图8的示例,判断时间tw的间隔(t0~t3,t3~t6,t6~t11)要素行动受到判断,输出以下的识别结果。要素行动a例如是商品的入库行动。要素行动b例如是步行行动。
·t0~t3:要素行动b
·t3~t6:要素行动a
·t6~t11:要素行动a
如上所述,根据第六实施方式,把要素行动的可信度p的阈值thre加入条件,能够在例如噪音较多的作业环境中,比所述第五实施方式更正确地识别作业人员的一连串行动。
《各种实施方式的组合》
上述各实施方式中说明的方法可以根据作业环境等进行适当切换使用。在这种情况下,也可以在行动识别装置100中嵌入对应全部实施方式的各个功能,根据情况进行选择。"根据情况"包括例如工厂等生产线的制造物发生变化等。
作为各功能的切换方法,例如监视者可以操作配备在行动识别装置100中的未图示模式开关,切换各功能。另外,也可以使用例如照明光影响、人群拥挤的影响等,用检测噪音容易进入影像的环境的传感器,根据该传感器的信号切换各个功能。
另外,上述各实施方式可以如下区别使用。
·在即使行动识别的可信度低,也需要输出识别结果的情况下,也就是说,如果希望以更小的时间单位(例如1/30秒)输出要素行动的开始时间、持续时间,则采用第一实施方式。
·在希望以详细的时间单位准确地输出识别结果的情况下,采用第二实施方式。
·在不需要以详细的时间单位输出识别结果,而希望以判断时间tw的时间单位重视可信度p的最大值来输出识别结果的情况下,采用第三实施方式。
·在不需要以详细的时间单位输出识别结果,而是希望以判断时间tw的时间单位重视可信度p的最大值,输出比第三实施方式更准确的识别结果的情况下,采用第四实施方式。
·在不需要以详细的时间单位输出识别结果,而是希望在判断时间tw内重视可信度p的最大值发生的频率来输出识别结果的情况下,采用第五实施方式。
·在不需要以详细的时间单位输出识别结果,而是希望在判断时间tw内重视可信度p的最大值发生的频率,输出比第五实施方式更准确的识别结果的情况下,采用第六实施方式。
《系统构成》
图20是一例采用上述行动识别装置100的行动识别系统的示意图。
行动识别装置100被安装到信息处理装置301之中。信息处理装置301既可以设置在作业场所201内,也可以设置在作业场所201以外。作业场所201中设置了可拍摄视频的照相机203,拍摄在作业场所201的作业人员202。照相机203拍摄的影像(视频)通过有线或无线发送到信息处理装置301,经由i/f(接口)302传送到行动识别装置100。
行动识别装置100通过上述第一实施方式至第六实施方式所说明的方法来识别作业人员202的作业行动。信息处理装置301将行动识别装置100的识别结果以规定的形式显示在未图示的显示装置上。而且,信息处理装置301还可以将行动识别装置100的识别结果通过互联网等通信网络303发送到外部监视装置304。
《照相机硬件结构》
图21是照相机203的硬件构成的一例示意图。
被摄物体光通过摄影光学系统1入射ccd(chargecoupleddevice)3。摄影光学系统1和ccd3之间配置机械快门2,通过该机械快门2可以遮挡射往ccd3的入射光。电动机驱动器6驱动摄影光学系统1及机械快门2。
ccd3将摄像面上成像的光学图像转换成电信号,作为模拟图像数据输出。从ccd3输出的图像信息通过cds(correlateddoublesampling:相关两重采样)电路4去除噪声成分,通过a/d转换器5变换成数字值后,向图像处理电路8输出。
图像处理电路8采用暂时存储图像数据的sdram(synchronousdynamicrandomaccessmemory)12,进行ycrcb变换处理、白平衡控制处理、对比度补偿处理、边缘强调处理、色彩转换处理等各种图像处理。白平衡处理调整图像信息的色浓度,对比度补偿处理调整图像信息的对比度。边缘强调处理调整图像信息的锐度,颜色变换处理调整图像信息的色调。另外,图像处理电路8将经过施加信号处理和图像处理的图像信息显示在lcd(liquidcrystaldisplay)16上。
经过信号处理及图像处理的图像信息经由压缩展开电路13被保存到存储卡14中。压缩展开电路13是按照从操作部15取得的指示,把从图像处理电路8输出的图像信息压缩后,输出到存储卡14,同时,把从存储卡14读出的图像信息展开后,输出到图像处理电路8的电路。
ccd3、cds电路4以及a/d转换器5经由产生时机信号的时机信号发生器7,由cpu9控制时机。图像处理电路8、压缩展开电路13、存储卡14也受到cpu9控制。
照相机203配备了按照程序进行各种运算处理的cpu9。另外,照相机203包括存储程序等的rom11以及在各种处理过程中使用的工作区域、存储各种数据的ram10等,这些都通过总线相互连接。
《行动识别装置的硬件构成》
图22是行动识别装置100的一例硬件结构示意图。
行动识别装置100具备cpu21、非易失性存储器22、主存储器23、通信设备24等。
cpu21是控制行动识别装置100内各种组件动作的硬件处理器。cpu21执行从作为寄存器的非易失性存储器22上传到主存储器23的各种程序。
在由cpu21执行的程序中,除了操作系统(os)之外,还包括用于执行图12~图19所示的流程图中所示的各种处理的程序(以下称为行动识别处理程序)等。cpu21还执行例如用于硬件控制的程序的基本输入输出系统(bios)等。
图1所示的图像取得部101、时空特征提取部102、行动识别部103、辞典制作部105、综合处理部104、识别结果输出部106的一部分或全部通过cpu21(计算机)执行行动识别处理程序来实现。
该行动识别处理程序既可以存储在计算机可读取的存储介质中,也可以通过网络下载到行动识别装置100中。
cpu21通过读取该行动识别程序,执行分别与上述各个实施方式对应的各种处理。例如,cpu21将从f帧的时空图像数据中提取的各特征点分类为k种类的要素行动,分别制作直方图t(k)。cpu21求出各特征点的直方图t(k)和登录在行动识别辞典105a中的各特征点的直方图h(k)之间的相似度s(ts,h),求出该相似度s(ts,h)作为各要素行动的可信度p。cpu21对各要素行动的可信度p进行综合处理,按照时间序列顺序对作业人员202的一连串行动进行区分判断,将各行动的开始时间和持续时间作为识别结果输出。
图1所示的图像取得部101、时空特征提取部102、行动识别部103、辞典制作部105、综合处理部104、识别结果输出部106的一部分或全部既可以通过ic(integratedcircuit)等硬件实现,也可以以该软件及硬件的组合结构来实现。通信设备24执行与外部设备的通信,例如有线或无线设备。
如上所述,根据至少一个实施方式,能够高精度地识别作业人员作业时的一连串行动。尤其是,通过采用规定时间单位比较从各帧图像的特征变化中提取的各要素行动的可信度来判断作业人员的作业行动的方法,即使是在多个要素行动在时间上重叠的情况下,也能够将最准确的要素行动作为识别结果输出。与此相比,采用例如各帧图像中追踪人物的重心轨迹的方法,在多个要素行动在时间上重叠的情况下,无法正确识别作业人员的作业行动。
以上虽然阐述了一些本发明的实施例,但这些实施方式作为示例给出,无意用来限定发明范围。这些新的实施方式可以以其他各种形式实施,在不脱离发明宗旨的范围内,进行各种省略、替换、更改。这些实施方式以及其变形包含在发明的范围和要点之中,同时也包含在专利请求范围内的发明和其均等的范围内。
100…行动识别装置,101…图像取得部,102…时空特征提取部,103…行动识别部,104…综合处理部,104a…行动判断部,104b…行动时间计算部,105…辞典制作部,105a…行动识别辞典,106…识别结果输出部,201…作业场所,202…作业人员,203…照相机,204…箱子,301…信息处理装置,302…i/f,303…通信网络,304…监视装置,21…cpu,22…非易失性存储器,23…主存储器,24…通信设备。
1.一种行动识别装置,用于从拍摄作业人员的影像中识别被预先定为监视对象的标准作业,其中具备,
图像取得部,用于取得所述影像包含的多帧图像;
行动识别部,用于从所述各帧图像的特征性变化中识别所述标准作业中包含的多个要素行动,同时,求出这些要素行动的可信度;以及,行动判断部,用于综合处理所述各要素行动的可信度,判断所述要素行动中所述作业人员的作业行动。
2.根据权利要求1所述的行动识别装置,其中,所述行动判断部按照时间顺序来判断所述要素行动中所述作业人员的作业行动。
3.根据权利要求1或2所述的行动识别装置,其中,进一步具备行动时间计算部,用于计算被判断为所述作业人员的作业行动的要素行动的开始时间和持续时间。
4.根据权利要求1或2所述的行动识别装置,其中,所述行动判断部以帧单位来比较各个所述要素行动的可信度,将可信度高的要素行动判断为所述作业人员的作业行动。
5.根据权利要求1或2所述的行动识别装置,其中,所述行动判断部以一定的时间间隔来比较各个所述要素行动的可信度,将可信度高的要素行动判断为所述作业人员的作业行动。
6.根据权利要求1或2所述的行动识别装置,其中,所述行动判断部以一定的时间间隔来比较各个所述要素行动的可信度,将可信度高的要素行动的频率多的要素行动判断为所述作业人员的作业行动。
7.根据权利要求4至6中任意一项所述的行动识别装置,其中,所述行动判断部将具有比预设为判断基准的阈值更高的可信度的要素行动作为条件,判断所述作业人员的作业行动。
8.一种行动识别方法,用于从拍摄作业人员的影像中识别被预先定为监视对象的标准作业,其中具有:
图像取得步骤,取得所述影像包含的多帧图像;
行动识别步骤,从所述各帧图像的特征性变化中识别所述标准作业中包含的多个要素行动,同时,求出这些要素行动的可信度;以及,行动判断步骤,综合处理所述各要素行动的可信度,判断所述要素行动中所述作业人员的作业行动。
技术总结