一种基于运动轮廓语义图预测行车危险场景的方法与流程

专利2022-06-29 55

本发明涉及汽车辅助驾驶领域，尤其是涉及一种基于运动轮廓语义图预测行车危险场景的方法。
背景技术：
：使用深度学习的数据融合模型是交通安全性预测的新趋势，因为视频数据和运动学数据都有各自的局限性，以合理的方式融合这两类数据从而提高在场景风险预测的精度是当前研究的热点。目前已有一些关于高风险驾驶场景辨识的研究，但仍存在一定问题。有研究采用车辆速度和方向突变并结合视频的帧差异来检测危险情况，其中自动编码器比较视频的帧差异的方式较适用于拐角危险情况，在一般情况准确率仅为71％，不够理想。另外有研究基于运动学数据使用了经典机器学习分类器，包括knn、随机森林、svm、决策树、高斯邻域和adaboost，但测试结果的精度具有波动性，受预测范围的影响很大。此外，还有研究提出基于驾驶前向视频创建motion图像，通过轨迹进行ttc计算或者其他信息的捕捉来预测风险，该方法需要采集大量的行车视频，用motion图像将庞大的视频数据高效压缩，才能有效提取运动特征来判断风险。技术实现要素：本发明的目的就是为了克服上述现有技术存在的准确率较低、测量精度波动较大的缺陷而提供一种基于运动轮廓语义图预测行车危险场景的方法。本发明的目的可以通过以下技术方案来实现：一种基于运动轮廓语义图预测行车危险场景的方法，包括以下步骤：步骤s1：获取车辆的驾驶视频，分割所述驾驶视频的感兴趣(roi)区域；步骤s2：将所述驾驶视频的感兴趣区域使用目标检测算法来检测交通对象并生成包含语义的运动轮廓语义图；步骤s3：统计车辆的运动数据，根据统计结果设置加速度阈值将所述运动轮廓语义图划分为高风险事件或正常事件；步骤s4：将所述高风险事件或正常事件输入到随机森林分类器，根据特征重要性对分类结果进行排序，获得重要运动学特征；步骤s5：根据所述运动轮廓语义图和重要运动学特征，构建多模态深度神经网络模型；步骤s6：对待检测驾驶视频执行步骤s1-s4，获得所述待检测驾驶视频的运动轮廓语义图和重要运动学特征并输入至所述多模态深度神经网络模型，预测行车是否具有风险，若有风险则向驾驶员报警。步骤s1中分割所述驾驶视频的感兴趣区域具体过程如下：步骤s101：通过高斯滤波器滤除所述驾驶视频中不相关的图像纹理，然后通过边缘检测算法提取所述驾驶视频中道路的轮廓，具体包括：步骤s1011：将彩色的驾驶视频的视频帧图转为灰度图，具体如下：f＝0.299*r 0.587*g 0.114*b其中，r、g、b分别代表rgb三通道每个通道的矩阵；步骤s1012：通过高斯滤波器对灰度图进行过滤，具体如下：其中，f(m，n)代表位置(m，n)处的原始图像灰度值，g(m，n)代表经过高斯滤波后的灰度值；步骤s1013：通过sobel算子计算经高斯滤波器过滤后的灰度图中相应像素的梯度强度和梯度方向，具体如下：其中，gx(m，n)为横向的梯度强度，gy(m，n)为纵向的梯度强度，sx为横向的sobel算子，sy为纵向的sobel算子，g(m，n)为梯度强度，θ(m，n)为梯度方向；步骤s1014：将当前像素的梯度强度与沿正负梯度方向上的两个像素进行比较，如果当前像素的梯度强度与另外两个像素相比最大，则该像素点保留为边缘点，否则该像素点将被抑制，即设置为0；步骤s1015：设定上阈值和下阈值vmin和vmax，其中大于vmax的像素都被检测为边缘，而低于vmin的都被检测为非边缘。对于中间的像素点，如果与确定为边缘的像素点邻接，则判定为边缘；否则为非边缘，从而获得对应的二值图(边缘点灰度值为1，非边缘点灰度值为0)。步骤s102：通过霍夫线变换来检测所述道路的轮廓中直线的变换，在霍夫空间中，执行累加器以计算映射到线的点数，如果在霍夫空间中有足够的映射点，则检测到直线；步骤s103：在霍夫线变换之后，可以在图像中检测到两条以上的线。由于只需要两条线来计算消失点的位置，所以将这些线分为左侧和右侧两组，计算每组的平均参数，从平均参数获得两条交叉线，计算两条交叉线的交叉点坐标为xd，yd即消失点；步骤s104：以消失点的纵坐标作yd作为roi区域的上边界yu，以检测到的两组线的起点中最大的纵坐标作为roi区域的下边界yl，roi区域的宽度即为驾驶视频的宽度。步骤s2中生成运动轮廓语义图具体过程如下：步骤s201：对所述驾驶视频的每一帧图像的感兴趣区域进行均值化处理，转化为一行像素，具体过程为：步骤s2011：获取驾驶视频的每帧画面中纵向[yl，yu]、横向[0，w]的矩形范围内的rgb像素值，即(yu-yl，w，3)三维整数矩阵，w为视频宽度；步骤s2012：对矩形范围内rgb中每个通道，取纵向像素的均值作为一个点的像素值，即取(yu-yl，w，3)三维整数矩阵的第一维的平均值，排列成1×w的一行像素，即(1，w，3)矩阵；步骤s202：将每帧获得的一行像素矩阵，按时间顺序进行拼接，形成(fps×(tb-ta)，w，3)矩阵，fps为视频每秒帧数，根据像素矩阵生成彩色的运动轮廓图；步骤s203：通过实时对象检测框架对所述运动轮廓图进行识别，判断识别出的交通环境中的交通对象是否位于感兴趣区域内，若是则按照所述交通对象在驾车视频对于的帧画面中的横向位置，将所述交通对象以有色像素线段的形式标在所述运动轮廓图中相应帧线的位置上，形成运动轮廓语义图，具体过程为：步骤s2031：对tf时刻视频帧画面，使用yolo实时对象检测框架识别出画面中的所有交通对象，并获得其位置、大小、类型、置信度四个信息；步骤s2032：筛选所有交通对象中置信度大于ct，且中心坐标位于roi区域内的交通对象，交通对象包括行人和车辆；步骤s2033：计算出驾驶视频的视频帧中每个交通对象对应的像素线段位置，具体如下：其中，[x1，x2]为交通对象对应的像素线段位置，xc，wo分别为yolo检测出对象的中心坐标及宽度，w为视频画面宽度；步骤s2034：在运动轮廓图中的tf对应的像素行(即第tf行)，将不同类类型对象的像素线段[x1，x2]设定为不同的颜色，若对象为车辆，[x1，x2]范围内的像素设定为红色；若该对象为行人，则设定为绿色；最终形成包含运动对象语义特征的运动轮廓语义图，图中对象的线段随着时间排列形成连续轨迹，轨迹的宽窄程度反映了交通对象距离本车的相对纵向位置。轨迹越宽，代表交通对象越近，对应的危险系数越高。步骤s3的具体过程如下：步骤s301：车辆运动学特征变量多数符合正态分布，通过正态分布的3σ原则来检测和过滤车辆运动数据的异常值，即将一条行车记录的每个非空运动学特征变量中进行判断，符合条件的为异常值，具体为：|x-μ|＞3σ其中，x为运动学参数，μ为x的平均值，σ为x的标准差；并通过线性插值法填补缺失值，具体为：其中，是缺失值，di-1为缺失值的上一个非空最邻近值，di 1是缺失值的下一个非空最邻近值，n是记录总数，ti-1，ti，ti 1分别为di-1，di 1对应的时刻；步骤s302：提取自然驾驶数据中的车辆加速度数据a，绘制并观察分布曲线，确定明显减速行为的加速度阈值，记为thd；步骤s303：扫描行车时序数据，根据加速度条件a≤thd采集紧急刹车时刻td，对每一时刻td，取前d1到d2秒的时间片段，组成潜在高风险事件片段ec，结合视频校核，排除因数据采集错误带来的误报，将nconflict_candidate个高风险事件片段组成高风险事件预备集合为了避免事件重叠，确保相邻的紧急刹车时刻满足td[i 1]-td[i]≥|d1-d2|。步骤s304：从剩下的行车时序数据中以|d1-d2|为时间窗口，随机采样出nnormal_candidate个正常非冲突事件作为正常事件预备集步骤s4的具体过程如下：步骤s401：将一个包含ml条记录，每条记录有多个运动学特征的事件，提取出n个运动学特征{m1，…，mn}作为该样本的重要特征，以事件分类作为该样本的分类标签值，生成样本集合；步骤s402：通过抽样放回的方法从样本集合中选取ns个样本作为训练集，重复q次生成q个训练集{s1，…，sq}；步骤s403：以每个训练集作为一棵决策树的输入，构建包含q棵cart决策树的随机森林{t1，…，tq}，其中对于ti上的每一个节点随机不重复的选择mnode个特征，利用这mnode个特征对si进行划分，并使用使基尼指数最小化作为标准获得最佳划分，从而训练出q棵cart决策树；步骤s404：根据特征重要性对分类结果进行排序，获得重要运动学特征，具体为：步骤s4041：计算出{m1，…，mn}中每个运动学特征mj在所有决策树中节点分裂不纯度的平均改变量ij(即重要性)，节点o的不纯度使用基尼指数来衡量，具体如下：其中，gio为节点o的不纯度，k表示类别(高风险、正常)，pok表示节点o中类别k所占的比例，pok′表示非类别k所占的比例；步骤s4042：计算mj在第i棵树的重要性iji，公式如下：其中，o为第i棵树的包含运动学特征mj的节点集合，gijio为第i棵树的节点o的基尼指数，gjiol，gjior为节点o分支后的左右两个新节点的基尼指数；步骤s4043：计算mj在所有树中的重要性ij，公式如下：其中，q为cart决策树的数量；步骤s4044：获得所有运动学特征的重要性集合{i1，…，ix}后，将重要性做归一化处理，具体如下：将完成归一化处理的特征的重要性集合从大到小排序，获得重要性排名前nimmportant的特征步骤s405：将正常事件预备集和高风险事件预备集合的每个事件使用该事件中的上述nimportant个运动学特征来代表，即每个事件的为其中id为事件编号，label为事件类型，形成正常事件集和高风险事件集多模态深度神经网络模型具体包括：输入层，将运动轮廓语义图转化为矩阵m1；conv1层，设定卷积层参数，包括过滤器个数、大小及步长和激活函数，输入m1得到矩阵m2；pooll层，设定池化层参数，包括过滤器大小及类型和步长等，输入m2进行最大池化得到矩阵m3；conv2层，设定卷积层参数，输入m3经过relu激活函数得到矩阵m4；pool2层，设定池化层参数，输入m4进行最大池化得到矩阵m5；conv3层，设定卷积层参数，输入m5经过relu激活函数得到矩阵m6；conv4层，设定卷积层参数，输入m6经过relu激活函数得到矩阵m7；conv5层，设定卷积层参数，输入m7经过relu激活函数得到矩阵m8；pool5层，设定池化层参数，输入m8进行最大池化得到矩阵m9；fc6平滑层，将输入的矩阵m9平滑为一维矩阵m10；drop6层，输入矩阵m10，以一定比例的dropout概率丢弃部分神经节点，防止过拟合，并得到矩阵m11；fc7全连接层，输入矩阵m11，输出r×1的一维矩阵m12；将m12与fkinematic合并，即[fkinematicm12]作为fc8全连接层的输入，输出为2×1的矩阵，该矩阵中的两个值对应着属于有风险类别和属于无风险类别的概率的预测值，接着使用softmax处理预测值使两类的概率和为1。步骤s5的具体过程如下：步骤s501：将步骤s4划分出正常事件集和高风险事件集分别以2∶1划分为训练集θtrain测试集θtest；步骤s502：训练多模态深度神经网络模型，经过nepoch个epoch，模型的损失值收敛到较小值，停止训练，保存最终的多模态深度神经网络模型mdcnn；步骤s503：对测试集合θtest(包含ec个正常事件和en个高风险事件)中的每个事件调用训练好的mdcnn模型，获得其预测的分类值，统计得到模型预测出的正常事件和冲突事件根据测试集的预测结果，生成如表1所述的混淆矩阵：表1混淆矩阵根据混淆矩阵计算得到模型的灵敏度isensitivity，特异度ispecificity，公式如下：isensitivity＝tp/(tp fn)ispecificity＝tn/(fp tn)并根据isensitivity和ispecificity生成roc曲线，用于评估模型预测效果。与现有技术相比，本发明具有以下有益效果：1.本发明融合视频数据与运动学数据进行风险预测，模型准确度达到91.6％，远优于其他单源数据模型。2.本发明使用实时对象检测框架对驾驶视频的帧画面进行运动物体检测，在视频生成的运动轮廓图中添加交通对象轨迹的语义信息，以有色线段的形式重点突出机动车、非机动车、行人等潜在冲突对象的轨迹，大量减少交通环境中静态要素的轨迹对预测结果的干扰。3.本发明使用了随机森林来筛选重要的运动学特征变量，提高了多模态深度神经网络模型的精准度。附图说明图1为本发明的流程示意图；图2为本发明由边缘检测提取出的道路轮廓的示意图；图3为本发明基于前向驾驶视频的感兴趣区域的示意图；图4为本发明前向驾驶视频的感兴趣区域转换为运动轮廓图的示意图；图5(a)为本发明基于yolo目标识别后的正常事件的运动轮廓语义图；图5(b)为本发明基于yolo目标识别后且过滤噪声的运动轮廓语义图。具体实施方式下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。如图1所示，一种基于运动轮廓语义图预测行车危险场景的方法，包括以下步骤：步骤s1：获取车辆的驾驶视频，分割驾驶视频的感兴趣(roi)区域；步骤s2：将驾驶视频的感兴趣区域使用目标检测算法来检测交通对象并生成包含语义的运动轮廓语义图；步骤s3：统计车辆的运动数据，根据统计结果设置加速度阈值将运动轮廓语义图划分为高风险事件或正常事件；步骤s4：将高风险事件或正常事件输入到随机森林分类器，根据特征重要性对分类结果进行排序，获得重要运动学特征；步骤s5：根据运动轮廓语义图和重要运动学特征，构建多模态深度神经网络模型；步骤s6：对待检测驾驶视频执行步骤s1-s4，获得待检测驾驶视频的运动轮廓语义图和重要运动学特征并输入至多模态深度神经网络模型，预测行车是否具有风险，若有风险则向驾驶员报警。步骤s1中分割驾驶视频的感兴趣区域具体过程如下：步骤s101：如图2所示，通过高斯滤波器滤除驾驶视频中不相关的图像纹理，然后通过边缘检测算法提取驾驶视频中道路的轮廓，具体包括：步骤s1011：将彩色的驾驶视频的视频帧图转为灰度图，具体如下：f＝0.299*r 0.587*g 0.114*b其中，r、g、b分别代表rgb三通道每个通道的矩阵；步骤s1012：通过高斯滤波器对灰度图进行过滤，具体如下：其中，f(m，n)代表位置(m，n)处的原始图像灰度值，g(m，n)代表经过高斯滤波后的灰度值；步骤s1013：通过sobel算子计算经高斯滤波器过滤后的灰度图中相应像素的梯度强度和梯度方向，具体如下：其中，gx(m，n)为横向的梯度强度，gy(m，n)为纵向的梯度强度，sx为横向的sobel算子，sy为纵向的sobel算子，g(m，n)为梯度强度，θ(m，n)为梯度方向；步骤s1014：将当前像素的梯度强度与沿正负梯度方向上的两个像素进行比较，如果当前像素的梯度强度与另外两个像素相比最大，则该像素点保留为边缘点，否则该像素点将被抑制，即设置为0；步骤s1015：设定上阈值和下阈值vmin和vmax，其中大于vmax的像素都被检测为边缘，而低于vmin的都被检测为非边缘。对于中间的像素点，如果与确定为边缘的像素点邻接，则判定为边缘；否则为非边缘，从而获得对应的二值图(边缘点灰度值为1，非边缘点灰度值为0)。步骤s102：通过霍夫线变换来检测道路的轮廓中直线的变换，在霍夫空间中，执行累加器以计算映射到线的点数，如果在霍夫空间中有足够的映射点，则检测到直线；步骤s103：在霍夫线变换之后，可以在图像中检测到两条以上的线。由于只需要两条线来计算消失点的位置，所以将这些线分为左侧和右侧两组，计算每组的平均参数，从平均参数获得两条交叉线，计算两条交叉线的交叉点坐标为xd，yd即消失点；步骤s104：以消失点的纵坐标作yd作为roi区域的上边界yu，以检测到的两组线的起点中最大的纵坐标作为roi区域的下边界yl，roi区域的宽度即为驾驶视频的宽度。步骤s2中生成运动轮廓语义图具体过程如下：步骤s201：对驾驶视频的每一帧图像的感兴趣区域进行均值化处理，转化为一行像素，具体过程为：步骤s2011：获取驾驶视频的每帧画面中纵向[yl，yu]、横向[0，w]的矩形范围内的rgb像素值，即(yu-yl，w，3)三维整数矩阵，w为视频宽度；步骤s2012：对矩形范围内rgb中每个通道，取纵向像素的均值作为一个点的像素值，即取(yu-yl，w，3)三维整数矩阵的第一维的平均值，排列成1×w的一行像素，即(1，w，3)矩阵；步骤s202：将每帧获得的一行像素矩阵，按时间顺序进行拼接，形成(fps×(tb-ta)，w，3)矩阵，fps为视频每秒帧数，根据像素矩阵生成彩色的运动轮廓图；步骤s203：，如图3所示，通过实时对象检测框架对运动轮廓图进行识别，判断识别出的交通环境中的交通对象是否位于感兴趣区域内，若是则按照交通对象在驾车视频对于的帧画面中的横向位置，将交通对象以有色像素线段的形式标在运动轮廓图中相应帧线的位置上，形成运动轮廓语义图，具体过程为：步骤s2031：对tf时刻视频帧画面，使用yolo实时对象检测框架识别出画面中的所有交通对象，并获得其位置、大小、类型、置信度四个信息；步骤s2032：筛选所有交通对象中置信度大于0.5，且中心坐标位于roi区域内的交通对象，交通对象包括行人和车辆；步骤s2033：计算出驾驶视频的视频帧中每个交通对象对应的像素线段位置，具体如下：其中，[x1，x2]为交通对象对应的像素线段位置，xc，wo分别为yolo检测出对象的中心坐标及宽度，w为视频画面宽度；步骤s2034：如图4所示，在运动轮廓图中的tf对应的像素行(即第tf行)，将不同类类型对象的像素线段[x1，x2]设定为不同的颜色，若对象为车辆，[x1，x2]范围内的像素设定为红色；若该对象为行人，则设定为绿色；如图5(a)和图5(b)所示，最终形成包含运动对象语义特征的运动轮廓语义图，图中对象的线段随着时间排列形成连续轨迹，轨迹的宽窄程度反映了交通对象距离本车的相对纵向位置。轨迹越宽，代表交通对象越近，对应的危险系数越高。步骤s3的具体过程如下：步骤s301：车辆运动学特征变量多数符合正态分布，通过正态分布的3σ原则来检测和过滤车辆运动数据的异常值，即将一条行车记录的每个非空运动学特征变量中进行判断，符合条件的为异常值，具体为：|x-μ|＞3σ其中，x为运动学参数，μ为x的平均值，σ为x的标准差；并通过线性插值法填补缺失值，具体为：其中，是缺失值，di-1为缺失值的上一个非空最邻近值，di 1是缺失值的下一个非空最邻近值，n是记录总数，ti-1，ti，ti 1分别为di-1，di 1对应的时刻；步骤s302：提取自然驾驶数据中的车辆加速度数据a，绘制并观察分布曲线，确定明显减速行为的加速度阈值-0.3；步骤s303：扫描行车时序数据，根据加速度条件a≤-0.3采集紧急刹车时刻td，对每一时刻td，取前8到1秒的时间片段，组成潜在高风险事件片段ec，结合视频校核，排除因数据采集错误带来的误报，将179个事件片段组成高风险事件预备集合为了避免事件重叠，确保相邻的紧急刹车时刻满足条件：td[i 1]-td[i]≥7。步骤s304：从剩下的行车时序数据中以7秒为时间窗口，随机采样出1055个正常非冲突事件作为正常事件预备集步骤s4的具体过程如下：步骤s401：将一个包含ml条记录，每条记录有10个运动学特征的事件，提取表2中的26个特征运动学特征作为该样本的重要特征，表2具体如下所示：表2事件样本字段说明表以事件分类作为该样本的分类标签值，生成样本集合；步骤s402：通过抽样放回的方法选取616个样本作为训练集(其中高风险事件的样本89个，正常事件的样本527)，重复1000次生成1000个训练集{s1，…，s1000}；步骤s403：以每个训练集作为一棵决策树的输入，构建包含1000棵cart决策树的随机森林{t1，…，t1000}，其中对于ti上的每一个节点随机不重复的选择mnode＝2个特征，利用这2个特征对si进行划分，并使用使基尼指数最小化作为划分标准获得最佳的划分，从而训练出1000棵cart决策树；步骤s404：根据特征重要性对分类结果进行排序，获得重要运动学特征，具体为：步骤s4041：计算出26个运动学特征中每个运动学特征mj在所有决策树中节点分裂不纯度的平均改变量ij(即重要性)，节点o的不纯度使用基尼指数来衡量，具体如下：其中，gio为节点o的不纯度，k表示类别(高风险、正常)，pok表示节点o中类别k所占的比例，pok′表示非类别k所占的比例；步骤s4042：计算mj在第i棵树的重要性iji，公式如下：其中，o为第i棵树的包含运动学特征mj的节点集合，gijio为第i棵树的节点o的基尼指数，gjiol，gjior为节点o分支后的左右两个新节点的基尼指数；步骤s4043：计算mj在所有树中的重要性ij，公式如下：其中，q为cart决策树的数量；步骤s4044：获得所有运动学特征的重要性集合{i1，…，ix}后，将重要性做归一化处理，具体如下：将完成归一化处理的特征的重要性集合从大到小排序，获得重要性排名前5的特征如表3所示：表3特征重要性排序表特征变量名描述accel_mean风险时刻前8秒至前2秒内加速度平均值accel_max风险时刻前8秒至前2秒内加速度最大值accel_min风险时刻前8秒至前2秒内加速度最小值accel_5s风险时刻前5秒时刻的加速度accel_6s风险时刻前6秒时刻的加速度；步骤s405：将正常事件预备集和高风险事件预备集合的每个事件使用该事件中的上述5个特征来代表，即每个事件的为{id，accel_mean，accel_max，accel_min，accel_5s，accel_6s，label}其中id为事件的编号，label为事件的类型，形成正常事件集和高风险事件集多模态深度神经网络模型具体包括：输入层，将运动轮廓语义图转化为矩阵m1；conv1层，设定卷积层参数，包括过滤器个数、大小及步长和激活函数，输入m1得到矩阵m2；pool1层，设定池化层参数，包括过滤器大小及类型和步长等，输入m2进行最大池化得到矩阵m3；conv2层，设定卷积层参数，输入m3经过relu激活函数得到矩阵m4；pool2层，设定池化层参数，输入m4进行最大池化得到矩阵m5；conv3层，设定卷积层参数，输入m5经过relu激活函数得到矩阵m6；conv4层，设定卷积层参数，输入m6经过relu激活函数得到矩阵m7；conv5层，设定卷积层参数，输入m7经过relu激活函数得到矩阵m8；pool5层，设定池化层参数，输入m8进行最大池化得到矩阵m9；fc6平滑层，将输入的矩阵m9平滑为一维矩阵m10；drop6层，输入矩阵m10，以一定比例的dropout概率丢弃部分神经节点，防止过拟合，并得到矩阵m11；fc7全连接层，输入矩阵m11，输出r×1的一维矩阵m12；将m12与fkinematic合并，即[fkinematicm12]作为fc8全连接层的输入，输出为2×1的矩阵，该矩阵中的两个值对应着属于有风险类别和属于无风险类别的概率的预测值，接着使用softmax处理预测值使两类的概率和为1，多模态深度神经网络模型中的矩阵变换具体如表1所示：表1多模态网络结构表层输入输出conv1224×224×354×54×96pool154×54×9628×28×96conv228×28×9628×28×256pool228×28×25613×13×256conv313×13×25613×13×384conv413×13×38413×13×384conv513×13×38413×13×256pool513×13×2566×6×256fc66×6×2564096×1drop64096×12048×1fc72048×15×1fc810×1(5×1 5×1)2×1步骤s5的具体过程如下：步骤s501：将步骤s4划分出正常事件集和高风险事件集分别以2∶1划分为训练集θtrain测试集θtest；步骤s502：训练多模态深度神经网络模型，经过nepoch个epoch，模型的损失值收敛到较小值，停止训练，保存最终的多模态深度神经网络模型mdcnn；步骤s503：对测试集合θtest(包含ec个正常事件和en个高风险事件)中的每个事件调用训练好的mdcnn模型，获得其预测的分类值，统计得到模型预测出的正常事件和冲突事件根据测试集的预测结果，生成如表2的混淆矩阵：表2混淆矩阵根据混淆矩阵计算得到模型的灵敏度isensitivity，特异度ispecificity，公式如下：isensitivity＝tp/(tp fn)ispecificity＝tn/(fp tn)并根据isensitivity和ispeciicity生成roc曲线，用于评估模型预测效果。多模态深度神经网络模型对应的roc曲线的auc为0.9，决策树模型的auc为0.56，随机森林模型的auc为0.75，贝叶斯网络模型的auc为0.69，逻辑回归模型的auc为0.69。对比之下，多模态深度神经网络模型在精度和真实性方面均优于其他模型。此外，需要说明的是，本说明书中所描述的具体实施例，所取名称可以不同，本说明书中所描述的以上内容仅仅是对本发明结构所做的举例说明。凡依据本发明构思的构造、特征及原理所做的等小变化或者简单变化，均包括于本发明的保护范围内。本发明所属
技术领域：
的技术人员可以对所描述的具体实例做各种各样的修改或补充或采用类似的方法，只要不偏离本发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。当前第1页1 2 3
技术特征：

1.一种基于运动轮廓语义图预测行车危险场景的方法，其特征在于，包括以下步骤：

步骤s1：获取车辆的驾驶视频，分割所述驾驶视频的感兴趣区域；

步骤s2：将所述驾驶视频的感兴趣区域使用目标检测算法来检测交通对象并生成包含语义的运动轮廓语义图；

步骤s3：统计车辆的运动数据，根据统计结果设置加速度阈值将所述运动轮廓语义图划分为高风险事件或正常事件；

步骤s4：将所述高风险事件或正常事件输入到随机森林分类器，根据特征重要性对分类结果进行排序，获得重要运动学特征；

步骤s5：根据所述运动轮廓语义图和重要运动学特征，构建多模态深度神经网络模型；

步骤s6：对待检测驾驶视频执行步骤s1-s4，获得所述待检测驾驶视频的运动轮廓语义图和重要运动学特征并输入至所述多模态深度神经网络模型，预测行车是否具有风险，若有风险则向驾驶员报警。

2.根据权利要求1所述的一种基于运动轮廓语义图预测行车危险场景的方法，其特征在于，所述感兴趣区域包括上边界和下边界。

3.根据权利要求2所述的一种基于运动轮廓语义图预测行车危险场景的方法，其特征在于，所述步骤s1中分割所述驾驶视频的感兴趣区域具体过程如下：

步骤s101：通过高斯滤波器滤除所述驾驶视频中不相关的图像纹理，然后通过边缘检测算法提取所述驾驶视频中道路的轮廓；

步骤s102：通过霍夫线变换来检测所述道路的轮廓中直线的变换；

步骤s103：对检测到的多组直线计算交叉线，根据所述交叉线得到交叉点以确定所述感兴趣区域的上边界，根据所述多组直线的起点确定所述感兴趣区域的下边界。

4.根据权利要求1所述的一种基于运动轮廓语义图预测行车危险场景的方法，其特征在于，所述步骤s2中生成运动轮廓语义图具体过程如下：

步骤s201：对所述驾驶视频的每一帧图像的感兴趣区域进行均值化处理，转化为一行像素；

步骤s202：将所有的所述一行像素按时间顺序拼接在一起形成运动轮廓图；

步骤s203：通过实时对象检测框架对所述运动轮廓图进行识别，判断识别出的交通环境中的交通对象是否位于感兴趣区域内，若是则按照所述交通对象在驾车视频对于的帧画面中的横向位置，将所述交通对象以有色像素线段的形式标在所述运动轮廓图中相应帧线的位置上，形成运动轮廓语义图。

5.根据权利要求4所述的一种基于运动轮廓语义图预测行车危险场景的方法，其特征在于，所述交通对象包括行人和车辆。

6.根据权利要求1所述的一种基于运动轮廓语义图预测行车危险场景的方法，其特征在于，所述步骤s3的具体过程如下：

步骤s301：通过正态分布的3σ原则来检测和过滤车辆运动数据的异常值，并通过线性插值法填补缺失值；

步骤s302：根据完成过滤和填补的车辆运动数据，获取相应的加速度分布，判断车辆规避行为，根据判断结果设置危险驾驶事件的加速度阈值；

步骤s303：根据所述加速度阈值提取潜在危险驾驶事件；

步骤s304：结合所述驾驶视频的校核结果，在所述潜在危险驾驶事件上标定出正常事件集和冲突事件集。

7.根据权利要求1所述的一种基于运动轮廓语义图预测行车危险场景的方法，其特征在于，所述特征重要性通过所述高风险事件或正常事件相应特征的基尼指数决定。

8.根据权利要求1所述的一种基于运动轮廓语义图预测行车危险场景的方法，其特征在于，所述多模态深度神经网络模型包括视觉数据处理层、运动学数据处理层、数据融合层和预测层。

技术总结
本发明涉及一种基于运动轮廓语义图预测行车危险场景的方法，包括以下步骤：步骤S1：获取驾驶视频，分割感兴趣区域；步骤S2：将感兴趣区域使用目标检测算法来检测交通对象并生成运动轮廓语义图；步骤S3：统计运动数据，加速度阈值，将运动轮廓语义图划分为高风险事件或正常事件；步骤S4：输入到随机森林分类器，根据特征重要性进行排序获得重要运动学特征；步骤S5：构建多模态深度神经网络模型；步骤S6：获得待检测驾驶视频的运动轮廓语义图和重要运动学特征并输入至多模态深度神经网络模型，预测行车是否具有风险，若有风险则向驾驶员报警。与现有技术相比，本发明具有提高行车危险场景的预测准确度、减少测量波动等优点。

技术研发人员：高珍;欧明锋;余荣杰;许靖宁;冯巾松
受保护的技术使用者：同济大学
技术研发日：2020.01.10
技术公布日：2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-53938.html

专利

最新回复(0)