一种节带化视频传输方法与流程

专利2022-06-29  48


本发明属于特征提取、图像生成技术领域,尤其涉及一种节带化视频传输方法。



背景技术:

在人-机-物三元互联的it3.0时代,将产生百亿级的智能终端和千亿级的物端设备。它们会融入到教育、交通、工业、农业、生产、娱乐等各个众多应用领域。随着人们对于通信需求的不断提升,视频通信已经逐步替代语音成为通信内容的基本载体。海量的设备将基于视频进行通信。

监控、汽车等传统行业视频业务逐步网络化,网络直播、短视频、ar/vr等新型视频业务形态的不停涌现都造成了视频流量的激增。据数据显示,2018年,基于ip的直播视频数据流在前一年基础上翻了两番。短视频业务更是在过去的两年间成为网民最大众化的视频应用。据cnnic调查数据显示,截至2018年12月,网络视频和网络游戏的用户规模分别为6.12亿和4.84亿,使用率分别为73.9%和58.4%。短视频用户规模达6.48亿,用户使用率为78.2%。中国移动互联网整体用户规模增幅继续收窄,2018年上半年仅增长2000万,但移动视频行业渗透率超95%。hd720/1080视频流占据了2018年产生全部流量的80%。随着人们对视频通信质量要求的不断提升以及2k/4k等超清视频技术的逐步普及,视频业务数据量将继续呈指数增长。到2021年,全球ip视频流量将占据全网流量的82%,其中移动ip视频流量的年复合增长率为55%。

目前,缓解传输与存储压力的主要方法是视频压缩编解码技术。视频编码技术通过量化、离散余弦变换、运动估计等方法减少了视频中的冗余,从而实现数据量的压缩。

目前,由iso(internationalorganizationforstandardization)/iec(internationalelectrotechnicalcommission)的动态图像专家组提出的mpeg(movingpicturesexpertsgroup)系列标准、itu-t(internationaltelecommunicationuniontelecommunicationstandardizationsector)提出的h.26x系列标准、我国自主研发的avs(audiovideocodingstandard)系列标准是最主要的视频编解码方案。然而,第一代编码技术(如mpeg-2/h.263)可将原始高清视频压缩75倍左右;目前产业界广泛采用的第二代编码技术(如mpeg-4/h.264)比第一代提升了约1倍的压缩效率;以h.265/hevc(highefficiencyvideocoding)为代表的第三代编码技术比上一代提高了接近1倍的压缩效率。

根据以上分析可知,视频压缩编解码技术正在逐渐逼近性能极限,每增加1倍压缩效率,往往要造成5倍以上的计算开销,视频编解码技术压缩效率的提升速度远远赶不上视频数据的增长速度。因此,在高速增长的视频大数据面前,传输、存储、分析处理都面临着严峻的挑战。

视频将信息采用更丰富的形式表现出来的同时,也带来了极大的数据冗余。人类95%以上的注意力会锁定关键信息而忽略细节变化。同时,在不同应用需求下,核心关键信息不同,无法对最具价值的信息进行预提取会造成传输、存储资源的巨大浪费并且降低检索效率。例如在车辆监控场景下车牌、车身特征、行车轨迹是关键信息。在室内监控场景的安防需求下,运动目标人的数量、面容、性别、衣着、坐标、轨迹、行为等是最终异常事件分析的关键信息来源,且通常情况下异常事件的发生概率极低。在移动视频通话场景下,人脸通常是最主要的信息来源,且有限连续帧间差异可以抽象为面部表情的变化。人脸结构固定,可以通过关键点表示结构的方式模拟完成面部动作的变化。

因此,采用现有的无线通信方式传输和存储大量不具有有效信息的视频数据,会造成带宽、存储资源的极大浪费。非结构化的存存储方式也让智能检索的实现更加困难。



技术实现要素:

为解决上述问题,本发明提供一种节带化视频传输方法,能够大幅度降低带宽及存储资源,提高传输、存储及检索效率。

一种节带化视频传输方法,包括以下步骤:

s1:发送端识别并提取原始目标图像中的前景目标,然后将目标图像的背景图像发送到接收端;

s2:发送端将所述前景目标的特征点坐标信息进行特征语义化,得到文本语义信息,然后将所述文本语义信息发送到接收端;

s3:接收端根据前景目标的文本语义信息得到前景目标轮廓图;

s4:接收端将前景目标轮廓图输入训练好的生成模型,得到生成目标图像;

s5:接收端融合所述生成目标图像和背景图像,得到与原始目标图像语义一致的重构图像。

进一步地,所述生成模型的基础网络结构为cgan,前景目标轮廓图作为生成模型的输入,前景目标轮廓图对应的原始目标图像作为生成模型的输出。

进一步地,所述原始目标图像通过摄像设备采集得到,其中,摄像设备的采集模式为固定采集模式;

在固定采集模式下,判断前n帧原始目标图像中的前景目标是否同属一个身份,若为同一身份,则从n帧原始目标图像中任选一幅,再将其中的背景图像发送到接收端,其中,n至少为5。

进一步地,所述原始目标图像通过摄像设备采集得到,其中,摄像设备的采集模式为固定范围周期变化采集模式;

在固定范围周期变化采集模式下,发送端判断提取的背景图像的角度是否发生变化,若发生变化,则发送端将角度变化信息发送到接收端,接收端根据所述角度变化信息更新背景图像。

进一步地,所述原始目标图像通过摄像设备采集得到,其中,摄像设备的采集模式为有限范围无规则变化采集模式;

在有限范围无规则变化采集模式下,发送端判断提取的背景图像是否发生变化,若发生变化,则发送端将变化后的背景图像发送到接收端,接收端更新背景图像。

有益效果:

本发明提供一种节带化视频传输方法,在发送端将视频数据解构为文本语义信息,实现关键信息文本化传输,在接收端基于图像生成技术将文本语义信息重构为与原始目标图像语义一致的重构图像;由此可见,本发明将不同形式计算能力赋予通信网络结构中的各个部分,具体采用将视频数据特征语义化计算能力赋予发送端,将语义生成图像计算能力赋予接收端的方式,将原本的本地集中式计算的通信模式转换为协作分集计算的通信模式,由此大幅度降低带宽及存储资源,提高传输、存储及检索效率。

附图说明

图1为本发明提供的一种节带化视频传输方法的流程图;

图2为本发明提供的固定采集模式节带化视频传输方法的流程图;

图3为本发明提供的固定范围周期变化模式节带化视频传输方法的流程图;

图4为本发明提供的有限范围无规则变化模式节带化视频传输方法的流程图;

图5为本发明提供的室内监控场景节带化视频传输方法的流程图;

图6为本发明提供的室内监控场景下进行节带化传输效果图;

图7为本发明提供的移动视频通话场景下节带化视频传输方法的流程图;

图8为本发明提供的移动视频通话场景下进行节带化传输效果图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。

实施例一

如图1所示,一种节带化视频传输方法,包括以下步骤:

s1:发送端识别并提取原始目标图像中的前景目标,然后将目标图像的背景图像发送到接收端。

所述原始目标图像通过摄像设备采集得到,由于节带化视频传输方法应用前提是拍摄画面在某一时间段内拍摄背景固定,则摄像设备的采集模式可以为固定采集模式、固定范围周期变化采集模式或有限范围无规则变化采集模式;固定采集模式,即摄像设备固定安装且拍摄角度始终不变。固定范围周期变化采集模式下拍摄的画面背景在一定范围内变化进行周期性变化。如固定安装的球形摄像头拍摄画面。在有限范围内不规则变化采集模式下,拍摄画面背景在有限范围内不断变化。如室内机器人摄像头,移动视频通话等。

如图2所示,在固定采集模式下,判断前n帧原始目标图像中的前景目标是否同属一个身份,若为同一身份,则从n帧原始目标图像中任选一幅,再将其中的背景图像发送到接收端,其中,n至少为5。

也就是说,在固定采集模式下,首先进行初始化,即判断前n帧画面中前景目标是否同属一个身份,若为同一身份则将这n帧中的同一背景图像打包发送至接收端。在接收端对预训练的生成模型进行调整,使其具备生成当下目标图像的能力。在此阶段采用编解码方式进行传输。

初始化结束后,进入节带化传输阶段。首先对前景目标进提取并识别。确认目标未发生改变情况下对目标图像进行特征提取,并进行特征语义化,将得到的文本语义信息发送至接收端。以上即完成了发送端的采集、处理、发送流程。在接收端,将接收到的文本语义信息特征化,采用图像生成技术将语义生成为图像。将生成的前景图像与预先提取的背景图像进行融合,即得到最终与原始图像语义一致的重构图像。固定采集模式下节带化传输阶段具体流程如图3所示。

如图3所示,在固定范围周期变化采集模式下,发送端判断提取的背景图像的角度是否发生变化,若发生变化,则发送端将角度变化信息发送到接收端,接收端根据所述角度变化信息更新背景图像。

也就是说,固定范围周期变化采集模式下进行节带化传输,需在固定采集传输模式基础上,在预训练阶段对背景进行建模。并在发送端对提取的背景图像进行分析,若背景发生变化,即将角度等变化信息发送至接收端,并在接收端根据变化信息进行背景搜索,完成背景更新。

如图4所示,在有限范围无规则变化采集模式下,发送端判断提取的背景图像是否发生变化,若发生变化,则发送端将变化后的背景图像发送到接收端,接收端更新背景图像。

也就是说,在有限范围内不规则变化采集模式下,由于无法预先对背景进行建模,所以在背景切换后,需要将变化后的背景图像发送至接收端,在接收端对背景进行初始化建模,完成背景更新,背景建模阶段采用编解码进行视频传输。

s2:发送端将所述前景目标的特征点坐标信息进行特征语义化,得到文本语义信息,然后将所述文本语义信息发送到接收端。

需要说明的是,特征提取方法根据不同场景的具体任务可采用不同方法。例如,在人作为前景的应用场景中,采用姿态识别算法识别人体姿态作为基本特征。姿态识别算法可以大致分为“自顶向下”和“自底向上”两类方法。“自顶向下”的方法是对图像中的目标人进行检测后,再对人体中各个部件进行估计。相关算法有:rmpe(lphapose)。而“自顶向下”的方法直接检测图像中的所有部件,然后将同个目标的部件进行分组。相关算法有:openpose、deepcut等。在人脸为视频图像关键信息的应用任务中,可采用人脸关键点检测算法作为特征提取方法。人脸关键点检测也称为人脸关键点检测、定位或者人脸对齐,是指给定人脸图像,定位出人脸面部的关键区域位置,包括眉毛、眼睛、鼻子、嘴巴、脸部轮廓等。人脸关键点检测方法大致分为三种:基于模型的asm(activeshapemodel)和aam(activeappearncemodel)的人脸关键点检测算法、基于级联形状回归cpr(cascadedposeregression)的人脸关键点检测算法、基于深度学习的人脸关键点检测算法。

s3:接收端根据前景目标的文本语义信息得到前景目标轮廓图。

s4:接收端将前景目标轮廓图输入训练好的生成模型,得到生成目标图像。

需要说明的是,图像生成技术的发展得益于一众生成模型的快速发展迭代。目前主流的生成模型有生成对抗网络(gan,generative-adversarial-networks)、变分自编码器(vae,variationalauto-encoder)。2014年goodfellow等人首次提出的gan网络模型,即提出了一种通过判别过程来评估生成模型的新型网络框架。同时训练负责获取数据分布的生成模型和负责评估采样数据是来自训练数据集还是生成模型的判别模型。连续交替训练,直到判别模型无法正确区分数据集采样数据和生成模型生成的数据。此后,基于传统gan网络结构提出的改进网络层出不穷,具代表性的有wassersteingan、sngan、sagan、cgan、biggan等。

本实施例的生成模型的基础网络结构为cgan,前景目标轮廓图作为生成模型的输入,前景目标轮廓图对应的原始目标图像作为生成模型的输出。

s5:接收端融合所述生成目标图像和背景图像,得到与原始目标图像语义一致的重构图像。

由此可见,本实施例通过对目前暴增的视频数据量及现有无线通信技术的分析,发现了现有无线视频通信无法应对视频数据量井喷造成的传输与存储量激增的现状;因此,为了解决现有无线通信技术无法满足大规模爆发的视频数据传输及存储需求的问题,本实施例通过深入分析视频通信场景及相应的视频数据特性,并结合目前无线通信技术无力应对视频数据量暴增的现状,提出了一种将计算与通信相结合的视频传输与存储方法,通过向计算要通信能力来有效缓解无线通信的压力;首先,采用解构算法将视频数据解构为语义文本信息数据,再采用生成算法将语义文本信息数据重构为视频数据;该视频通信方式将不同形式计算能力赋予通信网络结构中的各个部分,具体采用将视频数据特征语义化计算能力赋予发送端,将语义生成图像计算能力赋予接收端的方式,将原本的本地集中式计算的通信模式转换为协作分集计算的通信模式,由此大大降低传输带宽及存储资源,提高传输、存储及检索效率。

实施例二

视频数据的运动前景几乎包含了所有有价值的信息,例如,在以异常事件监测为目的的应用中,事件发生的情况只占据了极少量的监测时间,且监测对象多数情况下为运动目标前景。在移动视频通话场景下,人脸是最主要的信息载体,画面的变化即为人脸表情的变化。所以在诸如此类场景中,视频画面的变化均可以抽象为特定语义信息的变化。因此,下面以室内监控以及移动视频通话场景为例,对节带化视频传输方法进行具体说明。

在室内监控场景中,人通常是最常见的运动前景目标,也是监控的主要对象。人的行为表现于动作,动作依赖于关节的活动。因此,解构出的人体骨架信息能够完备的表示人体结构,在人体重构中可以作为动作变化的重要依据。构成人体骨架的基本关节点包括:踝关节(左右两点)、膝盖(左右两点)、臀部(左右两点)、脖子、头部、手腕(左右两点)、肘部(左右两点)、肩膀(左右两点)、盆骨、胸部。

根据上述系统设计,首先检测画面中所有类别为人的前景目标,采用openpose算法进行人体姿态提取。具体为一种自底向上的姿态检测方法对图像中的目标进行姿态检测。即首先检测图像中目标的躯干,然后将属于不同人的躯干进行关联,得到人体躯干图。然后对表示姿态的关节关键点坐标信息进行传输。在接收端将关键点特征化为人体躯干图,并采用图像生成技术将人体躯干图生成为与原始行人目标图像语义一致的生成目标图像。最后将背景图像和生成前景图像进行融合,得到重构图像,具体流程图如图5所示,传输效果如图6所示,其中,第一行为人体躯干图,第二行为相应的人体生成图像。

其中,图像生成部分采用cgan(conditionalgenerativeadversrialnetwork)作为生成模型训练的基础网络结构。即使用包含图像关键信息的人体躯干图像作为生成器的输入,将与之对应的原始图像与生成器生成的图像作为判别器的输入,同时训练生成器和判别器,直至判别器无法判别生成器生成图像与原始真实图像的真假为止。

在移动视频通话场景下,人脸通常是人们最为关注的部分,是信息的主要来源。目标前景为人脸图像时,首先对其进行特征提取得到人脸68个关键点,并将68个关键点坐标信息进行文本传输。在接收端,将关键点坐标信息特征化为人脸轮廓图,将轮廓图输入生成模型最终生成在该轮廓下的目标人脸图像。最后将背景图与生成的前景图进行图像融合。经过以上步骤便可得到最终的生成图像,具体流程如图7所示,传输效果如图8所示,其中,第一行为人脸轮廓图,第二行为相应的人脸生成图像。

当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当然可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。


技术特征:

1.一种节带化视频传输方法,其特征在于,包括以下步骤:

s1:发送端识别并提取原始目标图像中的前景目标,然后将目标图像的背景图像发送到接收端;

s2:发送端将所述前景目标的特征点坐标信息进行特征语义化,得到文本语义信息,然后将所述文本语义信息发送到接收端;

s3:接收端根据前景目标的文本语义信息得到前景目标轮廓图;

s4:接收端将前景目标轮廓图输入训练好的生成模型,得到生成目标图像;

s5:接收端融合所述生成目标图像和背景图像,得到与原始目标图像语义一致的重构图像。

2.如权利要求1所述的一种节带化视频传输方法,其特征在于,所述生成模型的基础网络结构为cgan,前景目标轮廓图作为生成模型的输入,前景目标轮廓图对应的原始目标图像作为生成模型的输出。

3.如权利要求1所述的一种节带化视频传输方法,其特征在于,所述原始目标图像通过摄像设备采集得到,其中,摄像设备的采集模式为固定采集模式;

在固定采集模式下,判断前n帧原始目标图像中的前景目标是否同属一个身份,若为同一身份,则从n帧原始目标图像中任选一幅,再将其中的背景图像发送到接收端,其中,n至少为5。

4.如权利要求1所述的一种节带化视频传输方法,其特征在于,所述原始目标图像通过摄像设备采集得到,其中,摄像设备的采集模式为固定范围周期变化采集模式;

在固定范围周期变化采集模式下,发送端判断提取的背景图像的角度是否发生变化,若发生变化,则发送端将角度变化信息发送到接收端,接收端根据所述角度变化信息更新背景图像。

5.如权利要求1所述的一种节带化视频传输方法,其特征在于,所述原始目标图像通过摄像设备采集得到,其中,摄像设备的采集模式为有限范围无规则变化采集模式;

在有限范围无规则变化采集模式下,发送端判断提取的背景图像是否发生变化,若发生变化,则发送端将变化后的背景图像发送到接收端,接收端更新背景图像。

技术总结
本发明提供一种节带化视频传输方法,在发送端将视频数据解构为文本语义信息,实现关键信息文本化传输,在接收端基于图像生成技术将文本语义信息重构为与原始目标图像语义一致的重构图像;由此可见,本发明将不同形式计算能力赋予通信网络结构中的各个部分,具体采用将视频数据特征语义化计算能力赋予发送端,将语义生成图像计算能力赋予接收端的方式,将原本的本地集中式计算的通信模式转换为协作分集计算的通信模式,由此大幅度降低带宽及存储资源,提高传输、存储及检索效率。

技术研发人员:孙语瞳;刘畅;胡金龙
受保护的技术使用者:北京中科晶上科技股份有限公司
技术研发日:2020.01.20
技术公布日:2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-54072.html

最新回复(0)