一种基于远距离无损视频传输的国产视觉计算系统的制作方法

专利2022-06-28  109


本发明属于视觉计算系统
技术领域
,具体涉及一种基于远距离无损视频传输的国产视觉计算系统。
背景技术
:视觉计算主要涉及图像增强、图像拼接、三维表面重构、纹理映射以及目标识别与跟踪等关键技术。动态可重配置计算是指利用现场可编程门阵列、软件可定义等技术,动态改变计算机系统的硬件和软件功能,在有限的计算资源和功耗的情况下灵活地实现多样化嵌入式计算处理功能,显著提升计算机系统的灵活性、可扩展性和可重用性。根据可重配置部分的大小可分为全局动态可重配置和局部动态可重配置。基于帧间融合的增强是在低质量视频中融合不同时期视频的亮度信息,这种方法主要是提取高质量背景信息并嵌入到低质量视频中。在图像处理过程中,主要有两类传统的增强图像技术:频率域法和空间域法。空间域法引用图像本身,这类图像处理方法直接对图像像素进行操作。频率域处理技术基于修改通过转换获得的图像的空间频谱。常用的图像拼接方法有基于视频序列的拼接方法和针对运动场景的图像拼接模型等等。输入高程三维点云数据,三维构网算法计算得到一个曲面来尽可能拟合输入的三维点云,而这样的曲面一般表示为离散化的网格以便于存储和后续的处理。三维构网算法可以分为两类:插值方法和近似方法。基于三维点云特征的三维目标识别过程首先需将深度传感器获取的深度图利用小孔成像原理转化为空间三维点云,再从三维点云中提取三维特征描述子,最后利用这些三维特征实现目标识别。近年来以卷积神经网络为代表的深度学习的出现,推动了包括目标识别与跟踪在内的各类计算机视觉领域的进步,其无需手工设计特征,利用在大数据中训练得到的更为鲁棒的特征取得了远超传统算法的性能。本发明拟采用基于先验框与多尺度深度特征的目标检测算法以及基于双通道卷积网络的目标跟踪算法,实现在复杂战场环境下的实时高精度目标检测与跟踪。目标识别技术主要包括基于先验框与多尺度深度特征的目标检测算法和基于双通道卷积网络的目标跟踪算法等。技术实现要素:本发明的目的在于提供采用基于先验框与多尺度深度特征的目标检测算法以及基于双通道卷积网络的目标跟踪算法,实现在复杂战场环境下的实时高精度目标检测与跟踪的一种基于远距离无损视频传输的国产视觉计算系统。本发明的目的通过如下技术方案来实现:包括显示设备、管理单元、异构计算单元和存储单元;所述的管理单元包括异构计算单元管理部件、存储介质管理部件和视频总线管理部件,各管理部件之间通过管理总线连接;所述的存储单元通过视频传输总线将输入的视频传递给异构计算单元;所述的异构计算单元经过视觉计算后得到目标识别后的视频,并通过视频传输总线传递给显示设备;所述的显示设备输出目标识别后的视频;所述的视频传输总线采用容器作为传输视频流信息的基本单元,将一段视频流转化为由一系列的容器组成,每个容器对应一幅图像帧信息,包括容器头和一组对象,容器头描述了数据在容器中的位置及对象的类型;所述的容器的操作方式有简单模式和扩展帧头模式;在简单模式中,容器中包含4个基本对象;在扩展帧头模式中,容器中最多可携带16个对象;所述的容器头由22个单元组成,每个单元为4个32bit的fc传输字;所述的容器头的前6个单元为容器信息块cib,包括容器计数、视频标识、容器时标、传输类型、容器类型等信息,作用于整个容器系统;所述的容器头的后16个单元中每4个单元一组为对象信息块,当视频采用逐行扫描模式时只用对象2承载视频数据,在隔行扫描模式中对象2封装奇数行数据,对象3封装偶数行数据。本发明还可以包括:所述的异构计算单元包括cpu、gpu、npu和fpga;当视觉计算应用为路径规划和避障检测时,cpu给fpga发控制信号,由fpga控制gpu和fpga的进栈;当使用三维地图成像及导航应用时,cpu给fpga发控制信号,由fpga控制npu和fpga的进栈;当视觉计算应用的计算量需求显著变化时,cpu给fpga发控制信号,由fpga控制gpu和fpga的出栈,fpga控制npu的进栈。本发明的有益效果在于:本发明是计算机领域下的国产视觉计算系统设计,该系统基于国产多核cpu、国产gpu、国产npu和fpga等计算资源,具有高带宽、低延迟、非压缩、远距离无损传输等特点。输入为一段视频,经过视觉计算后,将目标识别后的视频作为输出。支持不少于3种计算资源的异构组合和高效协同,具备高效能计算、多模态图形图像处理、架构动态可重配置等能力。本发明将国产处理器作为基本计算单元,实现并行计算处理,同时可实现并行计算和指令流的编程,支持分布式异构计算系统的功能按需灵活配置与资源规模扩展。支持视觉计算资源的动态配置。通过优化配置细粒度不同的并行计算模块,同时优化分布式异构计算系统的资源利用率和运行能耗,突破多模态视频融合与显示处理的速度和效能瓶颈,实现实时性需求情况下视觉计算规模的压缩优化,保证国产处理器处于低功耗高效运行。附图说明图1是不同格式视频发送和接收处理组成框图。图2是一种基于远距离无损视频传输的国产视觉计算系统的架构图。具体实施方式下面结合附图对本发明做进一步描述。本发明是计算机领域下的国产视觉计算系统设计,该系统基于国产多核cpu、国产gpu、国产npu和fpga等计算资源,具有高带宽、低延迟、非压缩、远距离无损传输等特点。输入为一段视频,经过视觉计算后,将目标识别后的视频作为输出。支持不少于3种计算资源的异构组合和高效协同,具备高效能计算、多模态图形图像处理、架构动态可重配置等能力。针对多模态视频数据传输的高带宽、低延迟和灵活性需求,以国产处理器、国产操作系统和视频传输协议为基础,开展视频数据协议封装组织、传输控制、总线接口、驱动程序以及视频捕获api等多模态视频格式转码与编码的视频传输技术研究,突破异构视觉计算系统对高带宽低延迟非压缩视视频传输的速度瓶颈,解决视频实时捕获能力不足问题。一种基于远距离无损视频传输的国产视觉计算系统,包括显示设备、管理单元、异构计算单元和存储单元;所述的管理单元包括异构计算单元管理部件、存储介质管理部件和视频总线管理部件,各管理部件之间通过管理总线连接;所述的存储单元通过视频传输总线将输入的视频传递给异构计算单元;所述的异构计算单元经过视觉计算后得到目标识别后的视频,并通过视频传输总线传递给显示设备;所述的显示设备输出目标识别后的视频;所述的视频传输总线采用容器作为传输视频流信息的基本单元,将一段视频流转化为由一系列的容器组成,每个容器对应一幅图像帧信息,包括容器头和一组对象,容器头描述了数据在容器中的位置及对象的类型;所述的容器的操作方式有简单模式和扩展帧头模式;在简单模式中,容器中包含4个基本对象;在扩展帧头模式中,容器中最多可携带16个对象;所述的容器头由22个单元组成,每个单元为4个32bit的fc传输字;所述的容器头的前6个单元为容器信息块cib,包括容器计数、视频标识、容器时标、传输类型、容器类型等信息,作用于整个容器系统;所述的容器头的后16个单元中每4个单元一组为对象信息块,当视频采用逐行扫描模式时只用对象2承载视频数据,在隔行扫描模式中对象2封装奇数行数据,对象3封装偶数行数据。所述的异构计算单元包括cpu、gpu、npu和fpga;当视觉计算应用为路径规划和避障检测时,cpu给fpga发控制信号,由fpga控制gpu和fpga的进栈;当使用三维地图成像及导航应用时,cpu给fpga发控制信号,由fpga控制npu和fpga的进栈;当视觉计算应用的计算量需求显著变化时,cpu给fpga发控制信号,由fpga控制gpu和fpga的出栈,fpga控制npu的进栈。实施例1:针对多模态视频数据传输的高带宽、低延迟和灵活性需求,以国产处理器、国产操作系统和视频传输协议为基础,开展视频数据协议封装组织、传输控制、总线接口、驱动程序以及视频捕获api等多模态视频格式转码与编码的视频传输技术研究,突破嵌入式异构视觉计算系统对高带宽低延迟非压缩视视频传输的速度瓶颈,解决嵌入式计算机的视频实时捕获能力不足问题,构建高带宽低延迟非压缩异源多模态视频数据的传输模型,形成多模态视频编解码、协议数据封装组织、协议数据传输控制硬件模块以及视频数据接口软件模块,提高嵌入式异构视觉计算系统对视频进行处理和显示的效率和灵活性。将国产处理器作为基本计算单元,实现并行计算处理,同时可实现并行计算和指令流的编程,支持分布式异构计算系统的功能按需灵活配置与资源规模扩展。支持视觉计算资源的动态配置。通过优化配置细粒度不同的并行计算模块,同时优化分布式异构计算系统的资源利用率和运行能耗,突破多模态视频融合与显示处理的速度和效能瓶颈,实现实时性需求情况下视觉计算规模的压缩优化,保证国产处理器处于低功耗高效运行。本发明提出了一套多模态图像实时处理技术框架,本发明从同源图像融合、多模态图像融合、多目标识别等三个方面展开:同源图像融合部分,首先利用视频增强与全景视图拼接技术得到高质量超视角的全景地形图像,实现同源不同视角图像的融合拼接;多模态图像融合部分,本发明基于塔型变换和主成分分析的多模态图像融合算法,通过有效的特征融合,充分挖掘多模态信息间的相关性、差异性及互补性;在多目标识别部分,本发明以卷积神经网络为框架,以多源融合图像为数据输入的目标检测与跟踪技术,从而实现实时高精度多目标检测与跟踪。本发明分为三个部分:可重配置数据通道及控制模块、高性能并行视觉计算模块、动态可重配置加速模块。以此构建的多级异构融合高效能分布式视觉计算系统。当不同的视觉计算应用软件进入控制单元之后,根据软件的要求将划分后的任务逐块送到数据通道中执行,数据通道再根据所输入的数据依照控制单元的要求来进行配置计算单元阵列。由于不同应用软件的任务划分不同,数据通道会将任务根据相应重配置信息传入到异构视觉计算单元当中,同时为解决国产gpu及npu计算能力不足,利用大规模fpga进行加速控制,以弥补性能缺陷,构建系统级与单元级的动态可重配置加速堆栈结构。此外,各计算单元通过高速传输总线连接到外部可伸缩的以太互联网络以及视频协议转换传输接口,使异构分布式计算系统具备规模可伸缩特性和视频无损远距离传输能力,实现整机之间的异构分布式融合。在以太网互联之外,多个异构计算节点还通过高速串行总线交换设施进行局部互联,在轻量级通信协议栈的支持下实现各个计算节点之间高带宽、低延时的数据传输,从而达到模块级的异构分布式融合。最后,通过使用集成了嵌入式计算节点的fpga器件,进一步缩短cpu、gpu、npu与加速计算资源之间的距离,降低通信开销,实现单元级的异构融合。cpu具有强大的数据处理能力,但并行能力较弱,适用于机器学习、大数据处理及传输等算法研究。gpu具有强大的深度学习并行能力,但功耗较大,适用于深度神经网络算法,但应用嵌入式设备需要在算法层面进行优化。fpga的并行能力强,可编程,可配置,可对神经网络计算进行加速,实现方式灵活,可对系统结构配置进行控制。npu具有强大的深度学习能力,功耗较低,可用于高性能并行计算,可针对视觉计算应用来配置其加速运算。通过上述对各个部件以及适用性的分析,可知每个模块的具体分工。gpu、npu、fpga作为异构分布式系统的加速计算资源,分别承担高速图像处理和智能化加速任务。通过龙芯处理器上的os来调度gpu、npu和fpga的运行。这种堆栈式架构可以使fpga加速模块和gpu及npu计算模块通过总线进行紧耦合,从而体改数据带宽,提高执行效率。当视觉计算应用是路径规划和避障检测时,cpu给fpga发控制信号,由fpga控制gpu和fpga的进栈。算法使用一些相对简单的图像处理技术即可,但这需要用到大量的并行计算,因此涉及在此平台的加速堆栈中,需要gpu进栈来处理图像大数据,还需要fpga的高度并行计算能力来对图像处理进行加速,此时fpga进入加速堆栈。当应用的计算量需求显著变化时,对显示、目标识别跟踪要求较高,会涉及到大量的卷积神经网络运算,此时,cpu给fpga发控制信号,由fpga控制gpu和fpga的出栈,fpga控制npu的进栈。npu的ai芯片以其强大的计算能力和较低的功耗就会拥有较优的卷积神经网络计算效能,因此在平台中对卷积神经网络的计算仅需要配置npu运算即可。不过此时,又遇上一个应用中gpu和fpga已经在加速堆栈中,所以控制单元需要发出信号,由cpu控制gpu和fpga出栈,并使npu进栈,这样就完成动态重配置的过程。当使用三维地图成像及导航应用时,不仅需要大量的卷积神经网络计算,同时为达到成像的实时性,还需要对计算进行加速,因此在配置过程中需要使用ai芯片来完成卷积神经网络计算,同时还需要fpga来进行加速,cpu给fpga发控制信号,由fpga控制npu和fpga的进栈。由于上一个应用中npu已经在栈内,因此只需将fpga入栈的控制信号传入到加速堆栈即可。在此计算架构下,所使用的加速堆栈技术可有效的对整机进行系统级和单元级动态可重配置,由于使用的就是堆栈结构,每次重新配置时需要经历出栈-进栈的过程,因此这种结构的可扩展性非常强,添加或删减部件都不会影响整体架构设计方案。同时,由于智能计算节点和fpga节点均使用相同的高速串行总线接口进行互联,因此在接口兼容的情况下,两者可以实现无缝替换。容器是视频数据协议中传输视频流信息的基本单元,被设计用来实现视频数据在总线中传输的最优化方案,它将需要传输的视频和辅助数据信息定义为由多个相关联数据集组成的一个容器,一个视频流又是由一系列的容器组成,每个容器对应一幅图像帧信息,包括容器头和一组对象,容器头描述了数据在容器中的位置及对象的类型。容器的操作方式有简单模式和扩展帧头模式,两种模式下对象的数量是不同的。在简单模式中,容器中包含4个基本对象;在扩展帧头模式中,容器中最多可携带16个对象。容器头由22个单元组成,每个单元为4个32bit的fc传输字。前6个单元(0-5)称为容器信息块(cib),包括容器计数、视频标识、容器时标、传输类型、容器类型等信息,作用于整个容器系统。后16个单元(6-21)4个一组称为对象信息块。当视频采用逐行扫描模式时只用对象2承载视频数据。在隔行扫描模式中对象2封装奇数行数据,对象3封装偶数行数据。在word5容器类型中可选择模式。在8bit的模式选择中,bit7=0表示容器采用简单模式,对应的对象数为04h;bit7=1表示容器采用扩展帧头模式,对应的对象数要与实际采用的对象个数一致。字标识字节0字节1字节2字节30容器计数容器计数值1视频标识视频编号2-3容器时标容器时标值4传输类型视频速率传输速率reservedreserved5容器类型模式对象数reserved扩展帧头大小在简单模式中,容器中包含4个基本对象;在扩展帧头模式中,容器中最多可携带16个对象。容器头由22个单元组成,每个单元为4个32bit的fc传输字。前6个单元(0-5)称为容器信息块(cib),包括容器计数、视频标识、容器时标、传输类型、容器类型等信息,作用于整个容器系统。后16个单元(6-21)4个一组称为对象信息块。当视频采用逐行扫描模式时只用对象2承载视频数据。在隔行扫描模式中对象2封装奇数行数据,对象3封装偶数行数据。帧头控制协议(fhcp)是视频数据协议中数据帧帧格式定义及帧传输的协议标准。fhcp是一种把容器映射为数据帧的方法策略,其特点是开销较低、效率较高。视频数据协议中的发送与接收端基于接口控制文件(icd)的定义进行各种通信要素的确定和统一,包括视频格式、像素信息、输出扫描方式、链路速率、帧速率、同步特性等,两端的icd必须一致才能实现正确的发送与接收操作。发送端执行“实时提交”原则,一旦有视频数据,则基于fhcp协议和分帧原则进行帧的封装并实时将数据提交至链路,无需关心链路与接收端状态。接收端则在获取链路同步后实时接收链路上的数据帧,根据icd文件要求完成整行图像数据的重组。为了避免由于链路故障而导致的视频输出错误,接收端需要采取以下原则:①当检测到链路失同步或8b/10b编码错误的情况下,需重新获取链路同步并等待直至下一个sofi到来才开始正常接收;②当检测到crc校验错误,则丢弃当前帧,停止接收并等待直至下一个sofi到来才开始正常接收,这样保证了当链路故障情况下始终能够从下一幅图像的第一行数据完整显示输出。以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。当前第1页1 2 3 
技术特征:

1.一种基于远距离无损视频传输的国产视觉计算系统,其特征在于:包括显示设备、管理单元、异构计算单元和存储单元;所述的管理单元包括异构计算单元管理部件、存储介质管理部件和视频总线管理部件,各管理部件之间通过管理总线连接;所述的存储单元通过视频传输总线将输入的视频传递给异构计算单元;所述的异构计算单元经过视觉计算后得到目标识别后的视频,并通过视频传输总线传递给显示设备;所述的显示设备输出目标识别后的视频;所述的视频传输总线采用容器作为传输视频流信息的基本单元,将一段视频流转化为由一系列的容器组成,每个容器对应一幅图像帧信息,包括容器头和一组对象,容器头描述了数据在容器中的位置及对象的类型;所述的容器的操作方式有简单模式和扩展帧头模式;在简单模式中,容器中包含4个基本对象;在扩展帧头模式中,容器中最多可携带16个对象;所述的容器头由22个单元组成,每个单元为4个32bit的fc传输字;所述的容器头的前6个单元为容器信息块cib,包括容器计数、视频标识、容器时标、传输类型、容器类型等信息,作用于整个容器系统;所述的容器头的后16个单元中每4个单元一组为对象信息块,当视频采用逐行扫描模式时只用对象2承载视频数据,在隔行扫描模式中对象2封装奇数行数据,对象3封装偶数行数据。

2.根据权利要求1所述的一种基于远距离无损视频传输的国产视觉计算系统,其特征在于:所述的异构计算单元包括cpu、gpu、npu和fpga;当视觉计算应用为路径规划和避障检测时,cpu给fpga发控制信号,由fpga控制gpu和fpga的进栈;当使用三维地图成像及导航应用时,cpu给fpga发控制信号,由fpga控制npu和fpga的进栈;当视觉计算应用的计算量需求显著变化时,cpu给fpga发控制信号,由fpga控制gpu和fpga的出栈,fpga控制npu的进栈。

技术总结
本发明属于视觉计算系统技术领域,具体涉及一种基于远距离无损视频传输的国产视觉计算系统。本发明将国产处理器作为基本计算单元,实现并行计算处理,同时可实现并行计算和指令流的编程,支持分布式异构计算系统的功能按需灵活配置与资源规模扩展。支持视觉计算资源的动态配置。通过优化配置细粒度不同的并行计算模块,同时优化分布式异构计算系统的资源利用率和运行能耗,突破多模态视频融合与显示处理的速度和效能瓶颈,实现实时性需求情况下视觉计算规模的压缩优化,保证国产处理器处于低功耗高效运行。本发明将输入的视频经过视觉计算后,以目标识别后的视频作为输出,具备高效能计算、多模态图形图像处理、架构动态可重配置等能力。

技术研发人员:李思照;孙建国;王春艳;贺子天;巩建光
受保护的技术使用者:哈尔滨工程大学
技术研发日:2020.01.13
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-11281.html

最新回复(0)