用于SSI的超声图像分析技术的制作方法

专利2022-06-28  76


本发明属于无声交流技术,超声图像识别领域,具体涉及一种用于ssi(silentspeechinterface)的超声图像分析技术。



背景技术:

目前用于记录舌头运动信息的设备主要有四种:核磁共振成像技术(mri),电磁发音记录仪(ema),x-ray和超声仪(ultrasound)。

核磁共振成像技术虽然能过提供舌头的三维形态,但是该技术采样频率低,成本高,给后期隐马尔科夫模型的识别带来了很大的困难;而且核磁共振成像技术的磁场带来的高噪声使得舌头运动的序列与语音序列的同步较难进行。

电磁发音记录仪虽然有较高的舌头采样频率,但只能记录传感器对应的几个点的运动情况,因此舌头的运动信息记录不充分,给后期隐马尔科夫模型的识别带来了很大的困难。

x-ray具有很高的穿透本领,能透过许多对可见光不透明的物质,采样频率高,能够很好的记录舌头的运动情况,然而x-ray对人体有辐射,限制了数据的录取。

相比之下,超声仪具有较高的采样频率,并且能够采集到超声图像,通过超声仪能过获取大量舌头的运动信息,为后期连续语音识别奠定了基础。因此目前使用超声仪采集舌头的运动信息序列。

在特征提取方面,hueber开始使用舌头的边界提取,可是舌头轮廓在发某些音素时,边界特征对识别的效果不是很好,因为舌头轮廓会丢失很多重要信息。因此,后来采用主成分分析(principalcomponentanalysis,pca)行超声图像的特征提取,该方法提取了主要的特征,包括舌头的位置,还有其他的组织结构,包括舌骨,短肌腱的运动的主要信息。当前还是用了线性判别分析(lineardiscriminantanalysis,lda)和离散余弦变换(discretecosinetransform,dct)进行超声图片的特征提取,但是进行连续语音识别的结果并不理想。

主成分分析方法有很大的缺陷,该方法只能够获取线性相关的信息,因此使用该方法得到降低维度得到的信息不具有代表性;而核主成分分析方法(kernelprinciplecomponentanalysis,kpca)很好的解决了主成分分析方法只能够获取线性相关信息的问题,该方法将数据投影到高维空间,在高维空间中找到一个平面使其线性可分,然后将结果投影到低维空间中,达到获取数据非线性相关信息的效果。核主成分分析的缺点就是投影空间较少,而且对不同数据采用哪种核方法得到的效果更好并没有理论支持,只能够通过实验证实;另一种提取舌头超声图像特征的方法是叠加降噪自动编码器(stackeddenoiseautoencoders),其基本与元素是自动编码器,该方法能够拟合任何一种函数,所以能够学习到代表原数据更好的特征。缺点则是训练时间长,参数较多,不能够很好掌握。



技术实现要素:

针对现有技术存在的问题,本发明针对用ssi(silentspeechinterface)的超声图像分析技术,提出了两种图像特征提取的新方法:核主成分分析(kpca)和叠加降噪自动编码器(sad),该技术能够很好的描述像素间的相关性,有利于捕捉到超声图像舌头运动的主要信息,核主成分分析方法能够将输入空间不可线性拟合的数据变换到高维特征空间实现线性拟合,这样在低维空间就能够拟合非线性的数据,大大简化了计算量;叠加降噪自动编码器具有非线性映射能力,具有高度的自适应的能力,并且具有一定的容错能力。

用于ssi(silentspeechinterface)的超声图像分析技术,具体方案实施步骤如下:

步骤一:数据采集。数据采集系统分为三个子系统:超声采集系统,视频采集系统和音频采集系统。实验需要的仪器包括:两个工业摄像头、超声仪、麦克风、三盏柔光灯、声卡以及采集卡等设备。

超声图片以及对应的音频的采集均是由超声仪来完成的,超声数据采集模块使用的主要仪器是terason公司的t3000超声仪和型号为8mc3的超声探头。超声采集系统能够实现超声图像和说话者音频的同步采集。使用terasont3000超声仪能够以每秒95帧实时显示说话者舌头运动情况,同时将超声图像和说话者的音频保存到本地硬盘。实验中获取的超声图片的尺寸为640*480。视频采集系统采集嘴唇图像序列时使用两个工业相机:一个置于说话者的正面,用来录制说话者正面唇部图像;另一个置于说话者的侧面,用来录制说话者侧面唇部图像。采集嘴唇图像序列使用的工业相机是ioindustries公司的2m360ccl。采集说话者的音频使用的设备是studioprojectsspcs5多指向圆振膜电容话筒,录制数据过程中使用的外置声卡是roland声卡。

步骤二:数据同步处理。将两个系统采集到的数据进行同步处理,即超声与音频的同步,视频与音频的同步。

在采集超声图像时,会记录超声图像的信息,即每张超声图像的系统时间、序列号以及音频流的每帧的时间。我们可以利用超声图像的序列号信息进行判断是否有超声图像丢失的情况。系统采集音频数据时,将音频按照每帧来保存到硬盘。当每帧的时长到了的时候,系统访问图像采集的线程,获取并记录当前图像的序列号,利用该信息我们可以验证每一组数据流之间的同步性。

视频采集系统采集说话者正面嘴唇和侧面嘴唇图像序列以及说话者音频。在采集数据过程中,使用的两个工业摄像头将采集到的两个视频信号分别传输到储存服务器中的两块视频采集卡,将视频采集卡采集到的超声图像存储到服务器的磁盘阵列中。两块视频采集卡分为主卡和从卡,主卡和从卡之间能够进行通信,主卡进行采集嘴唇数据的同时,会向从卡发出采集信号,我们通过这两块视频采集卡用来同步两个视频流的数据,因此最终得到的正面嘴唇数据流和侧面嘴唇数据流是同步的。

在视频采集系统采集说话者的音频时,该系统每隔20ms记录当前音频的系统时间,并存在文本文档中。在视频采集系统采集的说话者的嘴唇图像流时,该系统记录每张图像的系统时间,并存到文本文档中。通过音频的系统时间找对应的系统时间的嘴唇图像,从而达到视频采集系统中视频与音频的同步。

超声采集系统、视频采集系的共同点是均采集说话者的音频,每个子系统内部的数据时同步的,当找到三个系统的音频的开始点,可以实现所有数据流之间的同步。因此,在每次开始录制数据时,超声仪配备的mac产生短促的beep音。该beep音有两个作用:一是提示说话者开始说话;二是该beep音会在音频上有明显的波形,利于使用程序找到超声采集系统和视频采集系统采集到的音频的开始点,实现两个子系统的数据流的同步。

步骤三:超声图像特征提取。分别使用主成分分析法(pca)、核主成分分析法(kpca)和叠加降噪自动编码器(sda)提取超声图像特征。

主成分分析用于超声图像的操作步骤:

1.获取

转载请注明原文地址: https://bbs.8miu.com/read-10759.html

最新回复(0)