语音识别和内容去识别
背景技术:1.本发明的实施例一般涉及数据隐私保护,并且更具体地,涉及用于在数据隐私保证下讲话者身份和内容去识别(de-identification)的方法和系统。
技术实现要素:2.本发明的一个实施例提供了一种在数据隐私保证下用于讲话者身份和内容去识别的方法。该方法包括接收指示需要实施讲话者身份和内容去标识的至少一个隐私保护级别的输入,以及从由第一讲话者传送并且记录在第一话音记录(voice recoding)中的第一语音中提取与第一讲话者相对应的特征。该方法还包括从第一语音识别并提取文本内容,解析文本内容以识别对应于第一个体的隐私敏感个人信息,以及通过对文本内容执行效用保持内容去识别以将隐私敏感个人信息匿名化到满足至少一个隐私保护级别的程度来生成去识别文本内容。所述去识别文本内容隐藏第一个体的个人身份。该方法还包括将所述去识别文本内容映射到第一讲话者,基于与至少一个其他讲话者相对应的其他特征生成与所述第一讲话者相对应的合成讲话者身份,以及基于所述合成讲话者身份合成新语音波形以传送所述去识别文本内容。对应于所述至少一个其他讲话者的其他特征与对应于所述第一讲话者的特征的不相似程度达到满足所述至少一个隐私保护级别的程度。所述新语音波形与所述第一语音的语音波形不同,并且所述新语音波形隐藏所述第一讲话者的个人身份。
3.本发明的另一个实施例提供了一种在数据隐私保证下用于讲话者身份和内容去识别的系统。该系统包括至少一个处理器和存储指令的非瞬态处理器可读存储器设备,该指令在由该至少一个处理器执行时使该至少一个处理器执行操作。所述操作包括接收指示需要实施所述讲话者身份和内容重新识别的至少一个隐私保护级别的输入,以及从由第一讲话者传送并且记录在第一话音记录中的第一语音中提取与所述第一讲话者相对应的特征。所述操作还包括从第一语音识别并提取文本内容,解析所述文本内容以识别与第一个体相对应的隐私敏感个人信息,以及通过对所述文本内容执行效用保持内容去识别以将所述隐私敏感个人信息匿名化到满足至少一个隐私保护级别的程度来生成去识别文本内容。所述去识别文本内容隐藏所述第一个体的个人身份。所述操作还包括将所述去识别文本内容映射到所述第一讲话者,基于与至少一个其他讲话者相对应的其他特征来生成与所述第一讲话者相对应的合成讲话者身份,以及基于合成讲话者身份合成新语音波形以传送所述去识别文本内容。对应于所述至少一个其他讲话者的其他特征与对应于所述第一讲话者的特征的不相似程度达到满足所述至少一个隐私保护级别的程度。所述新语音波形与所述第一语音的语音波形不同,并且所述新语音波形隐藏所述第一讲话者的个人身份。
4.本发明的一个实施例提供了一种在数据隐私保证下用于讲话者身份和内容去识别的计算机程序产品。该计算机程序产品包括具有程序指令的计算机可读存储介质。所述程序指令可由处理器执行以使所述处理器接收指示需要实施所述讲话者身份和内容去识别的至少一个隐私保护级别的输入,并从由第一讲话者传送且记录在第一话音记录中的第
一语音提取对应于所述第一讲话者的特征。所述程序指令还使处理器识别并从第一语音提取文本内容,解析所述文本内容以识别与第一个体对应的隐私敏感个人信息,以及通过对所述文本内容执行效用保持内容去识别来生成去识别文本内容,以将所述隐私敏感个人信息匿名化到满足至少一个隐私保护级别的程度。所述去识别文本内容隐藏第一个体的个人身份。所述程序指令还使得所述处理器将所述去识别文本内容映射到所述第一讲话者,基于与至少一个其他讲话者相对应的其他特征来生成与所述第一讲话者相对应的合成讲话者身份,以及基于所述合成讲话者身份来合成新语音波形以传送所述去识别文本内容。对应于所述至少一个其他讲话者的其他特征与对应于所述第一讲话者的特征的不相似程度达到满足所述至少一个隐私保护级别的程度。所述新语音波形与所述第一语音的语音波形不同,并且所述新语音波形隐藏所述第一讲话者的个人身份。
5.本发明的实施例的这些和其它方面、特征和优点将参考附图和本文的详细描述来理解,并且将借助于在所附权利要求中特别指出的各种元件和组合来实现。应当理解,本发明的附图的上述一般描述和以下简要描述以及实施例的详细描述都是本发明的优选实施例的示例性和说明性的,而不是对所要求保护的本发明的实施例的限制。
附图说明
6.在说明书结尾处的权利要求中特别指出并清楚地要求保护被认为是本发明的实施例的主题。从下面结合附图的详细描述中,本发明的实施例的前述和其它目的、特征和优点将变得显而易见,其中:图1示出了根据本发明实施例的云计算环境;图2示出了根据本发明实施例的抽象模型层;图3示出了根据本发明的实施例的用于实现讲话者身份和内容去识别的示例计算架构;图4示出了根据本发明实施例的示例性讲话者身份和内容去识别系统;图5示出了根据本发明实施例的提供话音记录的语音波形和话音记录所对应的讲话者所讲的单词之间映射的示例注释;图6示出了根据本发明实施例的二维空间中讲话者的特征向量的示例图形表示;图7是根据本发明实施例的用于讲话者身份和内容去识别的示例过程的流程图;以及图8是示出了用于实现本发明实施例的信息处理系统的高级框图。
7.详细描述通过参考附图的示例解释了本发明的优选实施例以及优点和特征。
具体实施方式
8.本发明的实施例一般涉及数据隐私保护,并且更具体地,涉及用于在数据隐私保证下讲话者身份和内容去识别的方法和系统。本发明的一个实施例提供了一种在数据隐私保证下用于讲话者身份和内容去识别的方法。该方法包括接收指示需要实施讲话者身份和内容去识别的至少一个隐私保护级别的输入,以及从由第一讲话者传送并且记录在第一话音记录中的第一语音中提取与第一讲话者相对应的特征。该方法还包括从所述第一语音识别并提取文本内容,解析所述文本内容以识别对应于第一个体的隐私敏感个人信息,以及
通过对所述文本内容执行效用保持内容去识别以将所述隐私敏感个人信息匿名化到满足至少一个隐私保护级别的程度来生成去识别文本内容。所述去识别文本内容隐藏第一个体的个人身份。该方法还包括将所述去识别文本内容映射到所述第一讲话者,基于与至少一个其他讲话者相对应的其他特征生成与所述第一讲话者相对应的合成讲话者身份,以及基于所述合成讲话者身份合成新语音波形以传递所述去识别文本内容。对应于所述至少一个其他讲话者的其他特征与对应于所述第一讲话者的特征的不相似程度达到满足所述至少一个隐私保护级别的程度。所述新语音波形与所述第一语音的语音波形不同,并且所述新语音波形隐藏所述第一讲话者的个人身份。
9.本发明的另一个实施例提供了一种在数据隐私保证下用于讲话者身份和内容去识别的系统。该系统包括至少一个处理器和存储指令的非瞬态处理器可读存储器设备,该指令在由该至少一个处理器执行时使该至少一个处理器执行操作。所述操作包括接收指示需要实施所述讲话者身份和内容重新识别的至少一个隐私保护级别的输入,以及从由第一讲话者传送并且记录在第一话音记录中的第一语音中提取与所述第一讲话者相对应的特征。所述操作还包括从所述第一语音识别并提取文本内容,解析所述文本内容以识别与第一个体相对应的隐私敏感个人信息,以及通过对所述文本内容执行效用保持内容去识别以将所述隐私敏感个人信息匿名化到满足至少一个隐私保护级别的程度来生成去识别文本内容。所述去识别文本内容隐藏所述第一个体的个人身份。所述操作还包括将所述去识别文本内容映射到所述第一讲话者,基于与至少一个其他讲话者相对应的其他特征来生成与第一讲话者相对应的合成讲话者身份,以及基于所述合成讲话者身份合成新语音波形以传送所述去识别文本内容。对应于所述至少一个其他讲话者的其他特征与对应于所述第一讲话者的特征的不相似程度达到满足所述至少一个隐私保护级别的程度。所述新语音波形与所述第一语音的语音波形不同,并且所述新语音波形隐藏所述第一讲话者的个人身份。
10.本发明的一个实施例提供了一种在数据隐私保证下用于讲话者身份和内容去识别的计算机程序产品。该计算机程序产品包括具有程序指令的计算机可读存储介质。所述程序指令可由处理器执行以使所述处理器接收指示需要实施所述讲话者身份和内容重新识别的隐私保护的至少一个级别的输入,并从由第一讲话者传送且记录在第一话音记录中的第一语音提取对应于所述第一讲话者的特征。所述程序指令还使处理器识别并从所述第一语音提取文本内容,解析所述文本内容以识别与第一个体对应的隐私敏感个人信息,以及通过对所述文本内容执行效用保持内容去识别来生成去识别文本内容,以将所述隐私敏感个人信息匿名化到满足至少一个隐私保护级别的程度。所述去识别文本内容隐藏第一个体的个人身份。所述程序指令还使得所述处理器将所述去识别文本内容映射到所述第一讲话者,基于与至少一个其他讲话者相对应的其他特征来生成与所述第一讲话者相对应的合成讲话者身份,以及基于所述合成讲话者身份来合成新语音波形以传送所述去识别文本内容。对应于所述至少一个其他讲话者的其他特征与对应于所述第一讲话者的特征的不相似程度达到满足所述至少一个隐私保护级别的程度。所述新语音波形与所述第一语音的语音波形不同,并且所述新语音波形隐藏所述第一讲话者的个人身份。
11.为了说明的目的,术语“去识别”通常指防止个体的个人身份被泄露的过程。个体的个人身份包括指示个体的一个或多个私人特征的信息(即,诸如但不限于性别、年龄、健康、情绪、教育、起源等的隐私敏感个人信息),如果个体的隐私敏感个人信息被泄露给第三
方,则第三方可推断个体的身份。
12.为了说明的目的,术语“语音数据”通常指包括由一个或多个讲话者传送的一个或多个语音的一个或多个话音记录的数据。
13.为了说明的目的,术语“讲话者去识别”和“语音去识别”通常指将去识别应用于语音数据的过程,该语音数据包括由讲话者传送的语音的话音记录,以防止讲话者的个人身份和语音被泄露。
14.为了说明的目的,术语“文本内容去识别”和“内容去识别”通常指将去识别应用于包括关于个体的隐私敏感个人信息的文本内容以防止个体的个人身份从文本内容中泄露的过程。
15.为了说明的目的,术语“讲话者身份和内容去识别”通常指将讲话者去识别和内容去识别两者应用于语音数据的过程。
16.为了说明的目的,术语“直接标识符(direct identifier)”通常指可以单独使用以标识个体的数据属性、词、标记或值。直接标识符可以唯一地对应于个体,使得当存在于数据中时,它揭示对应个体的身份。直接标识符的示例包括但不限于人名、社会保险号、国家id、信用卡号、电话号码、病历号、ip地址、账号等。
17.为了说明的目的,术语“间接标识符(indirect identifier)”或“准标识符(quasi-identifier)”通常是指不能单独用于识别个体,但可以与一个或多个其它间接/准标识符组合使用以识别个体的数据属性、词、标记或值。对应于个体的间接/准标识符的组合可以是唯一的或极其罕见的,使得该组合在数据中存在时可以揭示对应个体的身份,或者该组合可以用包含对应个体的姓名的外部公开可用数据集中的记录(例如,投票人登记列表、十年生记录、美国人口普查等)来链接到对应个体的身份。例如,对于大部分美国人口,出生日期、性别和五位数的邮政编码的组合是唯一的。
18.本发明的实施例提供了一种用于话音记录的话音去识别和内容去识别的方法和系统,其保护传送记录在话音记录中的语音的讲话者的个人身份以及包括在语音的文本内容中的隐私敏感个人信息。
19.发表讲话的讲话者产生人类话音,所述人类话音携带指示讲话者的隐私敏感个人信息的语音信号。例如,讲话者的话音的音色通常携带讲话者的大多数个人身份信息。由于没有两个个体听起来相同,所以通过将讲话者的声道系统的一个或多个生理特征和/或人声的一个或多个行为特征(例如,节奏、语调、词汇、口音、发音、说话风格等)组合为该个体的唯一生物测定模式(即,签名),可以将个体的人声用作该个体的标识符。
20.随着近来自动讲话者验证(asv)系统的无所不在的增长,有效地保护语音数据中讲话者的个人身份已经变得必要。此外,由于语音可以包括本质上高度敏感的内容,因此保护内容的隐私保护措施对于遵守现有的数据隐私法律是必要的。例如,包括音频临床数据(例如,包括在电子健康记录(ehr)中的临床医生的话音记录,以及记录临床医生与患者的相遇)的语音数据包含关于患者的隐私敏感个人信息,诸如受保护健康信息(phi);在与一个或多个第三方共享数据以供二次使用(例如,共享以支持医学研究)之前,这样的数据必须经历去识别。
21.用于讲话者去识别的传统解决方案利用语音变换(vt),一种修改口头话语的原始的、非语言学特性以使讲话者的语音匿名而不影响语音内容的技术。具体地,vt通过以下步
骤修改讲话者的语音:(1)涉及修改讲话者的话音的时间尺度、音高和/或能量的源修改,(2)涉及修改所述讲话者的话音的音色(即,量值响应)的滤波器修改,或(3)源修改与滤波器修改的组合。
22.语音转换是vt的特殊形式,其涉及将讲话者的话音(即,源讲话者的话音)的特性映射到另一个个体的话音(即,目标讲话者的话音)的特性。源讲话者可以利用话音转换来模仿/模拟目标讲话者的话音。话音转换需要使用相同语料库的源讲话者和目标讲话者两者产生相同文本的口头话语以用于训练目的。
23.本发明的实施例提供了一种用于讲话者去识别的方法和系统,其利用对用于asv的语音数据进行操作的现有技术特征向量提取方法,以构造或创建用于不同个体的讲话者身份,同时提供数据隐私保证。在一个实施例中,通过匿名化文本内容来控制语音数据的文本内容,从而保护隐私。本发明的实施例提供了一种新颖的方法,其组合讲话者去识别和文本内容去识别,以既隐藏讲话者的身份又匿名化语音的文本内容,同时提供现有技术的数据隐私保证。该方法可以在真实世界应用的广泛范围中使用,以有效地和可证明地匿名化语音数据和话音记录,并且促进对所得到的匿名化语音数据和话音记录的二次使用。
24.应当理解,尽管本公开包括关于云计算的详细描述,但是本文所陈述的教导的实现不限于云计算环境。相反,本发明的实施例能够结合现在已知或以后开发的任何其它类型的计算环境来实现。
25.云计算是服务交付的模型,用于使得能够方便地、按需地网络访问可配置计算资源(例如,网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池,所述可配置计算资源可以以最小的管理努力或与服务的提供商的交互来快速供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。
26.特性如下:按需自助服务:云消费者可以单方面地根据需要自动地提供计算能力,诸如服务器时间和网络存储,而不需要与服务的提供者的人类交互。广泛的网络接入:能力可通过网络获得并且通过标准机制接入,该标准机制促进异构瘦客户机平台或厚客户机平台(例如,移动电话、膝上型计算机和pda)的使用。资源池:提供者的计算资源被池化以使用多租户模型来服务于多个消费者,其中不同的物理和虚拟资源根据需要动态地指派和重新指派。存在位置独立性的感觉,因为消费者通常不具有对所提供的资源的确切位置的控制或了解,但可能能够以较高抽象级别(例如,国家、州或数据中心)指定位置。快速弹性:能够快速和弹性地提供能力,在一些情况下自动地快速缩小和快速释放以快速放大。对于消费者而言,可用于供应的能力通常显得不受限制并且可以在任何时间以任何数量购买。测量的服务:云系统通过在适合于服务类型(例如,存储、处理、带宽和活动用户账户)的某个抽象级别处利用计量能力来自动控制和优化资源使用。可以监视、控制和报告资源使用,为所利用的服务的提供者和消费者提供透明度。
27.服务模型如下:软件即服务(saas):提供给消费者的能力是使用在云基础设施上运行的提供者的应用。可通过诸如web浏览器(例如,基于web的电子邮件)之类的瘦客户端接口从不同客户
端设备访问应用。消费者不管理或控制包括网络、服务器、操作系统、存储或甚至单独的应用能力的底层云基础设施,可能的例外是有限的用户特定应用配置设置。平台即服务(paas):提供给消费者的能力是将消费者创建的或获取的使用由提供商支持的编程语言和工具创建的应用部署到云基础设施上。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础设施,但是对所部署的应用和可能的应用托管环境配置具有控制。基础设施即服务(iaas):提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其他基本计算资源,所述软件可以包括操作系统和应用。消费者不管理或控制底层云基础设施,而是具有对操作系统、存储、所部署的应用的控制以及对所选联网组件(例如,主机防火墙)的可能受限的控制。
28.部署模型如下:私有云:云基础架构仅为组织运作。它可以由组织或第三方管理,并且可以存在于场所内或场所外。社区云:云基础架构被若干组织共享并支持共享了关注(例如,任务、安全要求、策略、和合规性考虑)的特定社区。它可以由组织或第三方管理,并且可以存在于场所内或场所外。公共云:使云基础架构对公众或大型行业组可用,并且由出售云服务的组织拥有。混合云:云基础架构是两个或更多个云(私有、社区或公共)的组合,这些云保持唯一实体但通过使数据和应用能够移植的标准化或专有技术(例如,云突发以用于云之间的负载平衡)绑定在一起。
29.云计算环境是面向服务的,集中于无状态、低耦合、模块化和语义互操作性。云计算的核心是包括互连节点网络的基础设施。
30.图1示出了根据本发明实施例的云计算环境50。如图所示,在一个实施例中,云计算环境50包括云消费者使用的本地计算设备与其通信的一个或多个云计算节点10,本地计算设备例如个人数字助理(pda)或蜂窝电话54a、台式计算机54b、膝上型计算机54c和/或汽车计算机系统54n。在一个实施例中,节点10彼此通信。在一个实施例中,它们被物理地或虚拟地分组(未示出)在一个或多个网络中,诸如如上文描述的私有云、社区云、公共云或混合云或其组合。这允许云计算环境50提供基础设施、平台和/或软件作为服务,云消费者不需要为其维护本地计算设备上的资源。应当理解,图1中所示的计算设备54a-n的类型仅旨在说明,并且计算节点10和云计算环境50可以通过任何类型的网络和/或网络可寻址连接(例如,使用web浏览器)与任何类型的计算机化设备通信。
31.图2示出了根据本发明实施例的由云计算环境50提供的一组功能抽象层。应当预先理解,图2中所示的组件、层和功能仅旨在说明,并且本发明的实施例不限于此。如所描绘的,提供了以下层和相应的功能:
32.硬件和软件层60包括硬件和软件组件。硬件组件的示例包括:主机61;基于risc(精简指令集计算机)架构的服务器62;服务器63;刀片服务器64;存储装置65;以及网络和网络组件66。在一些实施例中,软件组件包括网络应用服务器软件67和数据库软件68。
33.在一个实施例中,虚拟化层70提供抽象层,从该抽象层提供虚拟实体的以下示例:虚拟服务器71;虚拟存储器72;虚拟网络73,包括虚拟专用网络;虚拟应用和操作系统74;以
及虚拟客户机75。
34.在一个示例中,管理层80可以提供以下描述的功能。资源供应81提供用于在云计算环境内执行任务的计算资源和其他资源的动态采购。计量和定价82在云计算环境内利用资源时提供成本跟踪,并为这些资源的消费开账单或发票。在一个示例中,这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证,以及为数据和其他资源提供保护。用户门户83为消费者和系统管理员提供对云计算环境的访问。服务水平管理84提供云计算资源分配和管理,使得满足所需的服务水平。服务水平协议(sla)规划和履行85提供根据sla预期未来需求的云计算资源的预安排和采购。
35.在一个实施例中,工作负载层90提供可以利用云计算环境的功能的示例。在一个实施例中,可以从该层提供的工作负载和功能的示例包括:绘图和导航91;软件开发和生命周期管理92;虚拟教室教育交付93;数据分析处理94;交易处理95;以及讲话者身份和内容去标识96(例如,讲话者身份和内容去标识系统330,如本文稍后详细描述的)。
36.图3示出了根据本发明实施例的用于实现讲话者身份和内容去标识的示例计算架构300。在一个实施例中,计算架构300是集中式计算架构。在另一实施例中,计算架构300是分布式计算架构。
37.在一个实施例中,计算架构300包括计算资源,诸如但不限于一个或多个处理器单元310和一个或多个存储单元320。一个或多个应用程序可以利用计算架构300的计算资源在计算架构300上执行/操作。在一个实施例中,计算架构300上的应用程序包括但不限于被配置用于讲话者身份和内容去识别的讲话者身份和内容去识别系统330。
38.如本文稍后详细描述的,在一个实施例中,系统330被配置为接收包括一组讲话者的一组话音记录的数据集(例如,语音数据的集合),其中话音记录的文本内容包括关于一组个体的隐私敏感个人信息。系统330被配置为将讲话者去识别和内容去识别应用于至少一个话音记录以隐藏至少一个讲话者的身份(即,个人身份)并且匿名化关于至少一个个体的隐私敏感个人信息,从而产生至少一个去识别话音记录,从该至少一个去识别话音记录不能推断至少一个讲话者的身份和关于至少一个个体的隐私敏感个人信息。每个产生的去识别的话音记录可以与一个或多个第三方共享以用于二次使用(例如,共享以支持医学研究)。
39.例如,在一个实施例中,数据集是音频临床数据,其包括ehr中包括的临床医生的话音记录并且记录临床医生与患者的相遇,其中话音记录的文本内容包含关于患者的phi。系统330提取音频临床数据的子集(即,提取一个或多个话音记录),并且对所提取的子集进行去识别(即,将讲话者身份和内容去识别应用于所提取的话音记录)以隐藏临床医生的身份并且使关于患者的phi匿名。由于不能从所得到的去识别提取的子集(即,所得到的去识别的话音记录)推断关于患者的隐私敏感个人信息(例如,phi),因此,可以与一个或多个第三方共享去识别的提取的子集以支持医学研究。
40.在一个实施例中,系统330被并入/集成到云计算环境(例如,ibm等)中。
41.在一个实施例中,讲话者身份和内容去识别系统330被配置为通过连接(例如,诸如wi-fi连接或蜂窝数据连接的无线连接、有线连接或两者的组合)与一个或多个电子设备350和/或一个或多个远程服务器设备360交换数据。
42.在一个实施例中,电子设备350包括一个或多个计算资源,诸如但不限于一个或多
个处理器单元351和一个或多个存储单元352。一个或多个应用程序可以利用电子设备350的一个或多个计算资源在电子设备350上执行/操作,例如但不限于加载到或下载到电子设备350的一个或多个软件应用程序354。软件应用程序354的示例包括但不限于人工智能(ai)应用、大数据分析应用等。
43.电子设备350的示例包括但不限于台式计算机、移动电子设备(例如,平板电脑、智能电话、膝上型计算机等)、可穿戴设备(例如,智能手表等)、物联网(iot)设备、诸如智能电视之类的智能电器等。
44.在一个实施例中,电子设备350包括集成在或耦合到电子设备350的一个或多个输入/输出(i/o)单元353,诸如键盘、小键盘、触摸接口、显示屏等。用户可以利用电子设备350的i/o单元353来配置一个或多个用户偏好、配置一个或多个参数(例如,阈值、边界等)、提供输入(例如,请求)等。
45.在一个实施例中,电子设备350和/或远程服务器设备360可以是提供用于讲话者身份和内容去识别的数据集的数据源。
46.在一个实施例中,讲话者身份和内容去标识系统330可以由托管在远程服务器设备360上的一个或多个在线服务(例如,ai服务、大数据分析服务、数据处理服务)和/或在电子设备350上操作的一个或多个软件应用程序354(例如,ai应用、大数据分析应用、数据处理应用)访问或利用。
47.图4示出了根据本发明实施例的示例性讲话者身份和内容去识别系统330。在一个实施例中,系统330包括输入单元400,其被配置成接收包括语音数据集合的数据集。在一个实施例中,语音数据的集合包括r个话音记录,其中r是正整数。r个话音记录为s个讲话者发出的语音的原始话音记录,其中s为正整数。具体地,对于s个讲话者中的每一个,r个话音记录包括由讲话者传送的至少一个语音的至少一个对应的话音记录。由s个讲话者发出的语音的文本内容包括关于(即,有关或涉及)p个个体的隐私敏感个人信息,例如phi或其它个人可识别信息(pii),其中p是正整数。
48.在一个实施例中,系统330包括特征提取单元410。对于s个讲话者中的每一个,特征提取单元410被配置为基于与讲话者相对应的(r个话音记录中的)至少一个话音记录来生成对应的特征向量。具体地,在一个实施例中,特征提取单元410被配置为:(1)对于r个话音记录中的每一个,从话音记录中提取语言和讲话者身份特征(即,从话音记录中记录的语音中提取特征),以及(2)对于s个讲话者中的每一个,基于从与讲话者相对应的所有话音记录中提取的语言和讲话者身份特征来生成对应的特征向量。例如,如果r个话音记录包括均对应于同一讲话者的两个话音记录,则特征提取单元410基于从两个话音记录中记录的语音中提取的语言学特征和讲话者身份特征来生成对应于讲话者的特征向量。
49.从对应于讲话者的话音记录中提取的语言学和讲话者身份特征的例子包括但不限于讲话者的话音声道系统的一个或多个生理特征(例如声带、声道形状、音色、音调等)、讲话者话音的一个或多个行为特征(例如节奏、语调、词汇、口音、发音、说话风格等)。
50.在一个实施例中,特征提取单元410通过基于从与讲话者相对应的所有话音记录中提取的语言学和讲话者身份特征训练特征向量来生成与讲话者相对应的特征向量。
51.在一个实施例中,特征提取单元410利用特征向量提取方法,例如但不限于x向量、i向量等。在另一实施例中,特征提取单元410利用傅立叶或快速傅立叶变换(fft)来分解s
个讲话者的独特音调并分离s个讲话者的声纹。唯一的讲话者可以被分成单独的语音文件以供处理。
52.在一个实施例中,由特征提取单元410生成的所有特征向量被维护在数据库中(例如,在存储单元320上)。
53.在一个实施例中,系统330包括文本内容提取单元420。对于r个话音记录中的每一个,文本内容提取单元420被配置为从话音记录识别并提取文本内容(即,文字记录(transcript))(即,从话音记录中记录的语音提取文本内容),其中文本内容包括由话音记录对应的(以及传送语音的)讲话者讲出或说出的单词(或术语)。在一个实施例中,文本内容提取单元420利用语音识别方法或引擎从话音记录中识别并提取文本内容,所述语音识别方法或引擎例如但不限于speech to text,temi,transcribe等。
54.在一个实施例中,对于r个话音记录中的每一个,文本内容提取单元420可选地配置为基于从话音记录识别和提取的文本内容来生成对应的注释文本,其中注释文本是提供话音记录的语音波形与话音记录对应的讲话者所说出或发出的单词(或术语)之间的映射的注释。
55.在一个实施例中,文本内容提取单元420被配置成将话音记录的语音波形与从话音记录中识别和提取的文本内容的片段(即,部分)链接,其中该片段包括关于p个个体之一的隐私敏感个人信息(例如,phi或其他pii)。在一个实施例中,在完成话音记录的讲话者身份和内容去识别之前,对片段进行预过滤以使片段模糊。在一个实施例中,标记或标注语音波形以将话音记录识别为r个话音记录中的一个,所述话音记录在不进行检查的情况下不能被发布或公开给第三方以供二次使用(例如,话音记录在发布之前必须经历讲话者身份和内容去识别)。
56.在一个实施例中,系统330包括掩蔽和标记单元430。对于r个话音记录中的每一个,掩蔽和标记单元430被配置为通过识别和处理包含在从话音记录识别和提取的文本内容中的隐私敏感个人信息(例如,phi或其他pii)来生成对应的处理后文本内容。具体地,对于r个话音记录中的每一个,掩蔽和标记单元430被配置为:(1)接收从话音记录(例如,从所述文本内容提取单元420)识别和提取的文本内容,(2)利用至少一个自然语言处理(nlp)注释器解析所述文本内容,以识别(即,找到)所述文本内容中的至少一个直接标识符和/或至少一个准标识符,以及(3)基于所述标识符的类型处理所述文本内容中识别的每个标识符(即,直接标识符和/或准标识符),从而产生对应于所述话音记录的处理后的文本内容。
57.为了说明的目的,术语“pii单词”通常指文本内容中的单词(或术语),其是直接标识符或准标识符。为了说明的目的,术语“非pii单词”通常是指文本内容中既不是直接标识符也不是准标识符的单词(或术语)。非pii单词不能被链接到个体的个人身份。
58.在一个实施例中,掩蔽和标记单元430通过用基于直接标识符的类型的掩蔽值(即,替换值)掩蔽(即,替换)文本内容中的直接标识符来处理文本内容中识别的直接标识符。例如,在一个实施例中,如果在文本内容中识别的直接标识符是名称,则掩蔽和标记单元430用随机名称(例如,从词典中提取的、从诸如投票者的登记列表等的公开可用的数据集提取的)或假名(例如,“patient1234”)替换文本内容中的直接标识符。可选地,掩蔽和标记单元430通过抑制文本内容中的直接标识符来处理文本内容中识别的直接标识符。
59.在一个实施例中,掩蔽和标记单元430通过利用基于准标识符的类型(例如,年龄、
性别、日期、邮政编码等)的一个或多个标签来标记准标识符,来处理在文本内容中识别的准标识符。例如,在一个实施例中,如果在文本内容中识别的准标识符是年龄,则掩蔽和标记单元430被配置为利用指示准标识符是年龄的一个或多个标签来标记准标识符。
60.在一个实施例中,如果文本内容的片段(即,部分)包含未识别的概念(例如,未被nlp注释器识别)或不可理解的音频,则掩蔽和标记单元430被配置为将该片段注释或标记为“未知”,使得该片段被忽略以供系统330进一步处理。
61.讲话者对单词的选择(即,单词选择)可以是讲话者身份的特征,并且可以揭示讲话者的身份。在一个实施例中,系统330包括单词替换单元440。对于r个话音记录中的每一个,单词替换单元440被配置为用类似的单词替换相应的处理过的文本内容中的一些单词,以保护话音记录所对应的讲话者的单词选择。具体地,对于r个话音记录中的每一个,单词替换单元440被配置为:(1)接收对应于所述话音记录的处理过的文本内容(例如,来自所述掩蔽和标记单元430),(2)选择所述处理过的文本内容中的至少一个单词,所述单词是准标识符单词或非pii单词,以及(3)利用辞典、查找表或词汇数据库(例如,wordnet)用类似的(即,同义的)单词替换每个选择的单词。在一个实施例中,如果处理的文本内容包括医疗术语(例如,语音数据是音频临床数据),则单词替换单元440可以用医疗术语映射到的snomed(系统组织的计算机可处理的医疗术语集合)代码或icd-9(国际疾病分类,第九版)代码替换处理的文本内容中的医疗术语。
62.在一个实施例中,对于s个讲话者中的每一个,用作替换的相似词语在对应于同一讲话者的所有经处理的文本内容(即,对应于同一讲话者的所有话音记录的所有经处理的文本内容)中是相同的(即,全局的),从而保护讲话者的身份并且还保留所有经处理的文本内容的效用。例如,在一个实施例中,单词替换单元440可以用相同的相似单词“已发现(dicoverered)”替换所有经处理的文本内容中单词“已发现(found)”的每次出现,并且可以用相同的相似单词“增加(imcreased)”替换所有经处理的文本内容中单词“提升(elevated)”的每次出现(即,在所有经处理的文本内容中使用相同的相似单词)。
63.在一个实施例中,系统330包括文本文档生成单元450。对于p个个体中的每一个,文本文档生成单元450被配置为通过组合对应于同一个个体的所有处理过的文本内容(即,包括关于同一个个体的隐私敏感个人信息的所有处理过的文本内容)来生成对应的文本文档。具体地,在一个实施例中,对于p个个体中的每一个,文本文档生成单元450被配置为:(1)(例如,从掩蔽和标记单元430和/或单词替换单元440)接收对应于同一个个体的所有经处理的文本内容,其中所有经处理的文本内容包括关于已被掩蔽、替换、隐匿和/或标记的个人的隐私敏感个人信息,以及(2)通过将所有经处理的文本内容组合到文本文档中来生成对应的文本文档。
64.在一个实施例中,文本文档生成单元450为p个个体中的每一个生成相应的文本文档,从而产生总共生成的p个文本文档的集合。在一个实施例中,p个文本文档的集合被维护在数据库中(例如,在存储单元320上)。或者,在一个实施例中,文本文档生成单元450仅为具有多个相应的处理过的文本内容的多个个体(即,仅针对多个个体是多个话音记录的主题)生成相应的文本文档。
65.在一个实施例中,如果个体是多个话音记录的主题(即,与多个话音记录相对应的所有经处理的文本内容包括关于个体的隐私敏感个人信息),则文本文档生成单元450被配
置为基于时间戳向量或分类相似性将与多个话音记录相对应的所有经处理的文本内容联合为对应的文本文档。例如,在一个实施例中,所有处理过的文本内容基于指示多个话音记录的时间戳向量按照时间顺序排列在文本文档中。作为另一示例,在一个实施例中,所有经处理的文本内容按分类相似性的次序排列在文本文档中。
66.在一个实施例中,系统330包括内容去识别单元460。对于p个个体中的每一个,内容去识别单元460被配置为:(1)(例如,从文本文档生成单元450)接收对应的文本文档,其中文本文档包括对应于相同个体的所有经处理的文本内容(即,所有经处理的文本内容包括关于已经被掩蔽、替换、隐匿和/或标记的个体的隐私敏感个人信息),以及(2)通过将内容去识别应用于文本文档来生成对应的去识别文本内容。应用的内容去识别将包括在文本文档中的所有经处理的文本内容匿名化到保持所有经处理的文本内容的效用并且不泄露关于个体的任何隐私敏感个人信息的程度。由内容去识别单元460生成的所有去识别文本内容适合于发布给第三方以供二次使用。
67.在一个实施例中,对于p个个体中的每一个,内容去识别单元460被配置为生成对应的去识别文本内容,该去识别文本内容保护kc个其他个体当中的个体不受p个个体的影响,其中kc≤p。这些条件提供了关于个体的原始身份的潜在的(由第三方)重新识别的数据隐私保证。如果相应的去识别文本内容被发布给第三方或被第三方截取,则第三方从去识别文本内容成功识别个体(即推断个体的身份)的概率受限于1/kc。因此,第三方(例如,攻击者)根据去识别文本内容执行对个体的成功重新识别的可能性受限于1/kc。在一个实施例中,kc由数据所有者或去识别专家(例如,经由i/o单元353)设置。在一个实施例中,kc是由数据所有者或去识别专家作为输入提供的去识别风险阈值,并且用于实施所需/必要的隐私保护级别(即,再识别的可能性)。
68.在一个实施例中,由内容去识别单元460应用的内容去识别包括以下步骤:首先,内容去识别单元460解析p个文本文档中的每一个,以产生在文本文档中出现的并且排除了识别的每个pii字(即,经由掩蔽和标记单元430识别的每个直接标识符和/或准标识符)的词语/符号的联合。内容去识别单元460维护项频率列表,该列表包括对于联合的每个术语/符号(token)的指示该术语/符号(token)在p个文本文档中出现(即,出现)的次数的对应频率。
69.其次,内容去识别单元460基于用于直接标识符的至少一个黑名单/词典(例如,从诸如投票者的登记列表的公开可用的数据集提取的名称列表)来选择p个文本文档中的一个或多个不频繁的项以用于删减。在一个实施例中,内容去识别单元460利用至少一个黑名单/字典来确定与在p个文本文档中识别的直接标识符相关联的最大频率f,其中最大频率f被选择为阈值,以用于选择p个文本文档中的不频繁的术语来进行删减。例如,在一个实施例中,内容去识别单元460选择删减具有不超过阈值f的对应频率的联合的所有术语/符号,使得未被选择删减的联合的剩余术语/符号具有超过阈值f的对应频率。
70.对于经选择以用于删减的每个不频繁术语/符号,内容去识别单元460经配置以从p个文本文档中删减(即,过滤掉)所述不频繁术语/符号。
71.内容去识别单元460选择出现在p个文本文档中的唯一术语和低频术语(统称为不频繁术语)用于删减。内容去识别单元460最初假设选择用于删减的每个不频繁术语是pii字。然而,被选择用于删减的不频繁的术语实际上可以是不需要从p个文本文档中删减(即,
过滤掉)的非pii字。第三,为了考虑实际上为非pii字的不频繁术语,内容去识别单元460可选地配置为基于无害术语的至少一个白名单将被选择用于删减的一个或多个不频繁术语恢复到p个文本文档。被选择用于删减但包括在至少一个白名单中的每个不频繁的术语被内容去识别单元460识别为已知的非pii字,并被恢复到p个文本文档。内容去识别单元460可以利用的白名单的示例包括但不限于用于内容去识别的已知白名单、词汇数据库(例如,wordnet)。
72.第四,内容去识别单元460被配置为提取在p个文本文档中识别的每个准标识符,并且基于已知准标识符的列表创建结构化数据(即,结构化表示)的对应记录。已知准标识符的列表标识用于维护一个或多个已知类型的准标识符的一个或多个值的一个或多个结构化表示。例如,如果已知准标识符的列表被定义为{出生日期、性别、5位数邮政编码},则该列表标识用于维护已知类型出生日期的值的第一结构化表示、用于维护已知类型性别的值的第二结构化表示、以及用于维护已知类型5位数邮政编码的值的第三结构化表示。在一个实施例中,基于文本文档所在(即,与其相关)的域中的公开可用的数据集来导出已知准标识符的列表。在另一个实施例中,已知准标识符的列表由数据所有者或去识别专家提供(例如,经由i/o单元353)。
73.具体地,对于已知准标识符列表中所包括的每个已知类型,内容去识别单元460被配置为:(1)定位所述p个文本文档中的包含至少一个准标识符的所有文本文档,所述准标识符用指示所述已知类型的一个或多个标签来标记,以及(2)对于所定位的每个文本文档,创建维护所述已知类型的值的结构化数据的对应记录。例如,如果已知类型是出生日期,并且准标识符是“november 2,1980”,则创建的记录包括以下结构化数据:出生日期=“11/2/1980”。作为另一示例,如果已知类型是性别并且准标识符是“he”,则所创建的记录包括以下结构化数据:性别=“m”。作为又一示例,如果已知类型是邮政编码并且准标识符是“12345”,则所创建的记录包括以下结构化数据:邮政编码=“12345”。
74.在一个实施例中,内容去识别单元460抑制p个文本文档中的每一个准标识符,该p个文本文档中的每一个准标识符被标记有指示未包括在已知准标识符列表中的准标识符类型的一个或多个标签。
75.在一个实施例中,内容去识别单元460支持多个匿名化算法。对于所创建的结构化数据的每个记录,内容去识别单元460被配置为在多个匿名化算法之中选择适当的句法匿名化方法(即,算法)以应用于记录以使记录中维护的至少一个值匿名化,从而导致结构化数据的匿名化记录维护匿名化值。在一个实施例中,对于包括在准标识符列表中的已知类型,内容去识别单元460可选地被配置为对保持已知类型的值的结构化数据的所有记录应用微聚合方法,从而产生保持已知类型的随机值的结构化数据的匿名化记录,其中随机值是在微聚合上计算的。对于p个文本文档中的每一个,内容去识别单元460被配置为将在文本文档中识别的每个准标识符替换为针对已知类型的准标识符的匿名化/随机值,其中匿名化/随机值是从与文本文档相对应的结构化数据的匿名化记录获得的。
76.最后,对于p个个体中的每一个个体,内容去识别单元460被配置为从相应的文本文档中移除在文本文档中识别的每个准标识符被标记的每个标签(例如,移除开始和结束标签),从而产生相应的去识别文本内容。
77.在一个实施例中,系统330包括映射单元470。对于p个个体中的每一个个体,映射
单元470被配置为:(1)(例如,从内容去识别单元460)接收对应的去识别文本内容,以及(2)基于r个话音记录,将去识别文本内容的一个或多个片段映射到s个讲话者的一个或多个讲话者和由一个或多个讲话者传送的一个或多个语音,其中一个或多个语音包括关于个体的隐私敏感个人信息(即,一个或多个语音被记录在个体作为其主题的一个或多个话音记录中)。
78.在一个实施例中,系统330包括合成讲话者身份创建单元480。对于s个讲话者中的每一个,合成讲话者身份创建单元480被配置为将讲话者去标识应用于与讲话者相对应的(r个话音记录中的)每个话音记录。在一个实施例中,对于s个讲话者中的每一个,由合成讲话者身份创建单元480应用的讲话者去识别包括:(1)生成对应的合成讲话者身份,以及(2)对于与所述讲话者对应的(所述r个话音记录中的)每个话音记录,基于所述合成讲话者身份合成新语音波形以传送映射到所述讲话者和由所述讲话者传送的(并且记录在所述话音记录中的)语音两者的去识别文本内容。新语音波形听起来与对应于讲话者的每个话音录音的语音波形非常不同。在一个实施例中,如果去识别文本内容包括一个或多个抑制值,则每个抑制值被表达/产生为或转换为新语音波形中的嘟嘟声。嘟嘟声可以通知新语音波形的收听者存在一个或多个丢失的单词。
79.在一个实施例中,对于s个讲话者中的每一个,合成讲话者身份创建单元480被配置为生成满足以下条件的对应的合成讲话者身份:(1)合成讲话者身份保护ks个其他讲话者中的讲话者不受s个讲话者的影响,其中ks≤s,,并且(2)合成讲话者身份远离讲话者的原始讲话者身份(即,使用合成讲话者身份合成的新语音波形听起来与对应于讲话者的每个话音记录的语音波形非常不同)。这些条件提供了对讲话者的原始讲话者身份的潜在重新识别(由第三方)的数据隐私保证。如果包括使用合成讲话者身份合成的新语音波形的去识别话音记录被发布给第三方或被第三方截取,则第三方从去识别话音记录成功识别讲话者(即,推断讲话者的原始讲话者身份)的概率受限于1/ks。因此,第三方(例如,攻击者)从去识别话音记录中执行对讲话者的成功重新识别的可能性受限于1/ks。在一个实施例中,ks由数据所有者或去识别专家(例如,经由i/o单元353)设置。在一个实施例中,ks是由数据所有者或去识别专家作为输入提供的去识别风险阈值,并且用于实施所需/必要的隐私保护级别(即,再识别的可能性)。
80.在一个实施例中,合成讲话者身份创建单元480通过基于向量相似性度量/量度(例如欧几里得距离或余弦相似性度量)聚类对应于每个s讲话者的每个特征向量(经由特征提取单元410提取)来将s个讲话者聚类为多个聚类(即,组),其中每个得到的聚类包括对应于来自s个讲话者的至少ks个相似讲话者的特征向量。对于s个讲话者中的每一个,合成讲话者身份创建单元480被配置为通过以下操作来生成对应的合成讲话者身份:选择与包括对应于该讲话者的特征向量的另一聚类(即,源聚类)尽可能远的聚类(即,目标聚类)(即,包括在所选聚类声音中的所有特征向量的语音波形与对应于该讲话者的每个录音的语音波形非常不同),(2)对包括在所选聚类中的所有特征向量的讲话者身份特征(即,语音波形)应用聚合函数,以及(3)基于所得到的聚合的讲话者身份特征生成合成讲话者身份。包括在所选聚类中的特征向量与对应于讲话者的特征向量的不相似程度满足隐私保护的所需/必要级别。
81.在一个实施例中,系统330包括输出单元490。对于r个原始话音记录中的每一个,
输出单元490被配置为向第三方发布对应的去识别话音记录以供二次使用,其中去识别话音记录包括合成的语音波形,该合成的语音波形传送映射到与原始话音记录相对应的讲话者和由讲话者传送并且记录在原始话音记录中的语音二者的去识别文本内容。输出单元490仅发布去识别信息,即去识别话音记录和去识别文本内容。输出单元490不发布原始话音记录或从原始话音记录识别和提取的原始文本内容。
82.在一个示例应用场景中,假设r=10、s=6和p=20,r个话音记录总共包括10个话音记录,即话音记录1、话音记录2、
…
和话音记录10,s个讲话者总共包括6个讲话者,即讲话者1、讲话者2、
…
和讲话者6,p个个体总共包括20个个体,即个体1、个体2、
…
和个体20,在一个实施例中,对于6个讲话者中的每一个,特征提取单元410基于从与讲话者相对应的(十个话音记录的)所有话音记录提取的所有语言和讲话者身份特征来生成对应的特征向量,并将该特征向量保持在数据库中(例如,在存储单元320上)。
83.假设系统330经由输入单元400接收请求,以将讲话者去识别和内容去识别应用于十个话音记录中的三(3)个给定话音记录。假定三个给定的话音记录对应于六个讲话者中的两个特定讲话者,并且从三个话音记录中识别和提取的文本内容包括关于二十个体中的三个特定个体的隐私敏感个人信息。
84.下面的表1提供了由文本内容提取单元420从三个给定的话音记录中识别和提取的示例文字记录。表1表1
85.如表1所示,三个给定的话音记录包括:(1)对应于讲话者1的话音记录1,其是美国马里州的临床医生carmen dudley,其中从话音记录1识别和提取的文字记录包括关于作为患者的个体jane alan的隐私敏感个人信息(例如,phi或其他pii),(2)对应于讲话者1(即,美国马里州的临床医生carmen dudley)的话音记录2,其中从话音记录2识别和提取的文字记录包括关于作为患者的个体ted borret先生的隐私敏感个人信息,以及(3)对应于讲话者2的话音记录3,其是美国马里州的临床医生veep bob,其中从话音记录3识别和提取的文
字记录包括关于作为患者的个体cathietrian的隐私敏感个人信息。
86.图5示出了根据本发明实施例的提供话音记录的语音波形和话音记录所对应的讲话者所讲的单词之间的映射的示例注释。具体地,注释提供了话音记录1的语音波形与从话音记录1识别和提取的文字记录之间的映射(参见表1)。注释由文本内容提取单元420生成。
87.下面的表2提供了由掩蔽和标记单元430在表1的文字记录中识别的示例性直接标识符和准标识符。作为参考,由掩蔽和标记单元430识别的每个直接标识符用下划线的粗体示出,并且由掩蔽和标记单元430识别的每个准标识符用指示准标识符的类型的标签的粗体示出。表2
88.如表2所示,文字记录中的名字被识别为直接标识符(例如,名字“jane alan”、“becket”、“ted borret”、“cathie trian”和“boris”以加下划线的粗体显示)。如表2中进一步所示,文字记录中指示特定年龄、特定性别、特定日期、特定诊断或特定程序的一个或多个单词(或术语)被识别为准标识符(例如,从话音记录3识别和提取的文字记录中的日期“august 14,2013”用开始标签《date》和结束标签《/date》标记)。
89.如表2进一步所示,应用于文字记录的一个或多个nlp注释器不能识别文本中的所有直接标识符和/或所有准标识符。例如,直接标识符“id43729”和“id53265”以及类似“crohn’s disease”的准标识符不被nlp注释器识别。系统330被配置成隐藏文本中不被nlp注释器识别的直接标识符和准标识符(例如,“id
…”
)。例如,内容去识别单元460选择在文字记录中出现的唯一术语和低频术语(例如“id
…”
)用于删减(参见下面的表4)。
90.下面的表3提供了掩蔽和标记单元430用来替换在表2的文字记录中识别的直接标识符的示例掩蔽值,并且还提供了单词替换单元440用来替换在表2的文本中的一些单词的
示例性类似单词。作为参考,每个掩蔽值用加下划线的粗体表示,每个相似的单词用粗体和斜体表示。表3
91.如表3所示,在表2的文字记录中识别为直接标识符的名字“jane alan”、“becket”、“ted borret”、“catie trian”和“boris”分别用掩蔽值“mary quinn”、“capeman”、“albert somaya”、“ted burner”和“rott”代替。如表3中进一步所示,在表2的文字记录中的单词“presented”、“instructed”、“experienced”和“elevated”的每次出现分别用类似的单词“came”、“asked”、“had”和“increased”代替。
92.下面的表4提供了由内容去识别单元460产生的术语/符号的示例性合集。作为参考,由内容去识别单元460选择用于删减的每个不常见的术语/标记被示出为具有删除线。表4
93.下面的表5提供了被选择用于删减但是随后被内容去识别单元460识别为无害的并且恢复的示例性不常见的术语/符号。作为参考,随后被内容去识别单元460识别为无害
的并恢复的每个不常见的术语/符号以粗体示出。表5
94.如表5所示,被选择用于删减的不常见的术语“care”、“department”、“evaluate”、“found”、“had”、“found”、“given”、“history”、“no”、“of”、“prescription”、“came”、“went”、“were”、“who”和“instructed”(参见表4)随后被识别为无害的和可恢复的。
95.让plq一般表示已知准标识符的列表。在一个示例中,假设plq根据以下提供的列表(1)来表示:plq={{年龄,性别},{日期},{诊断}}(1),其中plq包括以下元素:表示用于维护已知类型的准标识符年龄和性别的值的第一结构化表示{年龄,性别}的第一元素(“plq元素1”),(2)表示用于维护已知类型日期的值的第二结构化表示{日期}的第二元素(“plq元素2”),以及(3)表示用于维护已知类型诊断的值的第三结构化表示{诊断}的第三元素(“plq元素3”)。
96.下面的表6提供了由内容去识别单元从表2的文字记录中提取的示例性准标识符。作为参考,由内容去识别单元460在文字记录中抑制的每个准标识符被示为带有删除线。表6
97.如表6所示,提取的每个准标识符用指示plq中包括的已知类型的标签标记。由于操作不是plq中所包括的已知类型,所以用指示操作在文字记录中被抑制的标签标记的准标识符“腹腔镜肾部分切除术”。
98.以下表7提供了由内容去识别单元460根据plq元素1创建的结构化数据的示例记录。表7
99.如表7所示,所创建的每个记录具有指示文字记录的相应标识符(id),从该文字记录中提取该记录保持其原始值的准标识符。用指示已知类型年龄或性别的标签来标记准标识符。
100.如下表8提供了由内容去识别单元460根据plq元素2创建的结构化数据的示例记录。表8
101.如表8所示,所创建的每个记录具有指示文字记录的相应id,从该文字记录提取该记录保持其原始值的准标识符。准标识符用指示已知类型日期的标签来标记。
102.如下表9提供了由内容去识别单元460根据plq元素3创建的结构化数据的示例记录。表9
103.如表9所示,所创建的每个记录具有指示文字记录的相应id,从该文字记录提取该记录保持其原始值的准标识符。准标识符用指示已知类型诊断的标签来标记。
104.假设kc=2。在一个实施例中,对于每个个体(即患者)jane alan、ted borret和cathietrian,内容去识别单元460被配置为生成相应的去识别文本内容,使得第三方(例如攻击者)根据去识别文本内容对个体执行成功的去识别的可能性受限于1/2。
105.下面的表10提供了由内容去识别单元460将关系2-匿名性应用于表7的记录以将记录中维护的原始值匿名化为广义值而产生的结构化数据的示例匿名化记录。作为参考,由内容去识别单元460抑制的原始值被示出为星号(*)。表10
106.下面的表11提供了由内容去识别单元460将序列2-匿名化(保序)应用于表8的记录以将记录中维护的原始值匿名化为广义值而产生的结构化数据的示例匿名化记录。表11
107.以下表12提供了由内容去识别单元460将集合2匿名化应用于表9的记录以将记录中维护的原始值匿名化为广义值而产生的结构化数据的示例匿名化记录。作为参考,由内容去识别单元460抑制的原始值被示出为星号(*)。dd dd表12
108.下面的表13提供了由内容去识别单元460对表10的记录应用微聚集方法以获得在微聚集上计算的随机值而产生的结构化数据的示例匿名记录。作为参考,每个随机值示于括号中。表13表13
109.下面的表14提供了由内容去识别单元460对表11的记录应用微聚集方法以获得在微聚集上计算的随机值而产生的结构化数据的示例匿名记录。作为参考,每个随机值示于括号中。表14
110.下面的表15提供了由内容去识别单元460对表12的记录应用微聚集方法以获得在
微聚集上计算的随机值而产生的结构化数据的示例匿名记录。作为参考,每个随机值示于括号中。表15
111.如表13-15所示,每个记录的每个随机值是看似合理的替换值,其可以用于替换从中提取准标识符的文字记录中的相应准标识符。每个随机值是从作为应用匿名化算法的结果而产生的广义值中随机选择的。在类属值的情况下,随机值可从一组原始值中随机选择,或从以具有广义值(例如,“头部相关的医疗问题”)的节点为根的子树中随机选择。
112.下面的表16提供了由内容去识别单元460用表13-15的替换值替换在表2的文字记录中识别的一些准标识符并移除准标识符的标签而产生的示例去识别文字记录。作为参考,由内容去识别单元460抑制的原始值被示出为星号(*)。表16表16
113.如表16所示,话音记录1和话音记录2的去识别文字记录被映射到讲话者1(临床医师carmen dudley,m.d.),话音记录3的去识别文字记录被映射到讲话者2(临床医师veep bob,m.d.)。如表16所示,去识别文字记录没有揭示关于个体(即患者)jane alan、ted borret和cathie trian的任何隐私敏感个人信息。
114.图6示出了根据本发明实施例的二维空间中的讲话者的特征向量的示例图形表示。合成讲话者身份创建单元480从数据库获得与六个讲话者中的每一个相对应的每个特征向量,并基于向量相似性度量/量度(例如,欧几里得距离或余弦相似性度量)来对所获得的所有特征向量进行聚类。假设ks=3,合成讲话者身份创建单元480将所获得的所有特征向量聚类为两个单独的聚类,聚类x和聚类y,其中每个聚类包括与三个相似讲话者相对应
的特征向量。如图6所示,聚类x由与讲话者1(临床医生carmen dudley,m.d.)对应的特征向量s-vector-1、与讲话者3对应的特征向量s-vector-3、与讲话者4对应的特征向量s-vector-4构成。聚类y包括对应于讲话者2(临床医生veepbob,m.d.)的特征向量s-vector-2、对应于讲话者5的特征向量s-vector-5、以及对应于讲话者6的特征向量s-vector-6。
115.对于每个聚类,合成讲话者身份创建单元480对包括在聚类中的所有特征向量的讲话者身份特征应用聚合函数,并基于所得到的聚合讲话者身份特征来生成对应于该聚类的合成讲话者身份。在一个实施方式中,合成讲话者身份创建单元480通过计算聚类x中包含的所有特征向量的最小值、最大值和平均值,构建与聚类x对应的合成向量v
x
,进而通过计算聚类y中包含的所有特征向量的最小值、最大值和平均值,构建与聚类y对应的合成向量vy。在另一个实施方式中,合成讲话者身份创建单元480通过从聚类x中包含的所有特征量中随机选择每个讲话者身份特征的值,构建与聚类x对应的合成向量v
x
,进而通过从聚类y中包含的所有特征量中随机选择每个讲话者身份特征的值,构建与聚类y对应的合成向量vy。合成向量v
x
和vy分别表示对应于聚类x和聚类y的合成讲话者身份。
116.由于与讲话者1(临床医生carmen dudley,m.d.)相对应的特征向量s-vector-1被包括在聚类x中,合成讲话者身份创建单元480选择聚类y作为尽可能远离聚类x的聚类,并基于合成向量vy合成新语音波形,以传送话音记录1和话音记录2的去识别文字记录(参见上表16)。由于与讲话者2(临床医生veepbob,m.d.)相对应的特征向量s-vector-2被包括在聚类y中,合成讲话者身份创建单元480选择聚类x作为尽可能远离聚类y的聚类,并且基于合成向量v
x
合成新语音波形,以传送话音记录3的去识别文字记录(参见上表16)。总之,合成讲话者身份创建单元480为两个不同的讲话者(即,临床医生carmen dudley,m.d.和临床医生veepbob.m.d.)创建两个不同的合成讲话者身份(即,合成向量v
x
和vy),它们用于合成新语音波形,以传送三个不同话音记录(即,话音记录1、话音记录2和话音记录3)的去识别文字记录。在一个实施例中,对于两个不同讲话者(即,临床医生carmen dudley,m.d.和临床医生veepbob,m.d.)中的每一个,合成讲话者身份创建单元480被配置为创建相应的合成讲话者身份,使得第三方(例如,攻击者)从使用合成讲话者身份合成的新语音波形中成功地去识别讲话者的可能性受限于1/3。
117.下面的表17提供了示例去识别话音记录,其包括由合成讲话者身份创建单元480使用合成向量v
x
和vy合成的新语音波形。作为参考,由新语音波形传送的去识别文字记录在引号中示出。表17
118.输出单元490将表17的去识别话音记录发布给第三方以供二次使用。如表17所示,去识别话音记录不揭示讲话者1和讲话者2的身份(即临床医生carmen dudley,m.d.和veepbob,m.d.),并且去识别文字记录不揭示关于个体(即患者)jane alan、ted borret和cathe trian的任何隐私敏感个人信息。
119.图7是根据本发明实施例的用于讲话者身份和内容去识别的示例过程700的流程图。过程框701包括接收指示至少一个隐私保护级别的输入,以经由讲话者身份和内容去识别来实施。处理块702包括从由第一讲话者传送并记录在第一话音记录中的第一语音中提取对应于第一讲话者的特征。过程框703包括从第一语音中识别和提取文本内容。过程框704包括解析文本内容以识别对应于第一个体的隐私敏感个人信息。过程框705包括通过对文本内容执行效用保持内容去识别以将隐私敏感个人信息匿名化到满足至少一个隐私保护级别的程度来生成去识别文本内容,其中去识别文本内容隐藏第一个体的个人身份。过程框706包括将去标识文本内容映射到第一讲话者。处理块707包括基于与至少一个其他讲话者相对应的其他特征来生成与第一讲话者相对应的合成讲话者身份,其中与至少一个其他讲话者相对应的其他特征在满足至少一个隐私保护级别的程度上不同于与第一讲话者相对应的特征。处理框708包括基于合成讲话者身份合成新语音波形以传送去识别文本内容,其中新语音波形不同于第一语音的语音波形,并且新语音波形隐藏第一讲话者的个人身份。
120.在一个实施例中,处理框701-708由系统330的一个或多个组件执行。
121.图8是示出了用于实现本发明的一个实施例的信息处理系统800的高级框图。计算机系统包括一个或多个处理器,例如处理器802。处理器802连接到通信基础设施804(例如,通信总线、交换结构或网络)。
122.计算机系统可以包括显示接口806,其转发来自语音通信基础设施804(或来自未示出的帧缓冲器)的图形、文本和其他数据,以便在显示单元808上显示。在一个实施例中,计算机系统还包括主存储器810,优选地是随机存取存储器(ram),并且还包括辅助存储器
812。在一个实施例中,辅助存储器812包括例如硬盘驱动器814和/或可移动存储驱动器816,其表示例如软盘驱动器、磁带驱动器或光盘驱动器。可移动存储驱动器816以本领域普通技术人员公知的方式从可移动存储单元818读取和/或向其写入。可移动存储单元818例如表示软盘、紧致盘、磁带或光盘等,其由可移动存储驱动器816读取和写入。如将理解的,可移动存储单元818包括其中存储有计算机软件和/或数据的计算机可读介质。
123.在替代实施例中,辅助存储器812包括用于允许计算机程序或其它指令被加载到计算机系统中的其它类似装置。这样的装置包括例如可移动存储单元820和接口822。这种装置的例子包括程序包和包接口(例如在视频游戏设备中找到的)、可移动存储器芯片(例如eprom或prom)和相关插座、以及其它可移动存储单元820和接口822,其允许软件和数据从可移动存储单元820传送到计算机系统。
124.在一个实施例中,计算机系统还包括通信接口824。通信接口824允许软件和数据在计算机系统和外部设备之间传输。在一个实施例中,通信接口824的示例包括调制解调器、网络接口(诸如以太网卡)、通信端口、或pcmcia插槽和卡等。在一个实施例中,经由通信接口824传递的软件和数据是信号的形式,这些信号例如是电子、电磁、光或能够由通信接口824接收的其他信号。这些信号经由通信路径(即,信道)826被提供给通信接口824。在一个实施例中,该通信路径826承载信号,并且使用电线或电缆、光纤、电话线、蜂窝电话链路、rf链路和/或其它通信信道来实现。
125.本发明的实施例可以是任何可能的技术细节集成水平的系统、方法和/或计算机程序产品。计算机程序产品可以包括其上具有计算机可读程序指令的计算机可读存储介质(或多个介质),所述计算机可读程序指令用于使处理器执行本发明的实施例的各方面。
126.计算机可读存储媒体可为可保留和存储供指令执行装置使用的指令的有形装置。计算机可读存储媒质可以是,例如但不限于,电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或者上述的任意合适的组合。计算机可读存储媒质的更具体示例的非穷尽列表包括以下各项:便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式紧凑盘只读存储器(cd-rom)、数字通用盘(dvd)、记忆棒、软盘、诸如穿孔卡之类的机械编码设备或具有记录在其上的指令的槽中的凸出结构、以及上述各项的任何合适的组合。如本文所使用的计算机可读存储媒体不应被解释为暂时性信号本身,例如无线电波或其他自由传播的电磁波、通过波导或其他传输媒体传播的电磁波(例如,穿过光纤电缆的光脉冲)或通过电线发射的电信号。
127.本文中所描述的计算机可读程序指令可以经由网络(例如,互联网、局域网、广域网和/或无线网络)从计算机可读存储介质下载到相应的计算/处理设备,或者下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令,并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储媒质中。
128.用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据、或以一种或多种程序设计语言的任何组合编写的源代码或目标代码,这些程序设计语
言包括面向对象的程序设计语言(诸如smalltalk、c++等)和过程程序设计语言(诸如“c”程序设计语言或类似程序设计语言)。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可通过任何类型的网络(包括局域网(lan)或广域网(wan))连接至用户计算机,或者可连接至外部计算机(例如,使用互联网服务提供商通过互联网)。在一些实施例中,包括例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令,以便执行本发明的各方面。
129.下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
130.这些计算机可读程序指令可被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的或多个框中指定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储媒质中,这些指令使得计算机、可编程数据处理装置、和/或其他设备以特定方式工作,从而,其中存储有指令的计算机可读存储媒质包括包含实现流程图和/或框图中的或多个方框中规定的功能/动作的方面的指令的制造品。
131.也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上,使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤,以产生计算机实现的处理,使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图中的或多个方框中规定的功能/动作。
132.附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这点上,流程图或框图中的每个框可以表示指令的模块、段或部分,其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实施方案中,框中所注明的功能可不按图中所注明的次序发生。例如,连续示出的两个框实际上可以作为一个步骤来实现,同时、基本同时、以部分或全部时间重叠的方式执行,或者这些框有时可以以相反的顺序执行,这取决于所涉及的功能。还将注意,框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的专用的基于硬件的系统来实现。
133.从以上描述可以看出,本发明的实施例提供了用于实现本发明的实施例的系统、计算机程序产品和方法。本发明的实施例还提供了用于实现本发明的实施例的非瞬时性计算机可用存储介质。非瞬时性计算机可用存储介质具有计算机可读程序,其中程序在计算机上被处理时使计算机实现本文描述的本发明的实施例的步骤。权利要求中对单数元素的引用不是要表示“一个且仅一个”,除非明确地这样声明,而是表示“一个或多个”。当前已知或以后将为本领域普通技术人员所知的上述示例性实施例的元素的所有结构和功能等同物旨在被本权利要求所包含。本文的权利要求元素不应根据35u.s.c第112节第六段的规定来解释,除非该元素使用短语
“…
装置,用于
…”
或
“…
步骤,用于
…”
来明确地陈述。
134.本文所用的术语仅是为了描述本发明的特定实施例,而不是为了限制。如本文所用,单数形式“一个(a)”、“一个(an)”和“该(the)”旨在也包括复数形式,除非上下文另有明确指示。还将理解,术语“包括(comprises)”和/或“包含(comprising)”在本说明书中使用时,指定所陈述的特征、整数、步骤、操作、元件和/或组件的存在,但不排除一个或多个其它特征、整数、步骤、操作、元件、组件和/或其群组的存在或添加。
135.以下权利要求中的所有装置或步骤加功能元件的对应结构、材料、动作和等同物旨在包括用于与如具体要求保护的其它要求保护的元件组合执行功能的任何结构、材料或动作。
136.已经出于说明的目的给出了本发明的各种实施例的描述,但是其不旨在是穷尽的或限于所公开的实施例。在不背离所描述的实施例的范围和精神的情况下,许多修改和变化对于本领域的普通技术人员将是显而易见的。选择本文所使用的术语以最好地解释实施例的原理、实际应用或对市场上存在的技术改进,或使本领域的其他普通技术人员能够理解本文所公开的实施例。
技术特征:1.一种用于在数据隐私保证下讲话者身份和内容去识别的方法,包括:接收指示需要实施所述讲话者身份和内容去识别的至少一个隐私保护级别的输入;从由第一讲话者传送并且记录在第一话音记录中的第一语音中提取与所述第一讲话者相对应的特征;从所述第一语音中识别并提取文本内容;解析所述文本内容以识别与第一个体相对应的隐私敏感个人信息;通过对所述文本内容执行效用保留内容去识别来生成去识别文本内容,以将隐私敏感个人信息匿名化到满足所述至少一个隐私保护级别的程度,其中所述去识别文本内容隐藏所述第一个体的个人身份;将所述去识别文本内容映射到所述第一讲话者;基于与至少一个其他讲话者相对应的其他特征来生成与所述第一讲话者相对应的合成讲话者身份,其中与所述至少一个其他讲话者相对应的所述其他特征在满足至少一个隐私保护级别的程度上不同于与所述第一讲话者相对应的所述特征;以及基于所述合成讲话者身份合成新语音波形以传送所述去识别文本内容,其中所述新语音波形不同于所述第一语音的语音波形,并且所述新语音波形隐藏所述第一讲话者的个人身份。2.根据权利要求1所述的方法,还包括:通过用至少一个替换值替换所述文本内容中的至少一个单词来处理所述文本内容,其中所述至少一个单词包括所述隐私敏感个人信息的部分。3.根据权利要求1所述的方法,其中与所述至少一个其他讲话者相对应的所述其他特征是从由所述至少一个其他讲话者传送的至少一个其他语音中提取的并且被记录在至少一个其他话音记录中。4.根据权利要求3所述的方法,还包括:接收包括所述第一话音记录和所述至少一个其他话音记录的多个话音记录,其中包括所述第一语音和所述至少一个其他语音的多个语音被记录在所述多个话音记录中,所述多个语音中的每个语音由多个讲话者中的一个讲话者传送,所述多个讲话者包括所述第一讲话者和所述至少一个其他讲话者,所述多个语音中的每个语音的文本内容包括与多个个体中的至少一个个体相对应的隐私敏感个人信息,并且所述多个个体包括所述第一个体。5.根据权利要求4所述的方法,还包括:对于所述多个话音记录中的每个话音记录,从所述话音记录中记录的语音提取特征;以及对于所述多个讲话者中的每个讲话者,基于从由所述讲话者传送的所述多个语音中的至少一个语音提取的特征来生成对应的特征向量。6.根据权利要求5所述的方法,还包括:对于所述多个话音记录中的每个话音记录:从记录在所述话音记录中的语音识别并提取文本内容;以及通过对所述文本内容应用至少一个自然语言处理(nlp)注释器来解析所述文本内容,以在所述文本内容中识别与所述多个个体中的至少一个个体相对应的隐私敏感个人信息。7.根据权利要求6所述的方法,其中与每个个体相对应的每个隐私敏感个人信息包括
以下中的至少一项:直接标识符或准标识符。8.根据权利要求7所述的方法,还包括:对于所述多个话音记录中的每个话音记录:通过掩蔽在所述文本内容中识别的每个直接标识符、标记在所述文本内容中识别的每个准标识符、以及用至少一个相似的单词替换所述文本内容中的至少一个单词,来处理记录在所述话音记录中的语音的文本内容,其中在所述文本内容中替换的每个单词是以下其中之一:准标识符,或者既不是直接标识符也不是准标识符的单词。9.根据权利要求8所述的方法,还包括:对于所述多个个体中的每个个体:将所述多个语音中的至少一个语音的包括对应的隐私敏感个人信息的经处理的文本内容组合成文本文档;通过对所述文本文档执行所述效用保留内容去识别来生成对应的去识别文本内容,以将所述对应的隐私敏感个人信息匿名化到满足所述至少一个隐私保护级别的程度,其中所述对应的去识别文本内容不泄露所述对应的隐私敏感个人信息;以及将所述对应的去识别文本内容的一个或多个片段映射到所述多个讲话者中的至少一个,其中由所述至少一个讲话者传送的所述多个语音中的至少一个语音的文本内容包括所述对应的隐私敏感个人信息。10.根据权利要求9所述的方法,还包括:对于所述多个讲话者中的每个讲话者:基于与所述多个讲话者中的至少一个其他讲话者相对应的至少一个特征向量来生成对应的合成讲话者身份,其中与所述至少一个其他讲话者相对应的所述至少一个特征向量在满足所述至少一个隐私保护级别的程度上不同于与所述讲话者相对应的特征向量;以及对于由所述讲话者传送并且记录在所述多个话音记录中的一个话音记录中的所述多个语音中的每个语音,基于所述对应的合成讲话者身份来合成对应的新语音波形以传送映射到所述讲话者的去识别文本内容的片段,其中所述对应的新语音波形不同于所述语音的语音波形,并且所述对应的新语音波形不揭示所述讲话者的个人身份。11.根据权利要求10所述的方法,还包括:对于所述多个讲话者中的每个讲话者:向第三方发布对应的去识别话音记录,其中所述对应的去识别话音记录包括基于对应的合成讲话者身份合成的对应的新语音波形。12.一种用于隐私保证下的讲话者身份和内容去识别的系统,包括:至少一个处理器;以及非瞬时性处理器可读存储器装置,其存储指令,所述指令在被执行时由所述至少一个处理器执行使得所述至少一个处理器执行操作,所述操作包括:接收指示需要实施所述讲话者身份和内容再识别的至少一个隐私保护级别的输入;从由第一讲话者传送并且记录在第一话音记录中的第一语音中提取与所述第一讲话者相对应的特征;从所述第一语音中识别并提取文本内容;解析所述文本内容以识别与第一个体相对应的隐私敏感个人信息;
通过对所述文本内容执行效用保留内容去识别来生成去识别文本内容,以将隐私敏感个人信息匿名化到满足所述至少一个隐私保护级别的程度,其中所述去识别文本内容隐藏所述第一个体的个人身份;将所述去识别文本内容映射到所述第一讲话者;基于与至少一个其他讲话者相对应的其他特征来生成与所述第一讲话者相对应的合成讲话者身份,其中与所述至少一个其他讲话者相对应的所述其他特征在满足至少一个隐私保护级别的程度上不同于与所述第一讲话者相对应的所述特征;以及基于所述合成讲话者身份合成新语音波形以传送所述去识别文本内容,其中所述新语音波形不同于所述第一语音的语音波形,并且所述新语音波形隐藏所述第一讲话者的个人身份。13.根据权利要求12所述的系统,其中所述操作还包括:接收包括所述第一话音记录和所述至少一个其他话音记录的多个话音记录,其中包括所述第一语音和所述至少一个其他语音的多个语音被记录在所述多个话音记录中,所述多个语音中的每个语音由多个讲话者中的一个讲话者传送,所述多个讲话者包括所述第一讲话者和所述至少一个其他讲话者,所述多个语音中的每个语音的文本内容包括与多个个体中的至少一个个体相对应的隐私敏感个人信息,并且所述多个个体包括所述第一个体。14.根据权利要求13所述的系统,其中所述操作还包括:对于所述多个话音记录中的每个话音记录,从所述话音记录中记录的语音提取特征;以及对于所述多个讲话者中的每个讲话者,基于从由所述讲话者传送的所述多个语音中的至少一个语音提取的特征来生成对应的特征向量。15.根据权利要求14所述的系统,其中所述操作还包括:对于所述多个话音记录中的每个话音记录:从记录在所述话音记录中的语音识别并提取文本内容;以及通过对所述文本内容应用至少一个自然语言处理(nlp)注释器来解析所述文本内容,以在所述文本内容中识别与所述多个个体中的至少一个个体相对应的隐私敏感个人信息。16.根据权利要求15所述的系统,其中与每个个体相对应的每个隐私敏感个人信息包括以下中的至少一项:直接标识符或准标识符。17.根据权利要求16所述的系统,其中所述操作还包括:对于所述多个话音记录中的每个话音记录:通过掩蔽在所述文本内容中识别的每个直接标识符、标记在所述文本内容中识别的每个准标识符、以及用至少一个相似的单词替换所述文本内容中的至少一个单词,来处理记录在所述话音记录中的语音的文本内容,其中在所述文本内容中替换的每个单词是以下其中之一:准标识符,或者既不是直接标识符也不是准标识符的单词。18.根据权利要求17所述的系统,其中所述操作还包括:对于所述多个个体中的每个个体:将所述多个语音中的至少一个语音的包括对应的隐私敏感个人信息的经处理的文本内容组合成文本文档;通过对所述文本文档执行所述效用保留内容去识别来生成对应的去识别文本内容,以
将所述对应的隐私敏感个人信息匿名化到满足所述至少一个隐私保护级别的程度,其中所述对应的去识别文本内容不泄露所述对应的隐私敏感个人信息;以及将所述对应的去识别文本内容的一个或多个片段映射到所述多个讲话者中的至少一个,其中由所述至少一个讲话者传送的所述多个语音中的至少一个语音的文本内容包括所述对应的隐私敏感个人信息。19.根据权利要求18所述的系统,其中所述操作还包括:对于所述多个讲话者中的每个讲话者:基于与所述多个讲话者中的至少一个其他讲话者相对应的至少一个特征向量来生成对应的合成讲话者身份,其中与所述至少一个其他讲话者相对应的所述至少一个特征向量在满足所述至少一个隐私保护级别的程度上不同于与所述讲话者相对应的特征向量;以及对于由所述讲话者传送并且记录在所述多个话音记录中的一个话音记录中的所述多个语音中的每个语音,基于所述对应的合成讲话者身份来合成对应的新语音波形以传送映射到所述讲话者的去识别文本内容的片段,其中所述对应的新语音波形不同于所述语音的语音波形,并且所述对应的新语音波形不揭示所述讲话者的个人身份。20.一种用于隐私保证下的讲话者身份和内容去标识的计算机程序产品,所述计算机程序产品包括其上包含有程序指令的计算机可读存储介质,所述程序指令可由处理器执行以使所述处理器:接收指示需要实施所述讲话者身份和内容再识别的至少一个隐私保护级别的输入;从由第一讲话者传送并且记录在第一话音记录中的第一语音中提取与所述第一讲话者相对应的特征;从所述第一语音中识别并提取文本内容;解析所述文本内容以识别与第一个体相对应的隐私敏感个人信息;通过对所述文本内容执行效用保留内容去识别来生成去识别文本内容,以将隐私敏感个人信息匿名化到满足所述至少一个隐私保护级别的程度,其中所述去识别文本内容隐藏所述第一个体的个人身份;将所述去识别文本内容映射到所述第一讲话者;基于与至少一个其他讲话者相对应的其他特征来生成与所述第一讲话者相对应的合成讲话者身份,其中与所述至少一个其他讲话者相对应的所述其他特征在满足至少一个隐私保护级别的程度上不同于与所述第一讲话者相对应的所述特征;以及基于所述合成讲话者身份合成新语音波形以传送所述去识别文本内容,其中所述新语音波形不同于所述第一语音的语音波形,并且新语音波形隐藏所述第一讲话者的个人身份。
技术总结本发明的一个实施例提供了一种用于隐私保证下讲话人身份和内容去识别的方法。该方法包括:接收指示要实施的隐私保护级别的输入,从记录在话音记录中的语音提取特征,从所述语音中识别并提取文本内容,解析所述文本内容以识别关于个体的隐私敏感个人信息,通过将所述个人信息匿名化到满足所述隐私保护级别并隐藏个人身份的程度来生成去识别文本内容,以及将所述去识别文本内容映射到传送所述语音的讲话者。该方法还包括基于与特征在满足所述隐私保护级别的程度上不相似的其他特征来生成合成讲话者身份,以及基于所述合成讲话者身份来合成新语音波形以传送所述去识别文本内容。所述新语音波形隐藏了所述讲话者的身份。所述新语音波形隐藏了所述讲话者的身份。所述新语音波形隐藏了所述讲话者的身份。
技术研发人员:A
受保护的技术使用者:国际商业机器公司
技术研发日:2021.04.26
技术公布日:2022/12/2