电话录音的质检方法、装置、设备及介质与流程

专利2022-06-29 125

本申请的实施例涉及计算机领域，特别涉及一种电话录音的质检方法、装置、设备及介质。

背景技术：

电话客服是指通过电话与客户进行沟通交流的一种服务方式，电话客服与客户进行一对一的交谈，解答客户出现的问题，电话客服还能够根据客户提供的信息办理业务，如电话客服可以根据客户提供的手机号码查询该号码的剩余话费。

电话客服质检是指质检人员检测电话客服在与客户进行电话沟通时的服务质量。相关技术中，在电话客服与客户进行电话沟通时会对通话进行录音，质检人员需要在一批通话录音中抽取多次通话录音，质检人员需要回放并听取一次完整的通话录音来检测本次电话客服的服务质量。

基于上述情况，通过人工检测服务质量的方式需要听取大量的通话录音，效率较低。

技术实现要素：

本申请实施例提供了一种电话录音的质检方法、装置、设备及介质，提供了一种将录音质检模型检测到的异常录音片段进行显示的方式，使得质检人员通过在可视化质检界面上的操作快速定位至异常录音片段，提高了质检人员的工作效率。所述技术方案如下：

根据本申请的一个方面，提供了一种电话录音的质检方法，所述方法包括：

获取待质检的电话录音；

将所述电话录音输入至录音质检模型中，识别异常录音片段对应的异常时间段和异常信息；

将所述异常时间段和所述异常信息显示在可视化质检界面上；

响应于所述可视化质检界面上的回放指令，对所述异常录音片段进行回放。

根据本申请的另一方面，提供了一种电话录音的质检装置，所述装置包括：

获取模块，用于获取待质检的电话录音；

录音质检模型，用于对所述电话录音进行质检，识别异常录音片段对应的异常时间段和异常信息；

显示模块，用于将所述异常时间段和所述异常信息显示在可视化质检界面上；

接收模块，用于响应于所述可视化质检界面上的回放指令，对所述异常录音片段进行回放。

根据本申请的另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方面所述的电话录音的质检方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上方面所述的电话录音的质检方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过将第一说话对象与第二说话对象之间的通话录音输入至录音质检模型中，识别异常录音片段对应的是异常时间段和异常信息，将异常录音片段和异常时间段显示在可视化质检界面上，当可视化质检界面接收到回放指令时，可回放对应的异常录音片段，使得质检人员能够对异常录音片段进行快速定位，方便质检人员根据出现异常录音片段的时间段对电话录音进行质量检测，提高了质检人员的检测效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的实施环境的结构框图；

图2是本申请一个示例性实施例提供的电话录音的质检方法的流程图；

图3是本申请另一个示例性实施例提供的电话录音的质检方法的流程图；

图4是本申请一个示例性实施例提供的可视化质检界面的示意图；

图5是本申请另一个示例性实施例提供的可视化质检界面的示意图；

图6是本申请一个示例性实施例提供的结合播放界面的电话录音的质检方法的流程图；

图7是本申请一个示例性实施例提供的含有播放界面的可视化质检界面的示意图；

图8是本申请另一个示例性实施例提供的含有播放界面的可视化质检界面的示意图；

图9是本申请一个示例性实施例提供的基于催收业务的电话录音的质检方法的流程图；

图10是本申请一个示例性实施例提供的电话录音的质检装置的框图；

图11是本申请一个示例性实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1示出了本申请一个示例性实施例提供的电话客服系统的结构框图。该电话客服系统100包括：第一人工坐席120、第二人工坐席160、服务器140、质检终端180、第一接入线路130、第二接入线路150和局域网170。

第一人工坐席120和第二人工坐席170通过局域网170相连，第一人工坐席120对应有第一电话客服，第二人工坐席对应有第二电话客服，人工坐席泛指一个或多个人工坐席。在局域网170上还连接有电话网，电话网用于将第一人工坐席120和第二人工坐席160与第一接入线路130、第二接入线路150进行连接。第一接入线路130对应有第一用户，第二接入线路对应有第二用户。可选地，第一用户通过第一接入线路130与第一人工坐席120相连，或第一用户通过第一接入线路130与第二人工坐席160相连。可选地，第二用户通过第二接入线路150与第一人工坐席120相连，或第二用户通过第二接入线路150与第二人工坐席160相连。接入线路泛指一条或多条线路，本申请实施例以第一接入线路130和第二接入线路150为例进行说明。

第一人工坐席120和第二人工坐席130通过无线网络或有线网络与服务器140相连，质检终端180通过无线网络或有线网络与服务器140相连。

服务器140包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。示意性的，服务器140包括处理器144和存储器142，存储器142又包括获取模块1421、显示模块1422和处理模块1423。服务器140用于为支持检测电话录音的质量的应用程序或平台提供后台服务。获取模块1421用于获取电话录音，显示模块1422用于将可视化质检界面发送至质检终端180，处理模块用于确定异常录音片段和异常信息。可选地，服务器140承担主要计算工作，质检终端180承担次要计算工作；或者，服务器140承担次要计算工作，质检终端180承担主要计算工作；或者，服务器140和质检终端180之间采用分布式计算架构进行协同计算。

可选地，电话客服系统100中包括至少一个质检终端180，每个质检终端180上安装的质检应用程序或运行的质检平台是相同的，或每个终端上安装的应用程序是不同控制系统平台的同一类型应用程序。质检终端180可以泛指多个终端中的一个，本实施例仅以质检终端180来举例说明。上述终端的设备类型相同或不同，该设备类型包括：智能手机、平板电脑、电子书阅读器、mp3播放器、mp4播放器、膝上型便携计算机和台式计算机中、笔记本电脑的至少一种。

本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量。本申请实施例对终端的数量和设备类型不加以限定。

本申请提供了一种电话录音的质检方法，可应用于对通话录音的服务进行质量检测的场景。图2示出了本申请一个示例性实施例提供的电话录音的质检方法的流程图，该方法可应用于如图1所示的电话客服系统中的质检终端180中。该方法包括以下步骤：

步骤201，获取待质检的电话录音。

电话录音是第一说话对象和第二说话对象在通话过程中录制的录音，示意性的，第一说话对象和第二说话对象分别是电话客服与用户。可选地，待质检的电话录音是通过电话客服系统获得的，电话客服系统，又被命名为呼叫中心，将用户的话路接入到电话客服处，或接入到人工坐席上，电话客服系统将电话客服与用户之间的通话进行录音，并记录被接入的用户使用的电话号码、用户需要解决的问题、问题的解决情况、用户对本次电话客服的服务质量的评价等。

可选地，电话客服是线上电商平台的电话客服，或线下企业的电话客服。可选地，电商平台包括购物平台、社交平台、视频平台、音乐平台、教育平台、信息平台、交通平台、出行平台中的至少一种。可选地，线下企业包括物流企业、批发零售企业、住宿餐饮企业、租赁企业、通讯企业、银行、房地产企业中的至少一种。

步骤202，将电话录音输入至录音质检模型中，识别异常录音片段对应的异常时间段和异常信息。

可选地，录音质检模型是对语音具有检测能力的机器学习模型，录音质检模型是一个或多个模型，当录音质检模型是多个模型时，录音质检模型是相同模型，或相同类型的不同模型，或不同模型。

可选地，异常时间段和异常信息是录音质检模型得到的机器质检结果中的一种，异常时间段是敏感词汇(如违禁词语、不文明用语等)及敏感词汇出现时对应的时间段或出现异常情绪对应的时间段。

可选地，电话录音的机器质检结果还包括异常录音片段中说话对象的数、异常录音片段中说话对象对应的异常语音内容(如，异常录音片段是由电话客服产生的，机器质检结果包括电话客服异常语音内容)、情绪评分、说话对象的音量、说话对象的语调、说话对象的语气、服务质量的等级(如服务质量良好)中的至少一种。可选地，录音质检模型提取电话录音中的情感特征参数，情感特征参数是k维向量，情感特征参数是指具有判断语音中带有的情绪的特征对应的参数，情感特征参数包括语调、用词、音量中的至少一项。可选地，录音质检模型将情感特征参数结合语义进行识别，得到电话录音中的情绪信息。情绪信息包括正常情绪和异常情绪，异常情绪是指说话对象通过改变说话时的语气、语调、音量等方面来表达消极的情绪。

示意性的，当电话录音的情绪评分大于5分时(异常阈值是10分)，录音质检模型判定电话录音的服务质量不合格，将电话录音输入至录音质检模型中，得到该电话录音的情绪评分是2分，则录音质检模型判断该电话录音的服务质量合格。

在一个示例中，电话录音是用户与手机运营商的电话客服之间的通话录音，录音内容是用户通过电话客服查询使用的手机号码的剩余话费。将该段录音输入至录音质检模型中，录音质检模型将该段录音分成电话客服对应的录音片段和用户对应的录音片段，如电话客服对应的录音片段包含有“您好，很高兴为您服务”等文明用语对应的语音，用户对应的录音片段包含有“我想查一下手机号码的剩余话费”等询问语气对应的语音。录音质检模型对该段录音中的敏感词汇和情绪进行识别，未发现敏感词汇和异常情绪，该段录音片段的机器质检结果为合格。

可选地，录音质检模型可将机器质检结果存储至数据库中，数据库中存储有敏感词汇和历史异常情绪的评分标准。

可选地，录音质检模型是通过如下方式训练得到的：

s1、获取样本电话录音和样本电话录音的质检结果，样本电话录音由至少一组电话客服与用户之间的电话录音组成，样本电话录音的质检结果包括情绪评分和敏感词汇中的至少一种。

样本电话录音是从多个平台的电话客服系统中获取的，样本电话录音的质检结果是通过人工检测的方式得到的，或通过其他录音质检模型得到的，或通过情绪识别模型得到的，或通过语音转文本模型得到的。

s2、从样本电话录音中提取情感特征参数，情感特征参数包括k个维度的情感特征向量，k为大于零的整数。

示意性的，情感特征参数包括语音、语调、语气、音量中的至少一种。

s3、将情感特征参数输入至初始的录音质检模型中，得到样本电话录音的预测质检结果。

初始的录音质检模型是未经过训练的录音质检模型。示意性的，将样本电话录音输入至初始的录音质检模型中，得到样本电话录音的预测质检结果是样本电话在3分钟处出现了敏感词汇，样本电话在4分至4分05秒处的情绪评分是异常情绪评分。

s4、计算预测质检结果与质检结果的误差。

预测质检结果与质检结果的误差可通过任意误差函数进行计算，如一范数损失函数。

s5、采用误差反向传播算法对初始的录音质检模型进行训练，得到训练后的录音质检模型。

通过误差反向传播算法对录音质检模型进行多次迭代训练，使得录音质检模型对电话录音的检测结果更加准确。

步骤203，将异常时间段和异常信息显示在可视化质检界面上。

根据电话录音的机器质检结果显示可视化质检界面，可视化质检界面包括：异常录音片段对应的异常时间段和异常信息，异常录音片段包括第一说话对象的第一异常录音片段和第二说话对象的第二异常录音片段中的至少一种。示意性的，第一说话对象是电话客服，第二说话对象是用户。

可选地，可视化质检界面是自动产生的界面，或可视化质检界面是通过触发对应控件(如质检控件、复检控件)产生的界面。可选地，可视化质检界面是独立于质检平台的界面，或是质检平台中的界面，可视化质检界面是一个或多个界面。

可选地，可视化质检界面是显示电话录音的机器质检结果和电话录音对应的时间轴的界面。示意性的，电话录音的时长是5分钟，在电话录音的3分至3分05秒出现敏感词汇，可视化质检界面显示有该电话录音在3分至3分05秒录音片段、敏感词汇对应的时刻、产生敏感词汇的说话对象(如产生敏感词汇的说话对象是用户)，则异常录音片段是用户的第二异常录音片段。可选地，异常信息包括异常情绪、敏感词汇和说话对象的信息。可选地，可视化质检界面上显示的异常录音片段对应的异常时间段的单位是小时，或分钟，或秒，或毫秒，或微秒，或它们的组合。可选地，第一异常录音片段和第二异常录音片段在同一时间段内，在同一时间区间内。

步骤204，响应于可视化质检界面上的回放指令，对异常录音片段进行回放。

可选地，可视化质检界面是与用户进行交互的界面。可选地，可视化质检界面显示在终端的显示屏上，终端包括智能手机、平板电脑、台式计算机、笔记本电脑中的至少一种。当终端是智能手机或平板电脑等含有触摸显示屏的终端时，回放指令包括单击操作、双击操作、长按操作、滑动操作、拖动操作中的至少一种操作产生的指令；当终端是台式计算机或笔记本电脑等含有外部设备的终端时，回放指令是通过外部设备产生的指令，如通过键盘上的按键产生的指令，或通过鼠标的单击操作、双击操作、拖动操作、鼠标右键的操作产生的指令。

综上所述，本实施例提供的方法，通过将第一说话对象与第二说话对象之间的通话录音输入至录音质检模型中，识别异常录音片段对应的是异常时间段和异常信息，将异常录音片段和异常时间段显示在可视化质检界面上，当可视化质检界面接收到回放指令时，可回放对应的异常录音片段，使得质检人员能够对异常录音片段进行快速定位，方便质检人员根据出现异常录音片段的时间段对电话录音进行质量检测，提高了质检人员的检测效率。

图3示出了本申请另一个示例性实施例提供的电话录音的质检方法的流程图。该方法可应用于如图1所示的电话客服系统中的质检终端180中。该方法包括以下步骤：

步骤301，获取待质检的电话录音。

步骤301与图2示出的步骤201一致，此处不再赘述。

步骤302a，将电话录音输入至录音质检模型中，识别含有异常情绪评分的录音片段对应的第一时间段和异常情绪评分对应的第一说话对象。

可选地，异常信息包括异常情绪评分，异常情绪评分是录音质检模型对含有异常情绪的录音片段进行检测后获得的评分，该异常情绪评分与异常情绪产生的时刻或时间段一一对应。示意性的，异常情绪评分的分数越高代表该时间段对应的录音片段存在异常情绪的可能性越大，该录音片段是异常录音片段，质检人员需要重点检测异常情绪评分较高的时间段对应的录音片段。可选地，一次电话录音中包括一段或多段异常录音片段，一次电话录音是指一个电话客服与一个用户在一次通话过程中录制的录音。可选地，一段异常录音片段中有一个或多个异常情绪评分，当一次电话录音中包括多段异常录音片段时，多段异常录音片段中的每段异常录音片段的异常情绪评分是相同的或不同的。示意性的，一次电话录音中存在一段录音片段是异常录音片段，该异常录音片段对应的时间段是第一时间段，第一时间段可以是一次电话录音中的任意时间段，该异常录音片段是第一说话对象产生的或第二说话对象产生的。示意性的，该第一说话对象是电话客服，第二说话对象是用户。

录音质检模型将含有异常情绪评分的录音片段对应的时间段确定为第一时间段。示意性的，第一时间段的时长是3秒，或第一时间段的时长是500毫秒。

步骤302b，将电话录音输入至录音质检模型中，识别含有敏感词汇的录音片段对应的第二时间段和敏感词汇对应的第二说话对象。

可选地，异常信息包括敏感词汇。敏感词汇是带有政治倾向、暴力倾向、不健康色彩的词汇。可选地，敏感词汇包括违禁词汇和不文明用语中的至少一种，该敏感词汇与敏感词汇产生的时刻或时间段一一对应。示意性的，在录音片段中含有敏感词汇对应的时间段设置有标记，该标记用于表明该时间段含有敏感词汇，该时间段是异常时间段，且该时间段对应的录音片段是异常录音片段。质检人员需要重点检测带有标记的异常时间段对应的录音片段。可选地，一次电话录音中包括一段或多段的带有敏感词汇的异常录音片段，一段异常录音片段包括一个或多个敏感词汇，当一次电话录音中包括多段异常录音片段时，多段异常录音片段中的每段异常录音片段对应的敏感词汇是相同的或不同的。示意性的，一次电话录音中存在一段录音片段是异常录音片段，该录音片段对应的时间段是第二时间段，第二时间段可以是一次电话录音中的任意时间段，该异常录音片段是第一说话对象产生的或第二说话对象产生的。示意性的，该第一说话对象是用户，第二说话对象是电话客服。

录音质检模型将具有敏感词汇的录音片段对应的时间段确定为第二时间段。示意性的，第二时间段的时长是2秒，或第二时间段的时长是300毫秒。

步骤303，将异常时间段和异常信息显示在可视化质检界面上。

示意性的，可视化质检界面包括以异常录音片段对应的第一时间段为横坐标，异常录音片段对应的异常情绪评分为纵坐标的平面直角坐标系，异常录音片段是第一说话对象产生的。可选地，可视化质检界面包括第一说话对象在一次电话录音中的情绪评分和第一时间段之间的曲线图。

示意性的，可视化质检界面包括以异常录音片段对应的第二时间段为横坐标，异常录音片段对应的敏感词汇标记为纵坐标的平面直角坐标系，异常录音片段是第二说话对象产生的。可选地，可视化质检界面包括第二说话对象在一次电话录音中的敏感词汇标记和第二时间段之间的曲线图。

步骤304，响应于可视化质检界面上的回放指令，从至少一个异常录音片段中选择目标异常录音片段，对目标异常录音片段进行回放。

可选地，可视化质检界面上包括至少一个异常录音片段。

可选地，可视化质检界面显示在终端的显示屏上，终端包括智能手机、平板电脑、台式计算机、笔记本电脑中的至少一种。当终端是智能手机或平板电脑等含有触摸显示屏的终端时，回放指令包括单击操作、双击操作、长按操作、滑动操作、拖动操作中的至少一种操作产生的指令；当终端是台式计算机或笔记本电脑等含有外部设备的终端时，回放指令是通过外部设备产生的指令，如通过键盘上的按键产生的指令，或通过鼠标的单击操作、双击操作、拖动操作、鼠标右键的操作产生的指令。回放指令用于在可视化质检界面上选择目标异常录音片段，目标异常录音片段可以是异常情绪评分较高的录音片段，或含有敏感词汇标记的录音片段，或质检人员想要听取的录音片段。

可选地，质检人员在可视化质检界面上点击目标异常录音片段，在可视化质检界面上直接播放该目标异常录音片段，或者，质检人员在可视化质检界面上点击目标异常录音片段，切换显示目标异常录音片段的播放界面，在该播放界面上直接播放目标异常录音片段，或质检人员在该播放界面上点击后播放目标异常录音片段。

可以理解的是，步骤302a和步骤302b可以分别单独实施，也可以组合实施。

综上所述，本实施例提供的方法，通过录音质检模型检测待质检录音片段，得到录音片段的异常信息(包括异常情绪评分和敏感词汇)、异常信息对应的异常时间段、产生异常信息的说话对象，根据异常录音片段的异常信息、异常时间段和产生异常信息的说话对象显示可视化质检界面。质检人员可在质检界面上根据异常信息选择目标异常时间段，并播放目标异常时间段对应的目标异常录音片段，无需质检人员听取整段电话录音即可判定该电话录音的服务质量是否符合标准，提高了质检人员的质检效率。

图6示出了本申请一个示例性实施例提供的结合播放界面的电话录音的质检方法的流程图。该方法可应用于如图1所示的电话客服系统中的质检终端180中。该方法包括以下步骤：

步骤601，获取待质检的电话录音。

步骤601与图2示出的步骤201一致，此处不再赘述。

步骤602a，将电话录音输入至情绪识别模型中，识别电话录音在不同时间段的情绪评分和说话对象。

可选地，录音质检模型包括一个或多个情绪识别模型，情绪识别模型是具有对录音的情绪识别能力的机器学习模型。当录音质检模型包括多个情绪识别模型时，多个情绪识别模型是相同的模型，或是相同类型中的不同模型，或是不同的模型。将电话录音输入至情绪识别模型中，情绪识别模型将电话录音中的电话客服和用户的录音区分，并对电话客服和用户的录音片段分别进行情绪评分。可选地，一次录音电话中无异常情绪，或者包括一次或多次异常情绪。可选地，情绪识别模型对电话录音的评定方式包括评分、评等级、正负倾向中的至少一种，如电话录音的情绪等级是s级，则该录音片段对应的情绪倾向于异常情绪，或电话录音的情绪等级是d级，则该录音片段对应的情绪倾向于正常情绪。又比如，情绪识别模型识别电话录音对应的情绪是正向积极的情绪，或负向消极的情绪，或中性情绪(无任何情绪波动)。

步骤603a，将第一情绪评分超过异常阈值的时间段确定为第一时间段，并将第一情绪评分对应的说话对象确定为第一说话对象；和/或，将第二情绪评分超过异常阈值的时间段确定为第一时间段，并将第二情绪评分对应的说话对象确定为第一说话对象；其中，第一情绪评分对应的说话对象与第二情绪评分对应的说话对象是不同的说话对象。

示意性的，异常阈值为5，情绪评分大于5分的录音片段被情绪识别模型识别为该录音片段含有异常情绪评分，该异常情绪评分对应的时间段是第一时间段。可选地，产生异常情绪评分的说话对象是第一说话对象，产生异常情绪评分的说话对象包括电话客服和用户中的至少一种。示意性的，第一说话对象是电话客服，或第一说话对象是用户，或第一说话对象是电话客服和用户。

情绪识别模型可识别出产生异常情绪评分的第一说话对象，如异常情绪评分是电话客服产生的，则电话客服是第一说话对象；异常情绪评分是用户产生的，则用户是第一说话对象。

步骤602b，将电话录音输入至语音转文本模型中，识别电话录音在不同时间段对应的语音文本和说话对象。

可选地，录音质检模型包括一个或多个语音转文本模型，语音转文本模型是具有将录音转化为文本文件能力的机器学习模型。当录音质检模型包括多个语音转文本模型时，多个语音转文本模型是相同的模型，或是相同类型中的不同模型，或是不同的模型。将电话录音输入至语音转文本模型中，语音转文本模型将电话录音中的电话客服和用户的录音区分，并对电话客服和用户的录音片段进行敏感词汇的识别。可选地，一次电话录音中无敏感词汇，或者包括一个或多个敏感词汇。可选地，语音转文本模型对含有敏感词汇的时间段进行标记，或对含有敏感词汇的时间段进行筛选，筛选后的录音片段单独显示在可视化质检界面中，或根据敏感词汇的分类进行标记。如，敏感词汇可分为不文明类型(脏话等)、违禁类型(歪风邪气等)、违法类型(涉黄涉赌等)，语音转文本模型标记不文明类型的敏感词汇时使用圆形标记，标记违禁类型的敏感词汇时使用三角形标记，标记违法类型的敏感词汇时使用矩形标记。本申请对敏感词汇标记的形状不加以限定。

步骤603b，将第一语音文本具有敏感词汇的时间段确定为第二时间段，并将第一语音文本对应的说话对象确定为第二说话对象；和/或，将第二语音文本具有敏感词汇的时间段确定为第二时间段，并将用户第二语音文本对应的说话对象为第二说话对象。

可选地，产生敏感词汇的说话对象是第二说话对象，产生敏感词汇的说话对象包括电话客服和用户中的至少一种。示意性的，第二说话对象是电话客服，或第二说话对象是用户，或第二说话对象是电话客服和用户。

语音转文本模型可识别出产生含有敏感词汇的录音片段对应的第二说话对象，如敏感词汇是电话客服产生的，将电话客服确定为第二说话对象；敏感词汇是用户产生的，将用户确定为第二说话对象。

步骤604，响应于可视化质检界面上的回放指令，切换显示回放指令选择的目标异常录音片段的播放界面，目标异常录音片段的播放界面包括目标异常录音片段对应的目标异常时间段所在的时间区间。

可选地，在可视化质检界面上包括多个异常录音片段。回放指令用于切换显示目标异常录音片段的播放界面。可选地，目标异常录音片段的播放界面包括播放时间轴，播放时间轴上包括目标异常录音片段对应的目标异常时间段所在的时间区间。

可选地，目标异常录音片段的播放界面是由可视化质检界面跳转后切换显示的界面，该播放界面与可视化质检界面的尺寸相同或不相同，在该播放界面上可设置返回控件，在触发返回控件后可切换显示可视化质检界面。

可选地，目标异常录音片段的播放界面是独立于可视化质检界面的新增显示界面，该播放界面与可视化质检界面的尺寸相同或不相同。

在一个示例中，可视化质检界面上显示有异常录音片段对应的时间轴和该异常录音片段对应的异常信息。质检人员通过异常信息来选择目标异常时间段所在的时间区间，质检人员通过点击时间轴来确定目标异常时间段。如，电话录音在第3分30秒至4分这一时间段对应的情绪评分较高，质检人员点击时间轴上该时间段所在的时间区间。

在一个示例中，当情绪评分大于0.5时，录音质检模型确定该情绪评分是异常情绪评分，该异常情绪评分对应的时间段是异常时间段，异常时间段对应的录音片段是异常录音片段。如图4所示，在可视化质检界面10上显示有用户标记101、电话客服标记102、敏感词汇标记103、情绪评分104和时间轴105(时间轴的单位是秒)以及产生异常录音片段的说话对象。敏感词汇标记103出现在60秒至100秒对应的时间区间，异常情绪评分出现在220秒至300秒对应的时间区间，异常情绪评分是1分。质检人员在该可视化质检界面10上可重点检测220秒至300秒对应的异常录音片段，也可检测60秒至100秒对应的异常录音片段。可选地，质检人员通过双击操作点击时间轴105上的260秒处，也可点击时间轴105上的300秒处。可选地，可视化质检界面10自动播放一定时间段的异常录音片段，如可视化质检界面10播放20秒的异常录音片段，当质检人员点击时间轴105上的260秒处时，可视化质检界面10播放260秒至280秒之间的录音片段，或播放240秒至260秒之间的录音片段，或播放250秒至270秒之间的录音片段。可选地，可视化质检界面10上显示有输入控件106，质检人员可在输入控件106中输入选择的时间区间数字，如60和100。

在另一个示例中，当情绪评分大于4分时，录音质检模型确定该情绪评分是异常情绪评分，该异常情绪评分对应的时间段是异常时间段，异常时间段对应的录音片段是异常录音片段。如图5所示，可视化质检界面11上显示有用户标记111、电话客服标记112、敏感词汇标记113、情绪评分114和时间轴115(时间轴的单位是秒)以及产生异常录音片段的说话对象。敏感词汇标记113出现在100秒处和220秒处，且异常情绪评分在220秒为5分。质检人员在该可视化质检界面11上可重点检测220秒处对应的异常录音片段，也可检测100秒处对应的异常录音片段。可选地，在可视化质检界面11上显示有播放控件116、快进控件117、快退控件118和暂停控件119。质检人员通过点击时间轴115上的时间段及点击上述控件实现播放对应时间段的异常录音片段，如质检人员通过点击时间轴115上的220秒处，确定播放时间段是210秒至230秒，再点击播放控件116，播放210秒至230秒对应的异常录音片段，质检人员还可通过点击快进控件117播放播放220秒至240秒之间的异常录音片段，同理，质检人员点击快退控件118实现返回播放200秒至220秒之间的异常录音片段，在播放的过程中，质检人员通过点击暂停控件119暂停播放异常录音片段。

如图7的(a)所示，在可视化质检界面13上显示有用户标记131、电话客服标记132、敏感词汇标记133、情绪评分134和时间轴135(时间轴的单位是秒)以及产生异常录音片段的说话对象。在时间轴上220秒处，显示有较高的情绪评分和敏感词汇标记133，该时间段对应的录音片段是目标异常录音片段，质检人员可通过点击操作220秒处的时间轴播放该目标异常录音片段。可选地，质检人员点击220秒处对应的时间轴显示如图7的(b)所示的播放界面14。可选地，在播放界面14上显示有220秒处对应的播放时间轴、播放控件136、快进控件137、快退控件138、暂停控件139和输入控件140。示意性的，播放时间轴包括210秒至230秒之间的时间段，或播放时间轴包括220秒至240秒质检的时间段，或播放时间轴包括200秒至220秒之间的时间段。播放时间轴上显示的区间是预设的区间，或是可以自定义预设区间。通过上述控件来实现录音片段的播放功能。

可选地，目标异常时间段所在的时间区间对应有n个区间范围。

响应于目标异常录音片段的播放界面上的区间拖动指令，从目标异常时间段所在的时间区间对应的n个范围中确定第i个区间范围对应的时间区间，第i个范围对应的时间区间包括目标异常录音片段对应的至少一个目标异常时刻，其中，n＞0，i＞0。

步骤605，根据时间区间对目标异常录音片段进行回放。

可选地，播放界面显示在终端的显示屏上，终端包括智能手机、平板电脑、台式计算机、笔记本电脑中的至少一种。当终端是智能手机或平板电脑等含有触摸显示屏的终端时，区间拖动指令包括单击操作、双击操作、长按操作、滑动操作、拖动操作中的至少一种操作产生的指令；当终端是台式计算机或笔记本电脑等含有外部设备的终端时，区间拖动指令是通过外部设备产生的指令，如通过键盘上的按键产生的指令，或通过鼠标的单击操作、双击操作、拖动操作、鼠标右键的操作产生的指令。

示意性的，质检人员通过拖动播放界面上的播放时间轴来改变目标异常时间段所在的时间区间。

在一个示例中，质检人员拖动播放界面14上的播放时间轴显示如图8所示的播放界面如图8的(a)所示，在播放界面15上显示的目标异常时间段所在的时间区间是[207，227]，该时间区间是n个区间范围中第1个区间范围对应的时间区间。如图8的(b)所示，在播放界面16上显示的目标异常时间段所在的时间区间是[217，237]，该时间区间是n个区间范围中第2个区间范围对应的时间区间，播放时间轴的单位是秒。可选地，时间区间的长度可以是任意长度，如时间区间是[200，240]。

示意性的，质检人员通过点击播放时间轴来播放时间区间对应的目标异常录音片段，或通过点击播放控件136播放时间区间对应的目标异常录音片段。

综上所述，本实施例提供的方法，通过录音质检模型中的情绪识别模型和语音转文本模型检测电话录音中的情绪评分和敏感词汇，并且将产生异常情绪评分和敏感词汇的说话对象进行区分，明确产生问题的一方。质检人员通过拖动异常录音片段对应的播放时间轴可改变正在播放的时间区间，如从电话录音的第2分至第2分30秒对应的时间区间，改变为电话录音的第2分20秒至第2分50秒对应的时间区间，使得质检人员无需听取完整的电话录音即可判定该电话录音的服务质量是否符合标准，提高了质检人员的质检效率。

下面结合催收案件对上述电话录音的质检方法进行说明。图9示出了本申请一个示例性实施例提供的催收业务的电话录音的质检方法的流程图。该方法可应用于如图1所示的电话客服系统中的质检终端180中。该方法包括以下步骤：

步骤901，催收员语音催收。

以网络贷款为例，借款人在借贷平台上借款，在规定期限内，借款人需要将本金及利息还给借贷平台，借贷平台的工作人员通过打电话的方式催促借款人尽快还款，因此产生了催收业务。为了防止借贷平台以不正当的方式威胁借款人还款，相关监管部门对催收员与借款人的电话录音进行检测，若存在恶意催收现象，则对借贷平台进行处理。

步骤902，获取呼叫记录的电话录音。

通过借贷平台的电话客服系统获取催收员的电话录音，可选地，电话录音记录包括拨打催收电话的催收员的工号和借款人的电话号码。

步骤903a，采用录音质检模型对呼叫记录的电话录音进行语音识别。

步骤904a，获得电话录音中的敏感词汇。

可选地，录音质检模型包括语音转文本模型，语音转文本模型可识别出电话录音中存在的敏感词汇。

步骤903b，采用录音质检模型对呼叫记录的电话录音进行情绪识别。

步骤904b，获得电话录音中的情绪问题。

可选地，录音质检模型包括情绪识别模型，情绪识别模型可识别出电话录音中存在的情绪问题。示意性的，情绪识别模型对电话录音进行评分，分数越高的电话录音存在异常情绪的可能性越大。

步骤905a，将电话录音对应的问题时间轴可视化展示。

步骤905b，将电话录音对应的问题点进行区间录音回放。

可选地，步骤903a至步骤904a与步骤903b至步骤904b可单独实施，也可组合实施。

示意性的，催收案件的电话录音存在异常情绪和敏感词汇。录音质检模型中的语音转文本模型对敏感词汇进行识别，在可视化质检界面上显示敏感词汇标记，录音质检模型中的情绪识别模型对异常情绪进行识别，在可视化质检界面上显示异常情绪评分。敏感词汇标记是借款人产生的，或催收员产生的，或借款人和催收员均产生敏感词汇；异常情绪是借款人产生的，或催收员产生的，或借款人和催收员均产生异常情绪。含有异常情绪的录音片段是异常录音片段，或含有敏感词汇的录音片段是异常录音片段，或含有异常情绪和敏感词汇的录音片段是异常录音片段，异常录音片段对应有异常时间段，异常时间段所在的时间区间对应有n个范围。

步骤906，人工复检。

质检人员对上述电话录音进行复检，质检人员在可视化质检界面上点击异常录音片段对应的时间轴，显示异常录音片段的播放界面，质检人员听取该播放界面上的时间区间对应的录音片段，也可拖动该时间轴改变当前播放的时间区间。当质检人员听取多个时间区间的录音片段后无法确定电话录音是否存在服务质量问题时，可播放完整的电话录音来确定。

综上所述，本实施例提供的方法，将电话录音的质检方法应用于催收案件中，提高了质检人员的质检效率，能够及时发现电话录音的服务质量问题，避免用户投诉，保证催收业务的稳定性。

以下为本申请的装置实施例，对于装置实施例中未详细描述的细节，可以结合参考上述方法实施例中相应的记载，本文不再赘述。

图10示出了本申请的一个示例性实施例提供的电话录音的质检装置的结构示意图。该装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分，该装置应用于电话录音的质检业务中，该装置包括：

获取模块1010，用于获取待质检的电话录音；

录音质检模型1020，用于对电话录音进行质检，识别异常录音片段对应的异常时间段和异常信息；

显示模块1030，用于将所述异常时间段和所述异常信息显示在可视化质检界面上；

接收模块1040，用于响应于可视化质检界面上的回放指令，对异常录音片段进行回放。

在一个可选的实施例中，异常信息包括异常情绪评分；该装置包括处理模块1050；

所述处理模块1050，用于将电话录音输入至录音质检模型1020中，识别含有异常情绪评分的录音片段对应的第一时间段和异常情绪评分对应的第一说话对象。

在本申请的一些实施例中，所述录音质检模型1020包括情绪识别模型10201；

所述情绪识别模型10201，用于对电话录音进行识别，得到电话录音在不同时间段的情绪评分和说话对象；

所述处理模块1050，用于将第一情绪评分超过异常阈值的时间段确定为第一时间段，并将第一情绪评分对应的说话对象确定为第一说话对象；和/或，将第二情绪评分超过异常阈值的时间段确定为第一时间段，并将第二情绪评分对应的说话对象确定为第一说话对象；其中，第一情绪评分对应的说话对象与第二情绪评分对应的说话对象是不同的说话对象。

在本申请的一些实施例中，异常信息包括敏感词汇；

所述处理模块1050，用于将电话录音输入至录音质检模型1020中，识别含有敏感词汇的录音片段对应的第二时间段和敏感词汇对应的第二说话对象。

在本申请的一些实施例中，所述录音质检模型1020包括语音转文本模型10202；

所述语音转文本模型10202，用于对电话录音进行识别，识别电话录音在不同时间段对应的语音文本和说话对象；

所述处理模块1050，用于将第一语音文本具有敏感词汇的时间段确定为第二时间段，并将第一语音文本对应的说话对象确定为第二说话对象；和/或，将第二语音文本具有敏感词汇的时间段确定为第二时间段，并将第二语音文本对应的说话对象确定为第二说话对象；其中，第一语音文本对应的说话对象与第二语音文本对应的说话对象是不同的说话对象。

在本申请的一些实施例中，可视化质检界面上包括至少一个异常录音片段；所述接收模块1040，用于响应于可视化质检界面上的回放指令，从至少一个异常录音片段中选择目标异常录音片段，对目标异常录音片段进行回放。

在本申请的一些实施例中，所述显示模块1030，用于响应于可视化质检界面上的回放指令，切换显示回放指令选择的目标异常录音片段的播放界面，所述目标异常录音片段的播放界面包括目标异常录音片段对应的目标异常时间段所在的时间区间；

所述接收模块1040，用于根据时间区间对目标异常录音片段进行回放。

在本申请的一些实施例中，目标异常时间段所在的时间区间对应有n个区间范围，所述处理模块1050，用于响应于目标异常录音片段的播放界面上的拖动指令，从目标异常时间段所在的时间区间对应的n个区间范围中确定第i个区间范围对应的时间区间，第i个范围对应的时间区间包括目标异常录音片段对应的至少一个目标异常时刻，其中，n和i均为大于零的整数。

在本申请的一些实施例中，该装置还包括提取模块1060、计算模块1070和训练模块1080；

所述获取模块1010，用于获取样本电话录音和样本电话录音的质检结果，样本电话录音由至少一组电话客服与用户之间的电话录音组成，样本电话录音的质检结果包括情绪评分和敏感词汇中的至少一种；

所述提取模块1060，用于从样本电话录音中提取情感特征参数，情感特征参数包括k个维度的情感特征向量，k为大于零的整数；

所述处理模块1050，用于将情感特征参数输入至初始录音质检模型中，得到样本电话录音的预测质检结果；

所述计算模块1070，用于计算预测质检结果与质检结果的误差；

所述训练模块1080，采用误差反向传播算法对初始的录音质检模型进行训练，得到训练后的录音质检模型。

请参考图11，其示出了本申请一个示例性实施例提供的计算机设备1100的结构框图。该计算机设备1100可以是便携式移动终端，比如：智能手机、平板电脑、mp3播放器(movingpictureexpertsgroupaudiolayeriii，动态影像专家压缩标准音频层面3)、mp4(movingpictureexpertsgroupaudiolayeriv，动态影像专家压缩标准音频层面4)播放器。计算机设备1100还可能被称为用户设备、便携式终端等其他名称。

通常，计算机设备1100包括有：处理器1101和存储器1102。

处理器1101可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1101可以采用dsp(digitalsignalprocessing，数字信号处理)、fpga(field－programmablegatearray，现场可编程门阵列)、pla(programmablelogicarray，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1101也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称cpu(centralprocessingunit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1101可以在集成有gpu(graphicsprocessingunit，图像处理器)，gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1101还可以包括ai(artificialintelligence，人工智能)处理器，该ai处理器用于处理有关机器学习的计算操作。

存储器1102可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是有形的和非暂态的。存储器1102还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1102中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1101所执行以实现本申请中提供的电话录音的质检方法。

在一些实施例中，计算机设备1100还可选包括有：外围设备接口1103和至少一个外围设备。具体地，外围设备包括：射频电路1104、触摸显示屏1105、摄像头1106、音频电路1107、定位组件1108和电源1109中的至少一种。

外围设备接口1103可被用于将i/o(input/output，输入/输出)相关的至少一个外围设备连接到处理器1101和存储器1102。在一些实施例中，处理器1101、存储器1102和外围设备接口1103被集成在同一芯片或电路板上；在一些其他实施例中，处理器1101、存储器1102和外围设备接口1103中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1104用于接收和发射rf(radiofrequency，射频)信号，也称电磁信号。射频电路1104通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1104将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1104包括：天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1104可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或wifi(wirelessfidelity，无线保真)网络。在一些实施例中，射频电路1104还可以包括nfc(nearfieldcommunication，近距离无线通信)有关的电路，本申请对此不加以限定。

触摸显示屏1105用于显示ui(userinterface，用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。触摸显示屏1105还具有采集在触摸显示屏1105的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1101进行处理。触摸显示屏1105用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，触摸显示屏1105可以为一个，设置计算机设备1100的前面板；在另一些实施例中，触摸显示屏1105可以为至少两个，分别设置在计算机设备1100的不同表面或呈折叠设计；在再一些实施例中，触摸显示屏1105可以是柔性显示屏，设置在计算机设备1100的弯曲表面上或折叠面上。甚至，触摸显示屏1105还可以设置成非矩形的不规则图形，也即异形屏。触摸显示屏1105可以采用lcd(liquidcrystaldisplay，液晶显示器)、oled(organiclight-emittingdiode,有机发光二极管)等材质制备。

摄像头组件1106用于采集图像或视频。可选地，摄像头组件1106包括前置摄像头和后置摄像头。通常，前置摄像头用于实现视频通话或自拍，后置摄像头用于实现照片或视频的拍摄。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能，主摄像头和广角摄像头融合实现全景拍摄以及vr(virtualreality，虚拟现实)拍摄功能。在一些实施例中，摄像头组件1106还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1107用于提供用户和计算机设备1100之间的音频接口。音频电路1107可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1101进行处理，或者输入至射频电路1104以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在计算机设备1100的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1101或射频电路1104的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1107还可以包括耳机插孔。

定位组件1108用于定位计算机设备1100的当前地理位置，以实现导航或lbs(locationbasedservice，基于位置的服务)。定位组件1108可以是基于美国的gps(globalpositioningsystem，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源1109用于为计算机设备1100中的各个组件进行供电。电源1109可以是交流电、直流电、一次性电池或可充电电池。当电源1109包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，计算机设备1100还包括有一个或多个传感器1110。该一个或多个传感器1110包括但不限于：加速度传感器1111陀螺仪传感器1112、压力传感器1113、指纹传感器1114、光学传感器1115以及接近传感器1116。

加速度传感器1111以检测以计算机设备1100建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1111以用于检测重力加速度在三个坐标轴上的分量。处理器1101可以根据加速度传感器1111集的重力加速度信号，控制触摸显示屏1105以横向视图或纵向视图进行用户界面的显示。加速度传感器1111可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1112可以检测计算机设备1100的机体方向及转动角度，陀螺仪传感器1112可以与加速度传感器1111同采集用户对计算机设备1100的3d动作。处理器1101根据陀螺仪传感器1112采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变ui)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1113可以设置在计算机设备1100的侧边框和/或触摸显示屏1105的下层。当压力传感器1113设置在计算机设备1100的侧边框时，可以检测用户对计算机设备1100的握持信号，根据该握持信号进行左右手识别或快捷操作。当压力传感器1113设置在触摸显示屏1105的下层时，可以根据用户对触摸显示屏1105的压力操作，实现对ui界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1114用于采集用户的指纹，以根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1101授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1114可以被设置计算机设备1100的正面、背面或侧面。当计算机设备1100上设置有物理按键或厂商logo时，指纹传感器1114可以与物理按键或厂商logo集成在一起。

光学传感器1115用于采集环境光强度。在一个实施例中，处理器1101可以根据光学传感器1115采集的环境光强度，控制触摸显示屏1105的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏1105的显示亮度；当环境光强度较低时，调低触摸显示屏1105的显示亮度。在另一个实施例中，处理器1101还可以根据光学传感器1115采集的环境光强度，动态调整摄像头组件1106的拍摄参数。

接近传感器1116，也称距离传感器，通常设置在计算机设备1100的正面。接近传感器1116用于采集用户与计算机设备1100的正面之间的距离。在一个实施例中，当接近传感器1116检测到用户与计算机设备1100的正面之间的距离逐渐变小时，由处理器1101控制触摸显示屏1105从亮屏状态切换为息屏状态；当接近传感器1116检测到用户与计算机设备1100的正面之间的距离逐渐变大时，由处理器1101控制触摸显示屏1105从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图11中示出的结构并不构成对计算机设备1100的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请还提供一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的电话录音的质检方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

技术特征：

1.一种电话录音的质检方法，其特征在于，所述方法包括：

获取待质检的电话录音；

将所述电话录音输入至录音质检模型中，识别异常录音片段对应的异常时间段和异常信息；

将所述异常时间段和所述异常信息显示在可视化质检界面上；

响应于所述可视化质检界面上的回放指令，对所述异常录音片段进行回放。

2.根据权利要求1所述的方法，其特征在于，所述异常信息包括异常情绪评分；所述将所述电话录音输入至录音质检模型中，识别异常录音片段对应的异常时间段和异常信息，包括：

将所述电话录音输入至所述录音质检模型中，识别含有所述异常情绪评分的录音片段对应的第一时间段和所述异常情绪评分对应的第一说话对象。

3.根据权利要求2所述的方法，其特征在于，所述录音质检模型包括：情绪识别模型；所述将所述电话录音输入至所述录音质检模型中，识别含有所述异常情绪评分的录音片段对应的第一时间段和所述异常情绪评分对应的第一说话对象，包括：

将所述电话录音输入至所述情绪识别模型中，识别所述电话录音在不同时间段的情绪评分和说话对象；

将第一情绪评分超过异常阈值的时间段确定为所述第一时间段，并将所述第一情绪评分对应的说话对象确定为所述第一说话对象；和/或，将第二情绪评分超过所述异常阈值的时间段确定为所述第一时间段，并将所述第二情绪评分对应的说话对象确定为所述第一说话对象；

其中，所述第一情绪评分对应的说话对象与所述第二情绪评分对应的说话对象是不同的说话对象。

4.根据权利要求1所述的方法，其特征在于，所述异常信息包括敏感词汇；所述将所述电话录音输入至录音质检模型中，识别异常录音片段对应的异常时间段和异常信息，包括：

将所述电话录音输入至所述录音质检模型中，识别含有所述敏感词汇的录音片段对应的第二时间段和所述敏感词汇对应的第二说话对象。

5.根据权利要求4所述的方法，其特征在于，所述录音质检模型包括：语音转文本模型；

所述将所述电话录音输入至所述录音质检模型中，识别含有所述敏感词汇的录音片段对应的第二时间段和所述敏感词汇对应的第二说话对象，包括：

将所述电话录音输入至所述语音转文本模型中，识别所述电话录音在不同时间段对应的语音文本和说话对象；

将第一语音文本具有所述敏感词汇的时间段确定为所述第二时间段，并将所述第一语音文本对应的说话对象确定为所述第二说话对象；和/或，将第二语音文本具有所述敏感词汇的时间段确定为所述第二时间段，并将所述第二语音文本对应的说话对象确定为所述第二说话对象；

其中，所述第一语音文本对应的说话对象与所述第二语音文本对应的说话对象是不同的说话对象。

6.根据权利要求1至5任一所述的方法，其特征在于，所述可视化质检界面上包括至少一个异常录音片段；

所述响应于所述可视化质检界面上的回放指令，对所述异常录音片段进行回放，包括：

响应于所述可视化质检界面上的回放指令，从所述至少一个异常录音片段中选择目标异常录音片段，对所述目标异常录音片段进行回放。

7.根据权利要求6所述的方法，其特征在于，所述响应于所述可视化质检界面上的回放指令，从所述至少一个异常录音片段中选择目标异常录音片段，对所述目标异常录音片段进行回放，包括：

响应于所述可视化质检界面上的回放指令，切换显示所述回放指令选择的目标异常录音片段的播放界面，所述目标异常录音片段的播放界面包括所述目标异常录音片段对应的所述目标异常时间段所在的时间区间；

根据所述时间区间对所述目标异常录音片段进行回放。

8.根据权利要求7所述的方法，其特征在于，所述目标异常时间段所在的时间区间对应有n个区间范围，所述方法还包括：

响应于所述目标异常录音片段的播放界面上的区间拖动指令，从所述目标异常时间段所在的时间区间对应的n个区间范围中确定第i个区间范围对应的时间区间，所述第i个范围对应的时间区间包括所述目标异常录音片段对应的至少一个目标异常时刻，其中，n和i均为大于零的整数。

9.根据权利要求1所述的方法，其特征在于，所述录音质检模型是通过如下方式训练得到的：

获取样本电话录音和所述样本电话录音的质检结果，所述样本电话录音由至少一组电话客服与用户之间的电话录音组成，所述样本电话录音的质检结果包括情绪评分和敏感词汇中的至少一种；

从所述样本电话录音中提取情感特征参数，所述情感特征参数包括k个维度的情感特征向量，k为大于零的整数；

将所述情感特征参数输入至初始的录音质检模型中，得到所述样本电话录音的预测质检结果；

计算所述预测质检结果与所述质检结果的误差；

采用误差反向传播算法对所述初始的录音质检模型进行训练，得到训练后的录音质检模型。

10.一种电话录音的质检装置，其特征在于，所述装置包括：

获取模块，用于获取待质检的电话录音；

录音质检模型，用于对所述电话录音进行质检，识别异常录音片段对应的异常时间段和异常信息；

显示模块，用于将所述异常时间段和所述异常信息显示在可视化质检界面上；

接收模块，用于响应于所述可视化质检界面上的回放指令，对所述异常录音片段进行回放。

11.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至9所述的任一项所述的电话录音的质检方法。

12.一种计算机存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行，以实现如权利要求1至9任一项所述的电话录音的质检方法。

技术总结
本申请公开了一种电话录音的质检方法、装置、设备及介质，属于计算机领域。所述方法包括：获取待质检的电话录音；将所述电话录音输入至录音质检模型中，识别异常录音片段对应的异常时间段和异常信息；将所述异常时间段和所述异常信息显示在可视化质检界面上；响应于所述可视化质检界面上的回放指令，对所述异常录音片段进行回放。使得质检人员能够对异常录音片段进行快速定位，方便质检人员根据出现异常录音片段的时间段对电话录音进行质量检测，提高了质检人员的检测效率。

技术研发人员：王照;许培东;李燕;吴珊羽;李祥军;毛俊丰;易经纬;张琦
受保护的技术使用者：北京三快在线科技有限公司
技术研发日：2020.01.17
技术公布日：2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-17774.html

专利

最新回复(0)