一种用于直播的连麦消音方法、系统和存储介质与流程

专利2022-06-29 532

本发明涉及互联网技术领域，特别涉及直播领域，具体是指一种用于直播的连麦消音方法、系统和存储介质。

背景技术：

网络直播是通过互联网实现多媒体音频、视频直播的一种应用，它通过终端设备采集原始音视频并进行必要的编码和封装，随后以某种预定义的协议将数据实时传送至服务器，并由服务器完成实时转发给观众来实现的。网络直播相比传统的模拟电视或数字电视应用，有设备普及且门槛低、操作简单等优点。在直播平台拥有直播间的主播只要通过一台连入互联网的个人电脑或者手机就能在直播平台上开启直播。

连麦是从早期视频聊天室开始就有的玩法，后来用于网络直播中。几个大的直播平台都提供了连麦功能，让主播之间互相比拼。连麦可以促进主播间的交流，可以促进主播以更多的直播内容花样来吸引观众(同时也为平台带来流量)，也可以刺激观众为了自己喜欢的主播获胜而消费，对主播和平台的健康发展都是有帮助的。对于直播的连麦服务来说，为了保证用户体验，允许用户使用和正常直播时相同的画面和声音参与连麦、同时也能看到和听到连麦对手正常直播时的画面和声音。观众可以同时观看到两个主播的画面和同时听到两个主播的声音。

然而，实现连麦功能过程中有个这样的问题，直播的时候会同时捕捉用户麦克风的声音和系统发出的声音，混合后输出；连麦的时候使用的也是这个信号。但是同时，连麦的时候需要主播能听到对方传过来的声音。那么假设主播a和主播b进行连麦，主播a一边播放伴奏一边跟着唱，主播b那边的直播客户端发出主播a这边伴奏和人声混合后的声音；同时主播b这边的直播客户端在捕捉整个系统的声音，那么也就把直播客户端播放的a主播那边传来的声音录了进去，然后又传回给a主播。此时a主播听到了自己的回音，而且这个回音会继续被录下来传到对面。以此反复，会有两种结果，一种是出现很严重的回声，一种是信号不断叠加后功率没有收敛到一个固定的值而是发散了，超过放大器的不失真放大极限，最后变成类似矩形波那样的单音(刺耳的啸叫)，这个功能就没法用了。因此，如何消除直播过程中连麦双方的回音，成为了一个亟待解决的问题。

技术实现要素：

本发明的目的是针对上述问题提供一种无回音以及连麦效果好的用于直播的连麦消音方法、系统和存储介质。

本发明的目的可以通过以下技术方案来实现：

一种用于直播的连麦消音方法，所述的方法包括以下步骤：

(1)直播端接收连麦对象发送的音频信号并进行采样，得到连麦采样信号；

(2)对本地音频信号进行采样，得到本地采样信号；

(3)混合所述的连麦采样信号和所述的本地采样信号，并进行声道降维，得到消除了连麦采样信号的单声道信号；

(4)将所述的单声道信号发送至连麦对象。

优选地，所述步骤(3)具体包括以下步骤：

(31)对所述的连麦采样信号进行声道降维，得到连麦降维采样信号；

(32)混合所述的连麦降维采样信号和所述的本地采样信号，得到混合采样信号；

(33)对混合采样信号进行进一步的降维处理，得到消除了所述的连麦采样信号的所述的单声道信号。

优选地，所述步骤(31)具体为：将所述的连麦采样信号与第一降维矩阵相乘，得到连麦降维采样信号。

优选地，所述步骤(33)具体为：将所述的混合采样信号与第二降维矩阵相乘，消除所述的连麦采样信号，得到所述的单声道信号。

优选地，所述第一降维矩阵和第二降维矩阵相乘结果为零矩阵。

优选地，所述的第一降维矩阵具体为：

其中，t为第一降维矩阵。

优选地，所述的第二降维矩阵具体为：

其中，t'为第二降维矩阵。

优选地，所述的单声道信号具体为：

s(t)＝a·s1(t)*t'

其中，s(t)为单声道信号，a为对本地音频信号进行采样时的采样系数，s1(t)为本地采样信号，t'为第二降维矩阵。

一种用于直播的连麦消音系统，所述系统包括：

本地直播端，用于采样接收本地音频信号和连麦对象发送的音频信号，并将采样接收的信号混合降维后，转化成单声道信号发送至连麦对象；

连麦端，用于向本地直播端发送音频信号，并接收本地直播端发送的单声道信号。

优选地，所述本地直播端包括：

采样接收单元，用于接收本地音频信号并进行采样，得到本地采样信号，以及接收连麦对象发送的音频信号并进行采样，得到连麦采样信号；

信号混合单元，用于将所述的本地采样信号和降维后的连麦采样信号进行混合，得到混合采样信号；

声道降维单元，用于将所述的连麦采样信号进行声道降维，并对所述的混合采样信号进行进一步降维，得到消除了连麦采样信号的所述的单声道信号。

一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现上述中任一项所述用于直播的连麦消音方法。

与现有技术相比，本发明具有以下有益效果：

(1)本发明提出的用于直播的连麦消音方法，通过进行声道降维得到单声道信号，有效的将连麦采样信号从混合信号中进行消除，再将单声道信号传回至连麦对象处，既保证了直播过程中连麦双方的正常音频往来，同时也避免了将连麦对象的声音内容再次传回到连麦对象处，消除了连麦双方的回音现象，提高了连麦质量，保障了用户的直播体验。

(2)在进行声道降维过程中，具体的方法是将连麦采样信号首先与第一降维矩阵相乘后再和本地采样信号混合，而混合信号再与第二降维矩阵相乘，由于第一降维矩阵和第二降维矩阵相乘的结果为零矩阵，因此可以有效的将连麦采样信号进行消除，同时又不会消除掉本地采样信号，这样的消音方法易于实现且可以确保消音，实现效果好且适用范围广。

附图说明

图1为本发明用于直播的连麦消音方法的步骤流程图。

具体实施方式

为了能够更清楚地理解本发明的技术内容，特举以下实施例详细说明。

请参阅图1所示，为本发明用于直播的连麦消音方法的步骤流程图。

在一种实施方式中，该用于直播的连麦消音方法，包括以下步骤：

(1)直播端接收连麦对象发送的音频信号并进行采样，得到连麦采样信号；

(2)对本地音频信号进行采样，得到本地采样信号；

(3)混合所述的连麦采样信号和所述的本地采样信号，并进行声道降维，得到消除了连麦采样信号的单声道信号，具体包括以下步骤：

(31)对所述的连麦采样信号进行声道降维，得到连麦降维采样信号，具体为：将所述的连麦采样信号与第一降维矩阵相乘，得到连麦降维采样信号；

(32)混合所述的连麦降维采样信号和所述的本地采样信号，得到混合采样信号；

(33)对混合采样信号进行进一步的降维处理，得到消除了所述的连麦采样信号的所述的单声道信号，具体为：将所述的混合采样信号与第二降维矩阵相乘，消除所述的连麦采样信号，得到所述的单声道信号，其中第一降维矩阵与第二降维矩阵相乘结果为零矩阵，本实施例中，第一降维矩阵具体为第二降维矩阵具体为其中，t为第一降维矩阵，t'为第二降维矩阵，第一降维矩阵和第二降维矩阵的实现方式不唯一，上述只是其中一种的优选实施方案；

(4)将所述的单声道信号发送至连麦对象，本实施例中，单声道信号具体为：

s(t)＝a·s1(t)*t'

其中，s(t)为单声道信号，a为对本地音频信号进行采样时的采样系数，s1(t)为本地采样信号，t'为第二降维矩阵。

除上述方法之外，本实施例中还提出了用于直播的连麦消音系统，具体包括：本地直播端，用于采样接收本地音频信号和连麦对象发送的音频信号，并将采样接收的信号混合降维后，转化成单声道信号发送至连麦对象；连麦端，用于向本地直播端发送音频信号，并接收本地直播端发送的单声道信号。其中，本地直播端包括：采样接收单元，用于接收本地音频信号并进行采样，得到本地采样信号，以及接收连麦对象发送的音频信号并进行采样，得到连麦采样信号；信号混合单元，用于将所述的本地采样信号和降维后的连麦采样信号进行混合，得到混合采样信号；声道降维单元，用于将所述的连麦采样信号进行声道降维，并对所述的混合采样信号进行进一步降维，得到消除了连麦采样信号的所述的单声道信号。以及提出了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现上述中任一项用于直播的连麦消音方法。

在实际应用中，本发明用于直播的连麦消音方法的具体实现方式，通过以下实施例说明。

实施例1

随着个人电脑和手机性能的极大提高以及宽带互联网的普及，近几年已经可以满足实时音视频采集、编码、传输的一条龙服务需求，以此诞生了网络直播。网络直播是通过互联网实现多媒体音频、视频直播的一种应用，它通过终端设备采集原始音视频并进行必要的编码和封装，随后以某种预定义的协议将数据实时传送至服务器，并由服务器完成实时转发给观众来实现的。网络直播相比传统的模拟电视或数字电视应用，有设备普及且门槛低、操作简单等优点。在直播平台拥有直播间的主播只要通过一台连入互联网的个人电脑或者手机就能在直播平台上开启直播。网络直播的运营模式通常是这样的，平台为主播提供直播服务器，主播为平台提供内容；平台为观众提供给主播打赏的途径和表现的方式，为主播提供收款的途径，在其中抽取提成。在这样的模式中，为观众提供的内容的吸引力是获取流量的关键，而刺激消费的方式又直接关联到流量变现的效率。

而实现连麦功能过程中有个这样的问题：直播的时候会同时捕捉用户麦克风的声音和系统发出的声音，混合后输出；连麦的时候使用的也是这个信号。但是同时，连麦的时候需要主播能听到对方传过来的声音。那么假设主播a和主播b进行连麦，主播a一边播放伴奏一边跟着唱，主播b那边的哔哩哔哩直播客户端(以下简称直播姬)发出主播a这边伴奏和人声混合后的声音；同时主播b这边的直播姬在捕捉整个系统的声音，那么也就把直播姬播放的a主播那边传来的声音录了进去，然后又传回给a主播。此时a主播听到了自己的回音，而且这个回音会继续被录下来传到对面。以此反复，会有两种结果，一种是出现很严重的回声，一种是信号不断叠加后功率没有收敛到一个固定的值而是发散了，超过放大器的不失真放大极限，最后变成类似矩形波那样的单音(刺耳的啸叫)，这个功能就没法用了。

因此为了解决上述问题，本实施例提出了一种用于直播的连麦消音方法，本实施例中在对于连麦消音方法进行具体描述过程中，将连麦双方的其中一方看作为本地直播端，另一方作为连麦对象，以上方的主播a和主播b为例，本实施例中将主播a的直播端作为本地直播端，那么主播b的直播端自然就是作为主播a的连麦对象。在明确了主体后，如图1所示，本实施例提出的方法的主要过程如下：

首先将本地直播端中连麦对象发送过来的音频信号在t时间的采样定义为连麦采样信号，具体的形式为s2(t)＝(l2t,r2t)；本地直播端中除了上述连麦采样信号外收到的本地端其他的所有声音信号在t时间的采样定义为本地采样信号，具体的形式为s1(t)＝(l1t,r1t)。本地直播端将两者混音的函数定义为f(x,y)＝ax by。

那么，在正常情况下，本地直播端的主播和该主播的所有用户在t时间内听到的声音采样信号应该是：

f(s1(t),s2(t))＝a(l1t,r1t) b(l2t,r2t)

＝(a*l1t b*l2t,a*r1t b*r2t)

从上述公式中可以看出，正常情况下混合后的声音采样信号很难将连麦采样信号这一部分剔除，因此在直播过程中本地直播端会不断将连麦对象本身的声音再次传送到连麦对象那一端，同理连麦对象端也会不断将本地直播端本身的声音传送回本地直播端，因此大大降低了直播过程中连麦的质量。

为了去除连麦采样信号，本实施例中引入了一个第一降维矩阵，在本地直播端将本地采样信号和连麦采样信号混合之前，首先将连麦采样信号与第一降维矩阵相乘，从而得到连麦降维采样信号，本实施例中定义第一降维矩阵为由于这个矩阵不是满秩的，因此在连麦采样信号和第一降维矩阵相乘的过程中，连麦采样信号会存在降维损失，即丢失一个声道。

在得到了连麦降维采样信号之后，将其与本地采样信号进行混合，得到混合采样信号，此时混合采样信号的形式变为：f(s1(t),s2(t)t)＝as1(t) bs2(t)t。

在得到了上述混合采样信号之后，再进行进一步降维处理，即将这个混合采样信号与第二降维矩阵相乘，因此本实施例中第二降维矩阵为那么混合采样信号与第二降维矩阵相乘后得到的单声道信号即为：

s(t)＝f(s1(t),s2(t)t)*t'＝as1(t)*t' bs2(t)*t*t'

由于第一降维矩阵和第二降维矩阵相乘为零矩阵，即t*t'＝0，同时矩阵的乘法又满足结合律，因此简化后可知s(t)＝f(s1(t),s2(t)t)*t'＝as1(t)*t'.

从简化后得到的单声道信号可以看出，连麦采样信号被去除，信号变为单声道信号，此时将去除了连麦采样信号的单声道信号再传回至连麦对象处，那么连麦对象收到的信号中就不存在连麦对象本身发出的声音信号，即不存在回音，也就解决了上述问题。

同理，连麦对象端采取与本地直播端相同的连麦消音方法，那么本地直播端每次接收到的信号也就不会包含本地直播端本身发出的声音，因此直播的双方均可以在不具有回音的情况下正常进行连麦，保障了直播质量。

在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以做出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

技术特征：

1.一种用于直播的连麦消音方法，其特征在于，所述的方法包括以下步骤：

(1)直播端接收连麦对象发送的音频信号并进行采样，得到连麦采样信号；

(2)对本地音频信号进行采样，得到本地采样信号；

(3)混合所述的连麦采样信号和所述的本地采样信号，并进行声道降维，得到消除了连麦采样信号的单声道信号；

(4)将所述的单声道信号发送至连麦对象。

2.根据权利要求1所述用于直播的连麦消音方法，其特征在于，所述步骤(3)具体包括以下步骤：

(31)对所述的连麦采样信号进行声道降维，得到连麦降维采样信号；

(32)混合所述的连麦降维采样信号和所述的本地采样信号，得到混合采样信号；

(33)对混合采样信号进行进一步的降维处理，得到消除了所述的连麦采样信号的所述的单声道信号。

3.根据权利要求2所述用于直播的连麦消音方法，其特征在于，所述步骤(31)具体为：将所述的连麦采样信号与第一降维矩阵相乘，得到连麦降维采样信号。

4.根据权利要求3所述用于直播的连麦消音方法，其特征在于，所述步骤(33)具体为：将所述的混合采样信号与第二降维矩阵相乘，消除所述的连麦采样信号，得到所述的单声道信号。

5.根据权利要求4所述用于直播的连麦消音方法，其特征在于，所述第一降维矩阵与第二降维矩阵相乘的结果为零矩阵。

6.根据权利要求4所述用于直播的连麦消音方法，其特征在于，所述的第一降维矩阵具体为：

其中，t为第一降维矩阵。

7.根据权利要求6所述用于直播的连麦消音方法，其特征在于，所述的第二降维矩阵具体为：

其中，t'为第二降维矩阵。

8.根据权利要求4所述用于直播的连麦消音方法，其特征在于，所述的单声道信号具体为：

s(t)＝a·s1(t)*t'

其中，s(t)为单声道信号，a为对本地音频信号进行采样时的采样系数，s1(t)为本地采样信号，t'为第二降维矩阵。

9.一种用于直播的连麦消音系统，其特征在于，所述系统包括：

本地直播端，用于采样接收本地音频信号和连麦对象发送的音频信号，并将采样接收的信号混合降维后，转化成单声道信号发送至连麦对象；

连麦端，用于向本地直播端发送音频信号，并接收本地直播端发送的单声道信号。

10.根据权利要求8所述用于直播的连麦消音系统，其特征在于，所述本地直播端包括：

采样接收单元，用于接收本地音频信号并进行采样，得到本地采样信号，以及接收连麦对象发送的音频信号并进行采样，得到连麦采样信号；

信号混合单元，用于将所述的本地采样信号和降维后的连麦采样信号进行混合，得到混合采样信号；

声道降维单元，用于将所述的连麦采样信号进行声道降维，并对所述的混合采样信号进行进一步降维，得到消除了连麦采样信号的所述的单声道信号。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时，实现权利要求1至8中任一项所述用于直播的连麦消音方法。

技术总结
本发明涉及一种用于直播的连麦消音方法、系统和存储介质，属于互联网技术领域。方法包括：直播端接收连麦对象发送的音频信号并进行采样，得到连麦采样信号；对本地音频信号进行采样，得到本地采样信号；混合连麦采样信号和本地采样信号，并进行声道降维，得到单声道信号并发送至连麦对象；系统包括，本地直播端，用于采样接收本地音频信号和连麦对象发送的音频信号，并将二者混合降维后发送至连麦对象；连麦端，用于向本地直播端发送音频信号，并接收本地直播端发送的单声道信号；存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现上述用于直播的连麦消音方法。与现有技术相比，本发明具有无回音以及连麦效果好等优点。

技术研发人员：姜军
受保护的技术使用者：上海哔哩哔哩科技有限公司
技术研发日：2018.11.30
技术公布日：2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-15551.html

专利

最新回复(0)