本发明公开了一种应用于互联网通信或电话通信的人工智能相关设备,特别是指一种可编程的智能代理机,用于协助及管理聊天机器人和人类用户之间经由互联网或公用电话交换网传输的语音或视讯通话。
背景技术:
聊天机器人是一种应用人工智能的计算机程序,用于仿真与人类用户交互式的对话。随着人工智能技术的进步,聊天机器人在信息查询、客户服务、电话营销和虚拟助理等领域得到了广泛的应用。人类用户和聊天机器人之间的对话通常是通过互联网(theinternet)或公用电话交换网(publicswitchedtelephonenetwork)来进行。
图1说明人类用户与聊天机器人如何通过互联网或公用电话交换网进行通话。人类用户若使用计算机或智能型手机,经由互联网与远程的聊天机器人进行语音或视讯通话,聊天机器人通常是通过网络电话服务器(webcallserver)与互联网连接的。人类用户若使用手机或传统电话,经由公用电话交换网与聊天机器人进行对话,则由配有自动呼叫分配(automaticcalldistribution,acd)和计算机电话整合(computertelephonyintegration,cti)功能的专用交换机(privatebranchexchange,pbx)来连接聊天机器人和公用电话交换网。
聊天机器人可以建置在与网络电话服务器或acd/cti服务器相同的局域网络中,或是建于互联网云端。在许多应用中,单一聊天机器人可为大量人类用户提供服务,因此当人类用户与聊天机器人之间的互动更为复杂时,会大幅度增加聊天机器人服务器的运算负载,造成问题。
技术实现要素:
本发明公开了一种智能代理机,用于协助及管理聊天机器人和人类用户之间经由互联网或公用电话交换网传输的语音或视讯通话。这种智能代理机既可作为聊天机器人与互联网或公用电话交换网之间的连接器,更可提升聊天机器人与人类用户间互动的能力与弹性。
智能代理的功能包括提供通话连接、协调聊天机器人与人类用户的对话、反应人类用户的对话行为,以及在某些应用中,根据对话的意图向周边设备发送控制信号,或者从传感器撷取数据,作为调整后续对话流程的参考。此外,智能代理机还可以作为用户界面,使得智能代理机近端的人类用户能与聊天机器人和远程的人类用户进行三方通话。
这种智能代理机的优点在于:它能大幅度提升聊天机器人和人类用户之间的对话复杂度及弹性,但又不会造成聊天机器人服务器的运算超载。
附图说明
图1为现有技术中人类用户与聊天机器人经由互联网或公用电话交换网进行的通话路径区块图。
图2是本发明中人类用户与聊天机器人利用智能代理机,经由互联网或公用电话交换网进行的通话路径区块图。
图3是本发明智能代理机的关键元件示意图。
图4是本发明智能代理机针对人类用户与聊天机器人对话过程中的逾时处理的方法流程图。
图5是本发明智能代理机根据人类用户与聊天机器人对话内容的意图而执行对应动作的方法流程图。
图6是本发明智能代理机根据传感器数据而调整聊天机器人与人类用户对话的方法流程图。
附图标记说明:200-智能代理机;202-聊天机器人;204、206、216-人类用户;208-网络电话服务器;210-专用交换机;212-acd/cti服务器;214-数字显示器;218-周边设备;220-传感器;302-中央处理器;304-内存;305-程序代码;306-电源;308-无线模块;310-天线;312-以太网络模块;314-麦克风;316-扬声器;318-编译码器;320-相机模块;322-输入/输出端子;324-通用输入/输出连接;326-可编程红外线控制器;328-红外线发射器和接收器;400、500、600-流程图;402至414、502至508、602至616-步骤。
具体实施方式
以下各实施例的详细说明是用来阐述本发明,而非用来限制本发明的保护范围。
图2是本发明中人类用户与聊天机器人利用智能代理机,经由互联网或公用电话交换网进行的通话路径区块图。智能代理机200与聊天机器人202间的连接可以是无线或有线的。由于对话启动协议(sessioninitiationprotocol,sip)是用于互联网或公用电话交换网上的语音或视频通话的最主要协议,因此在许多实施例中,智能代理机200可以被设定为一个sip客户端(client)设备。
聊天机器人202的软件组合包括自然语言处理及语意理解(naturallanguageprocessingandunderstanding)、对话管理(dialoguemanagement)、语音识别(speech-to-text)及文字转语音(text-to-speech)等模块。在本发明的实施例中,这些软件模块可以建置在同一个实体或虚拟服务器中,或者分布在网络云端中不同的服务器上。此外,本发明的实施例也包括各种以特定领域数据训练过的专用聊天机器人。
如图2所示,聊天机器人202和人类用户204之间的通话是以互联网传输,而聊天机器人202和人类用户206之间的通话则经由公用电话交换网传输。人类用户204可以使用智能型手机、平板计算机、笔记本电脑或桌面计算机作为通信工具;在通话的另一端,聊天机器人202则与智能代理机200及网络电话服务器208一起运作。若通话是经由公用电话交换网,人类用户206可以使用智能手机或传统电话作为通信工具;而在另一端,聊天机器人202则与智能代理机200及专用交换机210和acd/cti服务器212结合使用。智能代理机200和网络电话服务器208之间的连接,或是智能代理机200和acd/cti服务器212之间的连接,都可以用无线或有线的方式。
在一些实施例中,智能代理机200配备有麦克风314及扬声器316,并连接到一台数字显示器214,因此可以作为智能代理机200近端人类用户216的用户界面,以此与聊天机器人202及远程人类用户204或206进行三方的交互式通话。这样的设置可以应用在配备有虚拟助理的多方视频会议中。
在一些实施例中,智能代理机200可以与一或多个周边设备218,或一或多个传感器220经由无线或有线的方式连接。若为无线连接,则周边设备218和传感器220可以位于远程位置,例如在某些实施例中,可以依需要设置在远程人类用户204或206旁。例如,远程人类用户204或206使用的智能型手机或计算机上所配备的相机(影像传感器)或其他种传感器,就可以被设定为远程传感器。
这使得智能代理机200既能够根据人类用户与聊天机器人对话内容的意图,来发送控制信号以控制周边设备218,又能够根据从传感器220撷取到的实时数据或影像,来调整后续的人机对话流程。
图3是本发明实施例的智能代理机200的关键元件示意图。智能代理机200内建有中央处理器302、内存304、电源306,以及支持无线局域网络(wlan)和蓝牙的无线模块308及天线310。智能代理机200还可以选择性地包括以太网络模块312。
若要让近端人类用户216、远程人类用户204或206、聊天机器人202三方进行通话,智能代理机200需要配备一或多个麦克风314、一或多个扬声器316,以及用于音频信号编码和译码的编译码器318。更进一步,若在智能代理机200上配备具有视频编译码器的相机模块320,以及用于连接到数字显示器214的输入/输出端子322,则可实现上述近端及远程人类用户与聊天机器人之间的三方视讯通话。
在一些实施例中,智能代理机200可根据人类用户与聊天机器人对话中的指令来控制某些周边设备218。智能代理机200可以经由无线模块308或有线的通用输入/输出连接324来发送控制信号。
另一些实施例中,智能代理机200配备有可编程红外线控制器326及其对应的红外线发射器和接收器328,如此,前述的周边设备218可以用红外线来遥控。
此外,智能代理机200还可利用传感器(或相机,即影像传感器)220,通过无线模块308或通用输入/输出连接324,或直接由内建的相机模块320,来撷取实时数据或影像,用作聊天机器人与人类用户对话进行中的参考信息,并据此决定是否要调整该人机对话的后续流程。
智能代理机200的周边设备控制功能、感测数据及影像监视功能,都可以结合到聊天机器人与人类用户对话的控制流程中,如此可以实现相当复杂的人机交互式对话。
智能代理机200内建的内存304用来储存智能代理机的系统操作软件、特定应用程序的程序代码305,以及运算数据。而人类用户与聊天机器人的对话记录则需要较大的记忆容量,通常是储存于网络云端中,以利于后续分析。
运用智能代理机200来协助及管理聊天机器人与人类用户的对话可以有许多种方法,下文揭露的几个方法用来举例说明本发明的实用性和多功能性,这些方法通常不是单独被使用的,而是结合到其他更复杂的人机对话控制流程中。本领域相关的技术人员应不难判断:在各种不同的应用场合中,下述这些方法,以及它们的组合及扩充,可以让聊天机器人与人类的对话更有互动性、更有效率。
图4是智能代理机200针对人类用户与聊天机器人202对话过程中的逾时处理的方法流程图400。在人类用户与聊天机器人的对话过程中,人类用户有时会因思考遣词用句而暂时没有回应,但也有时会因某种原因而完全停止响应。本方法提供了一种处理此情况的机制,使得人机对话能够更为顺畅。
流程图400包含下列步骤:
步骤402:人类用户与聊天机器人202对话进行中的任一时间点;
步骤404:智能代理机200判断是否轮到人类用户发言。若是,则执行步骤408;若否,则执行步骤406;
步骤406:聊天机器人202发言,并邀请人类用户响应,接着跳回步骤404;
步骤408:智能代理机200等待人类用户发言,若在预设的逾时(time-out)期间内收到了人类用户的响应,则执行步骤410;若超过逾时期间仍未收到回应,则执行步骤412;
步骤410:人机对话继续进行。
步骤412:智能代理机200决定是否要结束通话。若是,则执行步骤414;若否,则执行步骤406;
步骤414:聊天机器人202发言,宣布结束人机对话。
在智能代理机200启动步骤414、终止人机对话之前,步骤406、404、408、412这个回路可以重复进行。
图5是智能代理机200根据人类用户与聊天机器人202对话内容的意图而采取对应动作的方法流程图500。前述的动作指的是智能代理机200可控制的任何动作。例如,智能代理机200可以发送设备控制信号以控制特定的周边设备218、从传感器220读取实时数据、使用相机320撷取影像、通过扬声器316发送语音通知等,或是以上几个不同动作的组合,可能的实施例非常多。
流程图500包含下列步骤:
步骤502:人类用户与聊天机器人202对话进行中的任一时间点;
步骤504:智能代理机200判断对话的内容是否有执行某个动作的意图;若是,则执行步骤506;若否,则执行步骤508;
步骤506:智能代理机200根据前述意图,执行对应的动作,动作完成后,再执行步骤508;
步骤508:人机对话继续进行。
图6是智能代理机200根据传感器220或相机320撷取的数据或影像,调整聊天机器人202与人类用户后续对话的方法流程图600。人与人之间的对话具有很高的沟通效率的原因之一,是人类在对话时具有判断声调、面部表情及肢体语言的能力。然而,由于目前聊天机器人普遍缺乏这种能力,聊天机器人与人类之间的对话效率一般就远不如人类彼此间的对话效率。本发明的智能代理机可为此一问题提供一些解决方案。例如,人类用户的面部表情和肢体语言可以利用影像传感器(相机)来捕捉,并且使用内建于智能代理机200或建置于网络云端的影像识别软件进行分析。如果分析结果显示人类用户表现出某些情绪警讯(例如:愤怒或悲伤),则智能代理机200就会相对应地调整后续人机对话的方向;如此,聊天机器人202表现给人类用户的响应就可以更为人性化。
流程图600是智能代理机200针对聊天机器人202与人类用户对话作实时调整的流程图,包含下列步骤:
步骤602:智能代理机200启动人机对话调整机制;
步骤604:预设的传感器220或相机320撷取数据或影像,并传送给智能代理机200进行分析;
步骤606:智能代理机200判断前述分析结果是否符合调整后续人机对话流程的条件。若是,则执行步骤608;若否,则重复执行步骤604;
步骤608:智能代理机200检查人机对话调整机制是否仍然开启。若是,则执行步骤612;若否,则执行步骤610;
步骤610:人机对话流程继续进行,不作调整;
步骤612:智能代理机200检查人机对话流程是否正在被调整中。若是,则回到步骤604;若否,则执行步骤614;
步骤614:智能代理机200执行调整后续人机对话流程,并执行步骤616;
步骤616:人机对话流程是否已完成调整?若是,则重回到步骤604;若否,则继续执行步骤616。
智能代理机200是与其服务器分离的客户端设备,具有可客制化和可扩展的优点。换言之,依据不同的特定需求,产品开发者可针对个别智能代理机进行编程;而且,许多不同的智能代理机可在局域网络上与同一服务器联机,同时运作。此外,由于个别的智能代理机分担了复杂的人机对话的运算需求,又可避免聊天机器人服务器运算超载的问题。
以上所述仅为本发明的较佳实施例,凡依本发明权利要求范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
1.一种用于聊天机器人与人类通话的可编程智能代理机,其特征在于,包括:
中央处理器;
内存模块;
电源模块;
操作系统,用以管理该智能代理机的硬件及软件;
通过无线或有线的方式与聊天机器人软件连接,用以仿真与人类用户交互式的对话;
通过无线或有线的方式与互联网或公用电话交换网连接,用以连接到人类用户;及
可编辑软件程序,用以协助及管理该聊天机器人和该人类用户之间的交互式语音或视讯通话。
2.如权利要求1所述的智能代理机,其特征在于,与互联网或公用电话交换网的连接支持对话启动协议,并且该智能代理机被设定为对话启动协议的客户端设备。
3.如权利要求1所述的智能代理机,其特征在于,该无线连接支持无线局域网络标准及蓝牙标准。
4.如权利要求1所述的智能代理机,其特征在于,另包括:
红外线控制模块,包括其对应的红外线发射器及接收器;及
可编辑软件程序,用以操作该红外线控制模块,使该智能代理机能以红外线遥控周边设备。
5.如权利要求1所述的智能代理机,其特征在于,另包括:
无线或有线的连接,用以连接至一或多个周边设备;及
可编辑软件程序,用以控制该一或多个周边设备。
6.如权利要求5所述的智能代理机,其特征在于,该智能代理机根据人类用户与聊天机器人对话内容的意图而执行对应动作,方法如下:
该智能代理机判断该人类用户与该聊天机器人的对话内容是否含有执行某个动作的意图,该动作可包括控制该一或多个周边设备;
若识别出前述意图,则该智能代理机执行该动作;及
该动作完成后,该智能代理机引导该人机对话继续进行。
7.如权利要求1所述的智能代理机,其特征在于,另包括:
无线或有线的连接,用以连接至一或多个传感器;及
可编辑软件程序,用以接收及分析该一或多个传感器所撷取的数据或影像。
8.如权利要求7所述的智能代理机,其特征在于,该智能代理机根据该传感器撷取的数据或影像而调整聊天机器人与人类用户的对话,方法如下:
该智能代理机接收并分析该一或多个传感器所撷取的数据或影像;
若该分析结果符合一或多项预设的条件,则该智能代理机执行调整该聊天机器人后续的发言应对。
9.如权利要求1所述的智能代理机,其特征在于,另包括:
一或多个麦克风;
一或多个扬声器;
编译码器,用于音频信号的编码和译码;及
可编辑软件程序,用以使该智能代理机近端的人类用户能与该聊天机器人及远程的人类用户进行三方语音通话。
10.如权利要求9所述的智能代理机,其特征在于,另包括:
相机模块;
编译码器,用于视频信号的编码和译码;
无线或有线的连接,用以连接至数字显示器;及
可编辑软件程序,用以使该智能代理机近端的人类用户能与该聊天机器人及远程的人类用户进行三方视讯通话。
11.如权利要求1所述的智能代理机,其特征在于,该智能代理机能够处理人类用户与聊天机器人对话过程中常见的对话空档,方法如下:
该智能代理机等待该人类用户发言;
若该人类用户在预设的逾时期间内发言,则该智能代理机让该人机对话继续进行;否则
该智能代理机引导该聊天机器人发言邀请该人类用户响应;
该智能代理机重复上述三个步骤直到该人类用户响应;及
若该人类用户在预设的数回合逾时期间内均无响应,则该智能代理机引导该聊天机器人宣布结束该人机对话。
技术总结