电子装置及其控制方法与流程

专利2022-06-28  99


根据本公开的设备和方法涉及电子装置及其控制方法,更具体地,涉及能够在呼叫时以语音和图像对询问特定信息的用户语音提供响应的电子装置及其控制方法。



背景技术:

近些年,实现人类水平智能的人工智能系统已被运用于各种领域。不同于现存的基于规则的智能系统,人工智能系统是机器进行学习、判定和变聪明的系统。人工智能系统使用得越多,就越能提高识别率。因此,能够更精确地理解用户的喜好。因此,现存的基于规则的智能系统正逐渐被基于深度学习的人工智能系统所取代。

人工智能技术由机器学习(例如,深度学习)和利用机器学习的元素技术组成。

机器学习是对输入数据的特性进行分类或学习的算法技术。元素技术是使用诸如深度学习的机器学习算法模拟诸如人脑的识别和判定的功能的技术,由语言理解、视觉理解、推理或预测、知识表达、运动控制等构成。

应用人工智能技术的各种领域如下。语言理解是用于识别、应用或处理人类语言或字符的技术,包括自然语言处理、机器翻译、对话系统、问&答、语言识别或合成等。视觉理解是用于将对象识别和处理成人类视觉的技术,包括对象识别、对象追踪、图像搜索、人类识别、场景理解、空间理解、图像增强等。推断预测是用于判断、逻辑推断和预测信息的技术,包括基于知识或概率的推断、优化预测、基于偏好的规划和建议。知识表达是用于将人类经验信息自动化成知识数据的技术,包括知识构建(数据生成或分类)和知识管理(数据利用)。运动控制是用于控制车辆的自动行驶和机器人运动的技术,包括运动控制(导航、碰撞、驾驶)、操作控制(行为控制)等。

近来,通过电话咨询提供各种服务。然而,传统的电话仅仅对用户的询问提供语音答复,因此用户往往难以正确理解对用户询问的解决方案。在传统的电话咨询的情况中,由于用户需要根据一个接一个的语音消息对电话咨询作出回应来获得对用户询问的解决方案,因此用户可能会感到不耐烦。



技术实现要素:

技术问题

本公开的实施方式克服了以上缺点和以上未描述的其它缺点。而且,不要求本公开克服以上描述的全部缺点,并且本公开的实施方式可以不克服上面描述的任一问题。

本公开的目标是提供一种使用经训练的人工智能模型以语音和图像对用户的语音提供响应的电子装置及其控制方法。

技术方案

根据实施方式,提供了一种控制电子装置的方法,该方法包括:基于接收到用户输入建立与电话号码的呼叫连接;在执行呼叫的同时接收用户语音;将用户语音发送给与电话号码对应的外部服务器;从外部服务器接收通过将用户语音输入到经人工智能算法训练的人工智能模型而获取的与语音和图像有关的信息;以及基于与语音有关信息通过扬声器输出对用户语音的响应,并基于与图像有关的信息在电子装置的屏幕上提供包括对用户语音的响应的向导屏幕。

根据实施方式,提供了一种电子装置,它包括显示器、扬声器、麦克风、通信单元、存储计算机可读指令的存储器、以及电连接至显示器、扬声器、麦克风、通信单元和存储器并控制电子装置的处理器,其中处理器被配置为基于接收到用户输入建立与电话号码的呼叫连接、在建立与电话号码的呼叫连接的同时接收用户语音、控制通信单元将用户语音发送给与电话号码对应的外部服务器、从外部服务器接收通过将用户语音输入到经人工智能算法训练的人工智能模型而获取的与语音和图像有关的信息,并且基于与语音有关的信息通过扬声器输出对用户语音的响应且基于与图像有关的信息控制显示器提供包括对用户语音的响应的向导屏幕。

技术效果

通过前述的公开内容,用户能够正确、方便地在执行电话咨询的同时接收对用户询问的响应。具体地,用户可直接询问和获取期望的信息,而不是根据预定的语音消息获取信息,因此可提高用户便利性。

附图说明

通过参考附图描述本公开的某些实施方式,本公开的以上方面和其它方面更明显,在附图中:

图1是描述根据实施方式的以语音和图像对用户的语音提供响应的实施方式的视图;

图2是示出根据实施方式的包括用于对用户的语音提供响应的电子装置和服务器的系统的视图;

图3a和图3b是示出根据实施方式的电子装置的配置的框图;

图4是描述根据一个实施方式的以语音和图像对用户的语音提供响应的实施方式的流程图;

图5是描述根据另一实施方式的以语音和图像对用户的语音提供响应的实施方式的流程图;

图6a、图6b、图6c、图6d和图6e是描述根据实施方式的以语音和图像对用户的语音提供响应的实施方式的视图;

图7、图8和图9是描述根据实施方式的选择向导屏幕上显示的多个图标的实施方式的视图;

图10是描述根据实施方式的向交互工作的应用登记与附加语音有关的信息的实施方式的视图;

图11是示出根据实施方式的控制电子装置的方法的流程图;

图12是描述以语音和图像对用户的语音提供响应的电子装置的实施方式的流程图;

图13是示出根据实施方式的学习和使用对用户的询问提供响应的人工智能模型的外部装置的配置的框图;

图14a和图14b是示出根据实施方式的学习单元和判定单元的配置的框图;以及

图15是网络系统使用根据实施方式的人工智能模型的流程图。

具体实施方式

下面描述中使用的术语和词语不限于书面含义,而是仅由发明人用于使得清楚、一致地理解本公开。由此,对本领域技术人员而言应该明显的是,下面对本公开的各种实施方式的描述被提供仅用于说明而非用于限制由所附权利要求及其等同限定的本公开。

在本文献中,表达“具有”、“可以具有”、“包括”或“可以包括”可用于表示特征(例如,数值、功能、操作)的存在而不排除附加特征的存在。

在本文献中,表达“a或b”、“a和/或b中的至少一个”或“a和/或b中的一个或多个”等包括所列项的所有可能组合。例如,“a或b”、“a和b中的至少一个”或“a或b中的至少一个”包括(1)至少一个a、(2)至少一个b、(3)至少一个a和至少一个b。

诸如“第一”、“第二”等的术语可用于描述各种元件,但是元件不应该受限于这些术语。这些术语是仅用于区分一个元件与另一个元件的标签。

将理解,元件(例如,第一元件)“操作地或通信地联接至”另一元件(例如,第二元件)指任一这种元件可直接连接至其它元件或可经由另一元件(例如,第三元件)连接至其它元件。另一方面,当元件(例如,第一元件)“直接连接”或“直接接触”另一元件(例如,第二元件)时,可理解元件之间没有其它元件(例如,第三元件)。

在本文中,表达“被配置为”能够与例如“适用于”、“具有......的能力”、“被设计为”、“适于”、“被制为”或“能够”互换使用。表达“被配置为”不一定表示在硬件方面“特别被设计为”。替代地,在一些环境下,“装置被配置为”可指示这种装置能够与另一装置或零件一起执行操作。例如,表达“被配置为执行a、b和c的处理器”可指示执行相应操作的专用处理器(例如,嵌入式处理器)、或能够通过执行存储在存储器装置中的一个或多个软件程序执行相应操作的通用处理器(例如,中央处理器(cpu)或应用处理器(api))。

根据本公开的各个实施方式的电子设备或外部装置可包括例如智能电话、平板电脑、移动电话、视频电话、电子书阅读器、桌上型电脑、膝上型电脑、笔记本计算机、工作站、服务器、pda、便携式多媒体播放器(pmp)、mp3播放器、医疗装置、相机、或可穿戴装置中的至少一个。可穿戴装置可包括配饰类型(例如,手表、环、手镯、手链、项链、眼镜、隐形眼镜或头戴装置(hmd))、织物或衣物嵌入式(例如,护皮垫或纹身)或生物可移植电路中的至少一个。在一些实施方式中,电子设备可以是例如电视机、数字视频光盘(dvd)播放器、音频装置、冰箱、清洁器、微波炉、微波装置、洗衣机、空气净化器、机顶盒、家用自动控制面板、安全控制面板、媒体盒(例如,:samsunghomesynctm、appletvtm或googletvtm)、游戏控制台(例如,xboxtm、playstationtm)、电子词典、电子密钥、摄录像机、或电子框架。

在其它实施方式中,电子设备和外部装置可包括各种医疗装置(例如,各种便携式医疗测量装置诸如血糖仪、心率计、血压计、或测温装置)、磁共振血管造影仪(mra)、磁共振成像仪(mri)、计算机断层扫描仪(ct)、或超声波装置等)、导航系统、全球导航卫星系统(gnss)、事件数据记录仪(edr)、飞行数据记录仪(fdr)、车载信息娱乐装置、船用电子装备(例如,船用导航装置、陀螺罗盘等)、航电设备、安全装置、车头单元、工业或家用机器人、无人机、atm、商店销售点、或iot装置(例如,灯泡、传感器、洒水装置、火警警报器、恒温器、路灯、烤面包机、健身器、热水箱、加热器、锅炉等)中的至少一个。

在本公开中,术语用户可指使用电子设备的人或使用电子设备的设备(例子:人工智能电子设备)。

图1是描述根据实施方式的以语音和图像对用户的语音提供响应的实施方式的视图。

首先,电子装置100可根据用户命令登记一电话号码,用于通过视频和语音对用户询问提供响应。此时,电子装置100可登记电话号码和与该电话号码对应的外部服务器的信息。作为示例,根据本公开的一个实施方式,电话号码可以是客户咨询的电话号码、食品配送的电话号码、或餐厅预约的电话号码。

电子装置100可根据用户命令执行与先前登记的电话号码的呼叫连接。例如,如果在执行电话应用时选择了用户先前登记的电话号码,并且输入了呼叫命令,电子装置100则可执行与先前登记的电话号码的呼叫连接。此时,电子装置100可在呼叫连接期间通过显示器提供呼叫屏幕10,如图1的(a)所示。

而且,当执行与先前登记的电话号码的呼叫连接时,电子装置100可执行人工智能专用程序。替代地,当人工智能专用程序处于非活动状态时,电子装置100可激活人工智能专用程序。这里,人工智能专用程序是用于以语音和图像对用户的语音提供响应的程序。该程序可以被称为诸如视觉助理、个人助理程序等各种术语。

在与先前登记的电话号码的呼叫连接被执行之后,电子装置100可通过麦克风接收用户的语音。这里,用户的语音可以是用于询问特定信息的用户语音,例如“请告诉我修理移动电话的服务中心”的语音。

电子装置100可将通过麦克风输入的用户语音发送给外部服务器。此时,外部服务器可包括用于将用户语音转换成文本或将文本转换成语音消息的第一服务器、以及用于基于转换的文本提供包含对用户语音的响应的与语音和图像有关的信息的第二服务器,但是这仅是示例并且实施方式也可被实现为单个服务器。

外部服务器可通过声转文(stt)技术将从电子装置100接收的用户语音转换成文本。外部服务器可将转换的文本输入到经人工智能算法训练的人工智能模型以获取包含对用户语音的响应的与语音和图像有关的信息。这里,与语音有关的信息可以作为音频数据以包含对用户语音的响应的语音消息的形式被发送至电子装置100。根据另一实施方式,与语音有关的信息是由第二服务器获得的文本信息、可由第一服务器使用文转声(tts)技术转换成语音消息并被发送给电子装置100。此外,与图像有关的信息可以是包含对用户语音的响应的诸如文本、图像、url等信息。另外,与语音有关的信息可以和与图像有关的信息相同,但是这仅是示例,与语音有关的信息也可包括与图像有关的信息的一部分或包括对图像进行概述的信息。

外部服务器可向电子装置100提供包含对用户语音的响应的与语音和图像有关的信息。例如,与语音有关的信息可以是“这是与附近服务中心的位置有关的向导。附近服务器中心位于~”,并且与图像有关的信息可以是包含与附近服务有关的信息的图像或url信息。

而且,电子装置100可将用户的语音和从传感器获取的电子装置的状态信息(例如,电子装置的位置信息)一起发送给外部服务器。此时,外部服务器可将电子装置的状态信息和用户的语音输入到人工智能模型以获得包含对用户语音的响应的与语音和图像有关的信息并将该信息发送给电子装置100。

电子装置100可基于接收到的与语音和图像有关的信息对用户语音提供响应。特别地,电子装置100能够基于接收到的与语音有关的信息通过扬声器输出对用户语音的响应。另外,电子装置100可基于与图像有关的信息在呼叫屏幕10上提供包含对用户语音的响应的向导屏幕。例如,电子装置100可经由扬声器输出语音消息作为用户语音的响应,“这是与附近服务中心的位置有关的向导。附近服务中心位于~”。如图1的(b)所示,电子装置可在呼叫屏幕10的一部分区域上提供向导屏幕20,其中向导屏幕20包括与服务中心有关的信息作为对用户语音的响应。

此时,当用户的附加语音被输入时,电子装置100可通过上述操作从外部服务器接收包含对附加语音的响应的与语音和图像有关的信息,并以语音和图像的方式提供与附加语音相关的响应。

另外,当在向导屏幕上接收到用户输入时,电子装置100可根据用户输入提供包括新信息的向导屏幕。例如,如图1的(b)所示,在显示包括服务中心的简要信息的向导屏幕20的同时,接收到触摸向导屏幕20的区域的用户输入。如图1的(c)所示,电子装置100可提供包括服务中心的详细信息的向导屏幕30。这里,向导屏幕30可以通过用户的输入被扩展并在电子装置100的显示器上全屏显示。

而且,当在向导屏幕被提供时输入了用于向外部服务器发送图像的用户命令时,电子装置100可根据用户命令向外部服务器发送图像。此时,该图像是用于获取详细信息的图像,例如表示当前用户位置的图像、表示故障电子装置的状态的图像等。外部服务器可将图像输入到人工智能模型以获得包含对该图像的响应的与语音和图像有关的信息,并可将获得的与语音和图像有关的信息发送给电子装置100。例如,如果接收到的图像是表示当前用户位置的图像,则与语音和图像有关的信息可以是指示从该用户位置到服务中心的移动路径的信息。

电子装置100可以基于通过输入图像获取的与语音有关的信息输出对图像的响应,并基于通过输入图像获得的与图像有关的信息在向导屏幕上提供与该图像相关的响应。

同时,如上所述由外部服务器提供的经训练的模型可以是基于人工智能算法训练的判断模型,例如基于神经网络的模型。经训练的判断模型可包括多个加权网络节点,多个加权网络节点可被设计为在计算机上模拟人脑结构并模拟人类神经网络的神经元。多个网络节点可均建立连接关系使得神经元模拟神经元通过突触发送和接收信号的突触活动。而且,经训练的判断模型可包括例如神经网络模型或从神经网络模型发展的深度学习模型。在深度学习模型中,多个网络节点可以位于不同的深度(或层),并且根据卷积连接关系发送和/或接收数据。经训练的判断模型的示例可包括,但不限于,深度神经网络(dnn)、递归神经网络(rnn)、双向递归深度神经网络(brdnn)。

为了接收以语音和图像方式对用户语音的响应,电子装置100可使用个人助理程序,即人工智能专用程序(或人工智能代理)。这里,个人助理程序是提供基于ai的服务的专用程序,并可由通用处理器(例如,cpu)或单独的ai专用处理器(例如,gpu等)执行。

特别地,如果输入了预设的用户输入(例如,与个人助理聊天机器人对应的图标触摸、包含预定词的用户语音等)、或按下了设置在电子装置100上的输入按钮(例如,执行人工智能代理的按钮)、或执行了与先前登记的电话号码的呼叫连接,则可操作(或执行)人工智能代理。人工智能代理可向外部服务器发送输入的用户语音,基于从外部服务器接收的与语音有关的信息通过扬声器提供对用户语音的响应,并且基于从外部服务器接收的与图像有关的信息提供包括对用户语音的响应的向导屏幕。

如果在屏幕上检测到预定的用户输入、或按下了按钮(例如,用于执行ai代理的按钮)、或与先前登记的电话号码进行呼叫连接,则ai代理可进行操作。替代地,人工智能代理可处于预定的用户输入被感测到或设置在电子装置100中的按钮被选择的状态、或处于与先前登记的电话号码的电话连接被执行之前的状态。在此情况中,在预定的用户输入被检测到或设置在电子装置100上的按钮被选择或与先前登记的电话号码的呼叫连接被执行之后,电子装置100的ai代理可提供包含对用户语音的响应的语音和图像。ai代理也可以处于预定的用户输入被检测到或设置在电子装置100中的按钮被选择或与先前登记的电话号码的呼叫连接被执行之前的待机状态。这里,待机状态是接收用于控制启动ai代理的操作的预定义的用户输入的状态。如果在人工智能代理处于待机状态或设置在电子装置100上的按钮被选择和与登记的电话号码的呼叫连接被执行的同时检测到预定的用户输入,则电子装置100可操作ai代理并提供包含对用户语音的响应的语音和图像。

在本公开的另一实施方式中,当电子装置100使用人工智能模型来获得包含对用户语音的响应的与语音和图像有关的信息时,ai代理可控制ai模型来获取与语音和图像有关的信息。此时,ai代理可对外部服务器执行上面描述的操作。

图2是示出根据实施方式的包括用于提供对用户语音的响应的电子装置和服务器的系统的视图。如图2所示,系统可包括电子装置100、第一服务器200-1和第二服务器200-2。

电子装置100可存储有人工智能专用的程序。电子装置100可通过使用人工智能专用程序向外部的第一服务器200-1发送用户语音,基于从第一服务器2001接收的与语音有关的信息向扬声器输出包含对用户语音的响应的语音,并基于从第二服务器200-2接收的与图像有关的信息输出包括对用户语音的响应的向导屏幕。

当用于登记新电话号码的事件(例如,从外部源接收到与新电话号码有关的信息的事件、输入用于登记新电话号码的用户命令的事件等)发生时,电子装置100可登记新电话号码,此时与新电话号码对应的第二服务器200-2的信息可与该电话号码关联地被存储。

电子装置100可根据用户命令执行与先前登记的电话号码的呼叫连接。此时,当呼叫连接被执行时,电子装置100可执行(或激活)人工智能专用程序。电子装置100还可向第一服务器200-1和第二服务器200-2中的至少一个发送指示呼叫连接被执行的信号。

在呼叫连接被执行之后,电子装置100可通过麦克风接收用户的语音。这里,用户的语音可以是查询特定信息的询问。

如果用户的语音被输入,则电子装置100可向外部的第一服务器200-1发送输入的用户语音。电子装置100可向第二服务器200-2发送由传感器获得的电子装置100的状态信息(例如,gps信息等)。

第一服务器200-1可使用stt技术将接收的用户语音从音频数据转换成文本数据,并将转换的文本数据发送给第二服务器200-2。

第二服务器200-2可将接收的文本数据输入到使用ai算法训练过的ai模型并且获取与语音和图像有关的信息作为对用户询问的响应。这里,ai模型可以是被训练为通过输入文本获取与具体信息相关的包含对文本的响应的与语音和图像有关的信息的模型。具体地,第二服务器200-2可存储与呼叫连接的电话号码对应的ai模型。例如,如果用于呼叫连接的电话号码是客户服务的号码,则ai模型可以是被训练为获取客户服务的响应的模型。另外,如果用于呼叫连接的电话号码是餐厅预约的号码,则ai模型可以是被训练为获取预约餐厅的响应的模型。

当从电子装置100接收到电子装置100的状态信息时,第二服务器200-2将电子装置100的状态信息和文本一起输入到人工智能模型并获得包含对用户语音的响应的与语音和图像有关的信息。例如,当接收到电子装置100的位置信息和询问客户中心的文本时,第二服务器200-2在人工智能模型中输入电子装置100的位置信息和文本以基于用户的当前位置获取用于指引客户中心位置的语音和图像。

这里,与语音有关的信息可以是文本数据,但是这仅是示例并且该信息可以是音频数据。此时,如果与语音有关的信息是文本数据,则与语音有关的信息可被发送给第一服务器200-1、通过tts技术被转换成音频数据并被发送给电子装置100。而且,如果与语音有关的信息是音频数据,则与语音有关的信息可以被直接发送给电子装置100。

而且,与图像有关的信息可以是文本数据、图像数据和运动的图像数据中的至少一个,但是这仅是示例并且本公开不限于此。该信息可以是包含文本、图像和运动图像中的至少一个的网页的地址信息(例如,url信息)。

电子装置100可基于接收到的与语音有关的信息向扬声器输出包含对用户语音的响应的语音消息。而且,电子装置100可基于接收到的与图像有关的信息在呼叫屏幕上提供包含对用户语音的响应的向导屏幕。

在向导屏幕被显示时,当用户的输入(例如,用户的触摸、用户的附加语音、发送图像的用户输入等)被接收到时,电子装置100可根据用户的输入执行附加的操作。

在上面描述的实施方式中,外部服务器被划分成第一外部服务器200-1和第二外部服务器200-2。然而,本公开不限于此并且外部服务器200-1和第二外部服务器200-2可被实现为单个服务器。也就是说,一个服务器可将从电子装置100接收的用户语音转换成文本数据,并通过将文本数据输入到ai模型及获取包含对用户语音的响应的与语音和图像有关的信息。另外,如果服务器被实现为单个服务器,电子装置100可将用户语音转换成文本并将文本数据发送给外部服务器。

如图3a所示,电子装置100可包括显示器110、通信单元120、存储器130、扬声器140、麦克风150和处理器160。图3a中所示的配置是用于实现本公开的实施方式的示例图,并且电子装置100还可包括对本领域技术人员而言明显的合适的硬件和软件配置。

显示器110可提供各种屏幕。具体地,如果进行了呼叫连接,则显示器110可提供呼叫屏幕。这里,呼叫屏幕可包括用于控制通话的多个图标和信息(例如,电话号码、呼叫者名称、电话号码所登记的组等)。

当在执行与先前登记的电话号码的呼叫连接之后从外部服务器接收到包含对用户语音的响应的与图像有关的信息时,显示器110可根据处理器160的控制在屏幕上提供包含对用户语音的响应的向导屏幕。此时,显示器110可在呼叫屏幕的一个区域显示向导屏幕或以弹出窗的形式显示向导屏幕,但是这仅是实施方式并且向导屏幕可通过整个屏幕被显示。

通信单元120可通过各种通信方法执行与外部装置的通信。具体地,通信单元120可向外部服务器200发送用户语音,并且可从外部服务器200接收包含对用户语音的响应的与语音和图像有关的信息。这里,通信单元120可根据各种类型的通信协议执行与各种类型的外部装置的通信。通信单元120可包括wi-fi芯片、蓝牙芯片和无线通信芯片(4g、5g等)中的至少一个。处理器160可使用通信单元120与外部服务器或各种外部装置通信。另外,通信单元120可通过诸如nfc芯片的各种通信芯片执行与外部装置的通信。

存储器130可存储与电子装置100的至少一个其它元件相关的指令或数据。具体地,存储器130可被实现为非易失性存储器、易失性存储器、闪存存储器、硬盘驱动器(hdd)、或固态驱动器(ssd)。存储器130由处理器160存取,数据的读取、记录、修改、删除和更新可由处理器160执行。在本公开中,术语存储器可包括存储器130、rom(未示出)、处理器160内的ram、或安装到电子装置100的存储卡(例如,微型sd卡、记忆棒)。另外,存储器130可存储程序和数据以配置待被显示在显示器110的显示区域的各种屏幕。

具体地,存储器130可存储人工智能专用程序。此时,人工智能专用程序是用于为电子装置100提供各种服务的个性化程序。具体地,人工智能专用程序可提供用户语音的响应和图像。

根据实施方式,存储器130可存储经训练的ai模型以通过语音和图像提供对用户语音的响应。

扬声器140是输出执行诸如解码、放大和噪声滤除的各种处理工作所针对的音频数据而且输出通知或语音消息的配置。具体地,扬声器140可输出基于包含对用户语音的响应的与语音有关的信息而获得的语音消息信息。此时,多个扬声器140可被设置在电子装置的多个区域(例如,电子装置的正面的上部区域或电子装置的下侧区域等)。

麦克风150是接收用户语音的配置。这里,麦克风150可被设置在电子装置100的内部以接收用户的语音,但是这仅是示例并且可由电连接至电子装置100的外部麦克风实现。

经由一个或多个总线与显示器110、通信单元120、存储器130、扬声器140和麦克风150电连接的处理器160可控制电子装置100的整体操作和功能。

特别地,处理器160根据用户命令执行与预登记的电话号码的呼叫连接,在通话期间通过麦克风150接收用户的语音,控制通信单元120向与登记的电话号码对应的外部服务器发送输入的语音,接收通过将用户的语音输入到经人工智能算法训练的人工智能模型而获得的信息,基于接收的与语音有关的信息通过扬声器140输出对用户语音的响应,并基于与图像有关的信息控制显示器110在呼叫屏幕上提供包括对用户语音的响应的向导屏幕。

另外,处理器160在向导屏幕被提供时通过麦克风接收用户的附加语音,控制通信单元120将附加语音发送给外部服务器,从外部服务器接收通过将附加语音输入到ai模型而获取的与语音和图像相关的信息,基于通过输入附加语音获得的与语音有关的信息通过扬声器140输出对附加语音的响应,并基于通过输入附加语音获取的与图像有关的信息控制显示器110在向导屏幕上提供对附加语音的响应。也就是说,即使用户在向导屏幕被显示时没有听清预定的语音消息,用户也可主动输入附加语音以保持获取用户期望的信息。

也就是说,即使用户在向导屏幕被显示时没有听清预定的语音消息,用户也可主动输入附加语音并继续获取用户期望的信息。

另外,处理器160可控制通信单元120向外部服务器发送使用传感器(图3b的180)获取的电子装置的状态信息(例如,位置信息和移动信息等)。这里,可通过将电子装置的状态信息和用户语音输入到ai模型来获取与语音和图像有关的信息。

另外,处理器160在向导屏幕被提供的同时根据用户命令控制通信单元120向外部服务器发送图像,通过通信单元120从外部服务器接收通过向ai模型输入图像而获得的与语音和图像有关的信息,基于通过输入图像获取的与语音有关的信息通过扬声器140输出对图像的响应,并基于通过输入图像获取的与图像有关的信息控制显示器110在向导屏幕上提供对图像的响应。

当执行与预登记的电话号码的呼叫连接时,处理器160可执行ai专用程序以通过语音和图像对用户的语音提供响应。

另外,处理器160在向导屏幕被提供的同时通过麦克风150接收附加语音,并且能够在与人工智能专用程序交互工作的应用中登记与附加语音相关的信息。例如,当经由麦克风150输入了用于服务中心预约的附加语音时,处理器160可在与人工智能专用程序交互工作的日历应用中登记与附加语音相关的预约信息。

而且,当用于登记特定电话号码的用户命令被输入时,处理器160可在存储器130中登记特定电话号码和与特定电话号码对应的外部服务器。然后,当与登记的电话号码的呼叫连接被执行时,处理器160可执行人工智能专用的程序以通过图像和语音对用户的语音提供响应。

同时,根据实施方式的向导屏幕可包括至少一个图标。这里,至少一个图标可包括用于提供信息的图标、用于执行与相关的电话号码的呼叫连接的图标和用于提供用于共享相关信息的ui的图标,但是本公开不限于此。

图3b是示出根据本公开的实施方式的电子装置100的配置的框图。如图3b所示,电子装置100可包括显示器110、通信单元120、存储器130、扬声器140、麦克风150、输入单元170、传感器180、相机190和处理器160。由于显示器110、通信单元120、存储器130、扬声器140和麦克风150已经参考图3a进行了描述,因此它们的冗余描述将被省略。

输入单元170可接收各种用户输入并将输入发送给处理器160。具体地,输入单元170可包括触摸传感器、(数字)笔传感器、压力传感器、按键或麦克风。触摸传感器可使用例如静电型、压敏型、红外型和超声波型中的至少一个。(数字)笔传感器可以是例如触摸面板的一部分或可包括单独的识别板。按键可包括例如物理按钮、光学按键或小键盘。麦克风可被设置在电子装置100的内部用于接收用户的语音,但也可被设置在电子装置100的外部以电连接至电子装置100。

具体地,输入单元170可包括用于选择与ai专用程序对应的图标的预设用户触摸、用于选择设置在电子装置100外的按钮的用户输入,并根据用于执行与预登记的电话号码的呼叫连接的用户输入获取输入信号。然后输入单元170可将输入信号发送给处理器160。

传感器180可获取感测数据以获取电子装置100的状态信息。传感器180可包括gps传感器以获取电子装置100的位置信息,并可包括诸如加速度传感器、陀螺仪传感器、地磁传感器等的各种运动传感器以获取电子装置100的运动信息。另外,传感器180还可包括能够获取电子装置100周围的诸如温度、湿度等的环境信息的传感器等。

作为本公开的另一示例,电子装置100可通过传感器180以外的方法获取电子装置100的状态信息。例如,电子装置100可使用通信单元120的wi-fi芯片获取电子装置100的位置信息。

相机190可拍摄包括电子装置100外的对象的图像。此时,相机190可被设置在电子装置100的正面和背面中的至少一个上。相机190可被设置在电子装置100内但是可经由有线或无线连接连接至电子装置100,相机190也可位于电子装置100外。

处理器160(或控制器)可通过读取和执行存储在存储器130中的各种程序来控制电子装置100的整体操作。

处理器160可包括ram161、rom162、图形处理单元163、主cpu164、第一接口165-1至第n接口165-n和总线166。这里,ram161、rom162、图形处理单元163、主cpu164、第一接口165-1至第n接口165-n等可经由总线166连接至彼此。

图4是描述根据实施方式的以语音和图像对用户的语音提供响应的实施方式的流程图。

首先,电子装置100可执行与先前登记的电话号码的呼叫连接(s405)。此时,电子装置100可执行人工智能专用程序。另外,预登记的电话号码可以是用于请求特定信息或接收特定服务的电话号码,例如诸如客户咨询电话号码、餐厅预约电话号码、旅行预约电话号码等各种电话号码。

电子装置100可接收用户的语音(s410)。这里,用户的语音可以是查询特定信息的询问。

电子装置100可将输入的用户语音发送给第一服务器200-1(s415)。这里,用户的语音可以是音频数据的形式。

第一服务器200-1可将接收的用户语音转换成文本(s420)。具体地说,第一服务器200-1可使用stt技术将音频格式的用户语音转换成文本。

第一服务器200-1可将转换的文本发送给第二服务器200-2(s425)。电子装置100还可使用从传感器180获取的感测数据以获得电子装置100的状态信息。电子装置100可将获得的状态信息发送给第二服务器200-2(s430)。此时,电子装置100的状态信息可通过第二服务器200-2的请求而被发送,但是这仅是示例并且状态信息可与用户的语音一起被发送。

第二服务器200-2可将文本和电子装置的状态信息输入到ai模型以获得与语音和图像有关的信息(s435)。此时,ai模型可以是通过输入文本和状态信息以及通过获取包含对用户语音的响应的与语音和图像有关的信息训练的模型。另外,通过人工智能模型获得的与语音和图像有关的信息可包括对用户语音的响应。也就是说,通过人工智能模型获得的与语音和图像有关的信息可包括与用户所请求的服务或信息有关的信息。

第二服务器200-2可将与语音有关的信息发送给第一服务器200-1(s440)。这里,与语音有关的信息可以是包含用户所请求的信息的文本数据。

第一服务器200-1可将与语音有关的信息转换成语音消息(s445)。也就是说,第一服务器200-1可通过tts技术将文本数据格式的与语音有关的信息转换成语音消息(即,音频数据)。

而且,第二服务器200-2可将与图像有关的信息发送给电子装置100(s455)。这里,与图像有关的信息可包括文本、图像和运动图像中的至少一个以及用于提供文本、图像和运动图像中的至少一个的网页有关的信息。具体地,根据本公开的一个实施方式,步骤s455可在步骤s445之后执行,但是这仅是示例,步骤s445和s455可同时执行。

电子装置100可将从第一服务器200-1接收的语音消息输出到扬声器140并且基于从第二服务器200-2接收的与图像有关的信息在呼叫屏幕上提供向导屏幕(s460)。这里,向导屏幕可包括对用户语音的响应,并包括接收文本、图像和运动图像以外的用户命令的ui。由此,用户不仅可以以语音方式接收与用户询问相关的响应,而且可以以图像方式接收与用户询问相关的响应。

图5是描述根据另一实施方式的以语音和图像对用户的语音提供响应的实施方式的流程图。

电子装置100可建立与预登记的电话号码的呼叫连接(s510)。

电子装置100可接收用户的语音(s520)。这里,用户的语音可以是查询特定信息的询问。

电子装置100可将输入的用户语音和电子装置100的状态信息发送给第一服务器200-1(s530)。此时,用户的语音可以是音频数据,但是这仅是示例并且音频数据可被电子装置100转换成文本数据。

外部服务器200可将输入的文本和电子装置100的状态信息输入到人工智能模型以获得与语音和图像有关的信息(s540)。此时,ai模型可以是用于通过输入用户的语音和状态信息获取包含对用户语音的响应的与语音和图像有关的信息的训练模型。这里,用户的语音可以是文本数据或音频数据。

外部服务器200可将与语音和图像有关的信息发送给电子装置100(s550)。这里,语音有关的信息可包括音频数据作为包含对用户语音的响应的信息,但它也可以是文本数据,这仅是示例。另外,与图像有关的信息可包括文本、图像和运动图像中的至少一个以及用于提供文本、图像和运动图像中的至少一个的网页有关的信息(例如,url信息)。

电子装置100可基于与语音有关的信息将包含对用户语音的响应的语音输出到扬声器并且基于与图像有关的信息在呼叫屏幕上提供包括响应的向导屏幕(s560)。

图6a至图6e是描述根据实施方式的以语音和图像对用户的语音提供响应的实施方式的视图。

首先,电子装置100根据用户的输入执行与先前登记的电话号码的呼叫连接。特别地,如图6a所示,当在执行电话应用时按下先前登记的电话号码(例如,1588-xxxx)之后按下呼叫按钮时,呼叫屏幕610可被提供并且与预登记的电话号码的呼叫连接可被执行。这里,预登记的电话号码可以是客户服务的号码。

在呼叫连接被执行之后,电子装置100可通过麦克风150接收用户的语音。此时,用户的语音可包括语音“请通知服务中心”。电子装置100可将输入的用户语音发送给外部服务器200。

这里,外部服务器200可将请求电子装置100的位置信息的信号发送给电子装置100,电子装置100可响应于此信号向外部服务器200发送电子装置100的位置信息。替代地,电子装置100可发送电子装置100的位置信息和用户的语音,并可以以预定周期向外部服务器200发送电子装置100的位置信息。

外部服务器200可将用户的语音(或用户的语音转换得到的文本)和位置信息输入到ai模型并获取包含对用户语音的响应的与语音和图像有关的信息。然后外部服务器200可向电子装置100发送包含对用户语音的响应的与语音和视频有关的信息。

基于与语音有关的信息,电子装置100可通过扬声器140输出语音消息“找到附近的3个位置:yanjae移动中心、seocho中心和bangbae移动中心。如果你想要特定位置的中心,请让我知道相应区域的郡、区、洞的名称)”。如图6b所示,响应于对呼叫屏幕610上的一个区域的用户语音,包括服务中心的信息的向导屏幕620可被提供。

在向导屏幕620被显示的同时,当用户的第一附加语音“请让我知道seocho中心的位置”被输入时,电子装置100可向外部服务器200发送输入的第一附加信息。

外部服务器200可将第一附加信息输入到ai模型以获取包含对第一附加语音的响应的与语音和图像有关的信息并将获取的与语音和图像有关的信息发送给电子装置100。

电子装置100可通过扬声器140输出与第一附加语音相关的语音消息“它在首尔市seocho区seocho2洞1341-1号seocho数码广场2楼。您可以从bangbang路口向nambu站方向直行300m,然后在位于mujigaeatp十字路口二楼找到三星数码大厦。您的询问得到回答了吗?”,并且如图6c所示,可在显示器110的整个区域提供包括响应于第一附加语音的与seocho中心有关的信息(例如,地图信息和地址信息)的向导屏幕630。此时,如图6c所示,向导屏幕630可包括能够执行各种服务的多个图标和与该中心有关的信息。

在向导屏幕630被显示时,如果通过麦克风150用户的第二附加语音“去seocho在哪停车?”,电子装置100可向外部服务器200发送输入的第二附加信息。

外部服务器200可将输入的第二附加语音输入到ai模型以获取包含对第二附加语音的响应的与语音和图像有关的信息,并将获取的与语音和图像有关的信息发送给外部服务器100。此时,ai模型可仅使用第二附加语音提供与语音和图像有关的信息但是也可基于现存的语言历史(例如,用户的语音和第一附加语音等)提供与语音和图像有关的信息。也就是说,如果第二附加语音“去seocho在哪停车?”被输入,则ai模型可提供seocho中心的停车信息,而不是提供seocho区的信息。

基于与语音有关的信息,电子装置100通过扬声器140输出第二附加语音的语音消息“你可将车停在建筑的地下,停车场的入口位于建筑的左侧。停车场非常拥挤且因为是塔式停车场所以停车可能会花点时间,推荐使用公共交通。您的问题是否已得到回答?”,并且如图6d所示,可响应于第二附加语音在显示器110的整个区域提供包括与seocho中心有关的停车信息(例如,停车场入口的图像、停车方法等)的向导屏幕640。

在向导屏幕640被显示时,如果用户的第三附加语音“去bangbae中心要多久”被输入,则电子装置100可向外部服务器200发送输入的第三附加信息。

外部服务器200可将第三附加语音输入到ai模型,获取包含对第三附加语音的响应的与语音和图像有关的信息,并将获取的与语音和图像有关的信息发送给电子装置100。

电子装置100可基于与语音有关的信息通过扬声器140输出与第三附加语音相关的语音消息“服务中心的等候状态正常,从到达中心到开始修理似乎要花10分钟到25分钟。您的问题是否已得到回答?”,并且如图6e所示,可在显示器110的整个区域提供包括响应于第三附加语音的与bangbae中心有关的信息(例如,等候时间和预约信息等)的向导屏幕650。

如上所述,通过以语音和图像方式接收对用户语音的响应,用户可更方便和精确地接收响应。另外,通过由用户询问信息来代替预定的语音消息,用户可更快速地获取期望的信息。

电子装置100可提供向导屏幕中包括的多个图标作为各种服务。

特别地,如图7的左侧所示,电子装置100可提供包括第一至第五图标(710-1至710-5)的向导屏幕710。此时,第一图标710-1可以是确认“到来路线”的信息的图标,第二图标710-2可以是与其他人共享中心信息的图标,第三图标710-3可以是中心预约的图标,第四图标710-4可以是用户询问的图标,第五图标710-5可以是执行与中心的呼叫连接的图标。

在向导屏幕710被显示时,当如图7的左侧所示接收到用于选择第一图标710-1的用户输入时,电子装置100可在向导屏幕710上提供与所选择的第一图标710-1对应的信息。例如,电子装置100可在图7的右侧提供包括“与位置有关的信息和去往seocho中心的路线”的向导屏幕720。

在向导屏幕710被显示时,当如图8的左侧所示接收到用于选择第五图标710-5的用户输入时,电子装置100可停止与预登记的电话号码的呼叫连接并执行与所选择的第五图标710-5对应的电话号码的呼叫连接。例如,电子装置100可停止与进行电话呼叫的电话号码的呼叫连接,执行与seocho中心所对应的电话号码的呼叫连接,并如图8的右侧所示提供与seocho中心的呼叫屏幕730。这里,当终止与seocho中心的呼叫连接时,可提供询问与预登记的电话号码的呼叫连接的通知消息。

在向导屏幕710被显示时,当如图9的左侧所示接收到用于选择第二图标710-2的用户输入时,电子装置100可提供用于将当前向导屏幕710上提供的信息的至少一部分发送给另一电子装置的ui。也就是说,如图9的中间部分所示,电子装置100可提供用于选择共享目标的ui740,以与之共享向导屏幕710上提供的信息之中的“seocho中心的信息”。这里,如图9的中间部分所示,ui740可包括选择共享目标的ui元素,但是这仅是示例,并也可包括用于选择用来发送消息的应用类型的ui元素。

当ui740中包括的多个共享目标中的至少一个被选择时,如图9的右侧所示,电子装置100可提供与所选择的共享目标的聊天屏幕750,并发送包含“seocho中心的位置信息”的消息。

另外,电子装置100可使用与当前运行的ai专用程序交互工作的应用提供各种服务。

特别地,在向导屏幕被提供时,当附加语音被输入时,电子装置100可在与人工智能专用程序交互工作的应用中登记与附加语音相关的信息。例如,如图10的左侧所示,当在向导屏幕1000被显示时输入了附加语音“请预约22日到访”时,电子装置100可检测到预约事件,并且在与人工智能专用程序交互工作的日历应用中登记与预约事件有关的信息。如图10的右侧所示,电子装置100可提供用于确认预约事件的日历应用的执行屏幕1010。

这里,电子装置100可直接识别用户的附加语音并检测预约事件,但是这仅是示例,并且电子装置100可通过外部服务器200接收与预约事件有关的信息。

而且,在向导屏幕被提供的同时,电子装置100可根据用户命令向外部服务器200发送图像。例如,电子装置100可向外部目的地发送由用户拍摄的蜂窝电话的外观图像。此时,电子装置100可向外部服务器200发送图像和用户语音“移动电话的液晶屏可能碎了”。

外部服务器200可将图像和用户语音输入到ai模型以获得与语音和图像有关的信息并将获得的与语音和图像有关的信息发送给电子装置100。这里,与语音和图像有关的信息可包括移动电话的液晶屏是否碎了的信息。

电子装置100可基于语音有关的信息通过扬声器140输出对图像和用户语音的响应,并基于与图像有关的信息在向导屏幕上提供对图像和用户语音的响应。例如,电子装置100可基于与语音有关的信息通过扬声器140输出语音消息“看起来你的移动电话的液晶屏碎了,请造访附近的零售店”,并且可基于与图像有关的信息在向导屏幕上提供与附近零售店有关的信息。

图11是示出根据实施方式的控制电子装置的方法的流程图。

电子装置100可根据用户命令执行与预登记的电话号码的呼叫连接(s1110)。这里,当执行与预登记的电话号码的呼叫连接时,电子装置100可执行ai专用程序以语音和图像对用户的语音提供响应。

在执行电话呼叫的同时,电子装置100可接收用户语音(s1120)。这里,用户语音可以是询问特定信息的语音。

电子装置100可将输入的用户语音发送给与预登记的电话号码对应的外部服务器(s1130)。根据实施方式,电子装置100可同时发送电子装置100的状态信息或基于外部服务器200的请求发送电子装置100的状态信息。

电子装置100可接收通过将用户语音输入到人工智能模型而获得的与语音和图像有关的信息(s1140)。此时,与语音有关的信息可以是包含对用户语音的响应的音频数据,与视频有关的信息可包括包含对用户语音的响应的文本、图像和运动图片的信息、或地址信息。此外,根据本公开的一个实施方式,可通过不仅将用户语音输入到ai模型而且将电子装置100的状态信息输入到ai模型来获得与语音和图像有关的信息。

电子装置100可基于接收到的与语音有关的信息通过扬声器输出对用户语音的响应,并基于与图像有关的信息在呼叫屏幕上提供包括对用户语音的响应的向导屏幕(s1150)。

图12是描述以语音和图像对用户语音提供响应的电子装置的实施方式的流程图。

电子装置100可根据用户命令执行与先前登记的电话号码的呼叫连接(s1210)。这里,如果执行与预登记的电话号码的呼叫连接,则电子装置100可执行专用的人工智能程序以语音和图像对用户的语音提供响应。

在执行电话呼叫的同时电子装置100可接收用户语音(s1220)。这里,用户语音可以是询问特定信息的语音。

电子装置100可通过将用户语音输入到人工智能模型来获取与语音和图像有关的信息(s1230)。也就是说,电子装置100可存储经训练的ai模型以通过输入用户语音来获取包含对语音的响应的与语音和图像有关的信息。然后,电子装置100可使用存储的人工智能模型获得包含对用户语音的响应的与语音和图像有关的信息。

此时,电子装置100可将用户语音直接输入到ai模型,但是这仅是实施方式,并且用户语音可被外部stt服务器转换成文本然后转换的文本可被输入到ai模型。另外,电子装置100可通过向外部tts服务器发送文本形式与语音有关的信息来获得音频数据,所述文本形式的与语音有关的信息包含通过人工智能模型输入的对用户语音的响应。

电子装置100可基于与语音有关的信息通过扬声器输出对用户语音的响应并基于与图像有关的信息在呼叫屏幕上提供包括对用户语音的响应的向导屏幕(s1240)。

图13是示出根据实施方式用来学习和使用对用户的询问提供响应的人工智能模型的外部装置的配置的框图。

参考图13,外部服务器1300可包括学习单元1310和响应单元1320中的至少一个。图13的外部服务器1300可对应于图2的第二外部服务器200-2。

学习单元1310可使用学习数据来生成或训练ai模型,其中ai模型具有用于对用户的语音提供响应的准则。而且,学习单元1310可使用收集的学习数据生成具有判定准则的判定模型。

例如,学习单元1310可学习获取包含对用户语音的响应的与语音和图像有关的信息作为用户语音的学习数据。而且,学习单元1310可使用用户语音和电子装置的状态信息作为学习数据来生成、学习或更新用于提供包含对用户语音的响应的与语音和图像有关的信息的人工智能模型。

响应单元1320可使用预定数据作为经训练的ai模型的输入数据,获取包含对预定用户语音的响应的与语音和图像有关的信息。

例如,响应单元1320可使用用户语音和电子装置的状态信息作为人工智能模型的输入数据来获取(或估计、推断)包含对用户语音的响应的与语音和图像有关的信息。

在本公开的一个实施方式中,学习单元1310和响应单元1320可包含在外部服务器1300中,但是这仅是示例,并且也可被设置在电子装置100内。具体地说,学习单元1310的至少一部分和响应单元1320的至少一部分可在软件模块中实现或以至少一个硬件芯片的形式实现且安装在电子装置100内。例如,学习单元1310和响应单元1320中的至少一个可以以人工智能(ai)的专用硬件芯片或传统的通用处理器(例如,cpu或应用处理器)或仅图形处理器(例如,gpu)的形式被制造,并可被安装在上述的各种电子装置上。此时,用于人工智能的专用硬件芯片是专用于概率计算的专门处理器,并且比传统的通用处理器具有更高的并行处理性能,从而能够快速处理人工智能领域诸如机器学习。当学习单元1310和响应单元1320被实现为软件模块(或包含指令的程序模块)时,软件模块可被存储在非暂时性计算机可读媒体中。在这种情况中,软件模块可由操作系统(os)或预定的应用提供。替代地,软件模块的一些可由操作系统(os)提供,软件模块的一些可由一些应用提供。

在此情况中,学习单元1310和响应单元1320可安装在一个电子装置上或分别安装在单独的电子装置上。例如,学习单元1310和响应单元1320中的一个可包含在电子装置100中,而另一个可包含在外部服务器中。学习单元1310和响应单元1320可经由有线或无线通信系统将由学习单元1310构造的模型信息提供给响应单元1320,并且数据可被提供给学习单元1310作为附加的学习数据。

图14a是根据实施方式的学习单元1310和响应单元1320的框图。

参考图14a,根据实施方式的学习单元1310可包括学习数据获取单元1310-1和模型学习单元1310-4。学习单元1310还可包括学习数据预处理单元1310-2、学习数据选择单元1310-3和模型评估单元1310-5。

学习数据获取单元1310-1可获取人工智能模型用于获取对用户语音的响应所需的学习数据。在本公开的实施方式中,学习数据获取单元1310-1可获取用户语言作为学习数据。此外,学习数据获取单元1310-1可获取用于获得对用户语音的具体响应所需的信息(例如,电子装置的状态信息)作为学习数据。学习数据可以是由学习单元1310或学习单元1310的制造商收集或测试的数据。

模型学习单元1310-4可使用学习数据使得人工智能模型具有用于获取对用户语音的响应的准则。例如,模型学习单元1310-4可使用学习数据的至少一些作为获取对用户语音的响应的参考通过监督式学习来学习人工智能模型。替代地,模型学习单元1310-4可在没有任何指导的情况下使用学习数据来进行学习例如自学习,由此通过无监督式学习来生成人工智能模型。而且,模型学习单元1310-4可通过使用例如根据学习提供响应的结果是否正确的反馈进行强化学习来学习人工智能模型。此外,模型学习单元1310-4可使用例如包括误差反向传播方法或梯度下降的学习算法来学习人工智能模型。

模型学习单元1310-4可使用输入数据来学习关于应该使用哪种类型的学习数据来提供包含对用户语音的响应的与语音和图像有关的信息的选择准则。

当预先存在多个人工智能模型时,模型学习单元1310-4可将输入的学习数据与基本学习数据之间具有大关联的人工智能模型作为待被训练的人工智能模型。在此情况中,可根据数据类型对基本学习数据进行预分类,并且可为每个数据类型预创建人工智能模型。例如,可通过诸如生成学习数据的区域、生成学习数据的时间、学习数据的大小、学习数据的种类、学习数据的创建者和学习数据内的对象的类型等的各种准则来对基本学习数据进行预分类。

当人工智能模型被训练后,模型学习单元1310-4可存储经训练的人工智能模型。在此情况中,模型学习单元1310-4可将经训练的人工智能模型存储到外部服务器1300的存储器中。替代地,模型学习单元1310-4可将经训练的人工智能模型存储到经由有线或无线网络连接至外部服务器1300的服务器或电子装置中。

为了改善ai模型的响应结果或节省生成ai模型所需的资源或时间,学习单元1310还可包括学习数据预处理单元1310-2和学习数据选择单元1310-3。

学习数据预处理单元1310-2可对获取的数据进行预处理,以使得获取的数据可被用于学习以获取包含对用户语音的响应的信息。学习数据预处理单元1310-2将获取的数据处理成预定格式以使得模型学习单元1310-4可使用获取的数据来获得包含对用户语音的响应的信息。例如,当ai模型提供响应时,学习数据预处理单元1310-2可从输入的用户语音中去除不必要的文本(例如,副词,感叹号等)。

学习数据选择单元1310-3可在从学习数据获取单元1310-1获得的数据或从经学习数据预处理单元1310-2预处理的数据之中选择学习所需的数据。所选择的学习数据可被提供给模型学习单元1310-4。学习数据选择单元1310-3可根据预定的选择准则从获取的或经预处理的数据中选择学习所需的学习数据。学习数据选择单元1310-3还可通过模型学习单元1310-4的学习而根据预定的选择准则选择学习数据。

为了改善ai模型的响应结果,学习单元1310还可包括模型评估单元1310-5。

模型评估单元1310-5可将评估数据输入到ai模型,如果从评估数据输入的响应结果不满足预定的准则,则可迭代地使模型学习单元1310-4再次学习。在此情况中,评估数据可以是评估ai模型的预定义数据。

例如,在经训练的ai模型对评估数据的响应结果中,如果响应结果不正确的评估数据的数量或比率超过预设的阈值,模型评估单元1310-5则可评估为不满足预定准则。

同时,当存在多个经训练的人工智能模型时,模型评估单元1310-5可评估每个经训练的人工智能模型是否满足预定准则,并且将满足预定准则的模型确定为最终的人工智能模型。在此情况中,当存在多个满足预定准则的模型时,模型评估单元1310-5可将按评估分数降序预设的任一个或预定数量的模型确定为最终的人工智能模型。

参考图14a的(b),根据实施方式的响应单元1320可包括输入数据获取单元1320-1和响应结果提供单元1320-4。

响应单元1320还可选择性地包括输入数据预处理单元1320-2、输入数据选择单元1320-3和模型更新单元1320-5。

输入数据获取单元1320-1可获得用于获得对用户语音的响应所需的数据。响应结果提供单元1320-4将由输入数据获得单元1320-1获得的输入数据作为输入值应用到经训练的人工智能模型,并输出包含对用户语音的响应的与语音和图像有关的信息。响应结果提供单元1320-4将稍后描述的输入数据预处理单元1320-2或输入数据选择单元1320-3选择的数据应用到ai模型以获得响应结果。响应结果可由ai模型确定。

作为实施方式,响应结果提供单元1320-4可将由输入数据获取单元1320-1和电子装置获得的用户语音应用到经训练的ai模型以获得包含对用户语音的响应的与语音和图像有关的信息。

为了改善ai模型的响应结果或节省提供响应结果的资源或时间,响应单元1320还可包括输入数据预处理单元1320-2和输入数据选择单元1320-3。

输入数据预处理单元1320-2可将获取的数据进行预处理,以使得获取的数据可用于获得对用户语音的响应。输入数据预处理部件1320-2可将获取的数据处理成预定义格式,以使得响应结果提供部件1320-4可使用获取的数据来获得对用户语音的响应。

输入数据选择单元1320-3可选择由输入数据获取单元1320-1获取的数据,或从由输入数据预处理单元1320-2预处理的数据中选择用于提供响应所需的数据。选择的数据可被提供给响应结果提供单元1320-4。输入数据选择单元1320-3可根据用于提供响应的预定选择准则选择获得的或预处理的数据的一些或全部。输入数据选择单元1320-3还可通过模型学习单元1310-4的学习根据预定选择准则选择数据。

模型更新单元1320-5可基于由响应结果提供单元1320-4提供的响应结果进行控制使得ai模型被更新。例如,模型更新单元1320-5可将由响应结果提供单元1320-4提供的响应结果提供给模型学习单元1310-4以请求模型学习单元1310-4附加地学习或更新ai模型。

图14b是示出彼此交互以学习和确定数据的电子装置100和外部服务器(s)的示例的视图。

参考图14b,外部服务器(s)可学习用于获得包含对用户语音的响应的信息的准则,电子装置100可基于服务器(s)的学习结果通过语音和图像提供对用户语音的响应。

在此情况中,服务器(s)的模型学习单元1310-4可执行图13中所示的学习单元1310的功能。也就是说,服务器(s)的模型学习单元1310-4可学习是否使用文本信息或电子装置的状态信息来获得对用户语音的响应或如何使用信息获取对用户语音的响应的准则。

另外,电子装置100的响应结果提供单元1320-4可将由输入数据选择单元1320-3选择的数据应用到由服务器(s)生成的ai模型以获得对用户语音的响应。替代地,电子装置100的响应结果提供单元1320-4可从服务器50接收由服务器50生成的ai模型并使用接收的ai模型获得对用户语音的响应。

图15是根据实施方式的使用人工智能模型的网络系统的流程图。

在图15中,使用ai模型的网络系统可包括第一元件1501、第二元件1502和第三元件1503。

这里,第一元件1501可以是电子装置100,第二元件1502可以是存储判定模型的服务器s。替代地,第一元件1501可以是通用处理器,第二元件1502可以是人工智能专用处理器。替代地,第一元件1501可以是至少一个应用,第二元件1502可以是操作系统(os)。也就是说,第二元件1502可以比第一元件1501更集成,可以是专用的,具有较小处理延迟,具有性能优点,并可以是能处理在更新时需要的许多操作的元件或者是比第一元件1501更快和更高效的应用。

这里,可以定义用于在第一元件1501与第二元件1502之间发送和接收数据的接口。例如,可以定义将学习数据应用到判断模块作为参数值(或中间值或传递值)的应用程序接口(api)。api可被定义成可在任一个协议(例如,电子装置100中定义的协议)中被调用用于另一个协议(例如,服务器s中定义的协议)的任意处理的子例程或函数的集合。也就是说,可提供一种环境,在该环境中可由任一个协议通过api执行另一个协议的操作。

第三元件1503可被实现为第一服务器200-1以将音频格式的用户语音转换成文本或将文本转换成语音消息。

在图15中,第一元件1501可执行与预登记的电话号码的呼叫连接(s1505)。这里,预登记的电话号码是请求特定信息或接收特定服务的号码,并可被实现为各种电话号码诸如客户服务电话号码、餐厅预约电话号码和旅行预订号码等。

第一元件1501可通过麦克风接收用户的语音(s1510)。这里,用户的语音可以是询问特定信息的语音。

第一元件1501可向第三元件1503发送输入的用户语音(s1515)。这里,用户的语音可以是音频数据格式。

第三元件1503可将接收的用户语音转换成文本(s1520)。具体地说,第三元件1503可使用stt技术将音频格式的用户语音转换成文本。

第三元件1503可向第二元件1502发送转换的文本(s1525)。

第二元件1502可将文本输入到ai模型以获得与语音和图像有关的信息(s1530)。这里,ai模型可以是被训练为通过输入文本获得包含对用户语音的响应的与语音和图像有关的信息的模型。另外,通过ai模型获得的与语音和图像有关的信息可包括对用户语音的响应。

第二元件1502可向第三元件1503发送与语音有关的信息(s1535)。这里,与语音有关的信息可以是包含由用户请求的信息的文本数据。

第三元件1503可将与语音有关的信息转换成语音消息(s1540)。也就是说,第三元件1503可使用tts技术将文本数据格式的与语音有关的信息转换成语音消息(即音频格式)。

第二元件1502可向第一元件1501发送与图像有关的信息(s1545),第三元件1503可向第一元件1501发送语音消息(s1550)。这里,与图像有关的信息可包括文本、图像和视频中的至少一个,并且可以是与提供文本、图像和音频中的至少一个的网页有关的信息。

第一元件1501可将从第三元件1503接收的语音消息输出到扬声器并基于接收的与图像有关的信息在呼叫屏幕上显示向导屏幕(s1555)。此时,向导屏幕可包括对用户语音的响应,并可包括用于接收用户命令以及文本、图像和运动图片的ui。

本公开的各种实施方式可根据公开的实施方式用包括存储在机器(例如,计算机)(诸如,电子装置100)可读的机器可读存储媒体上的指令的软件实现,被实现为能够调用存储的指令并根据调用的指令操作的设备。当处理器执行指令时,处理器可使用其它元件直接或在处理器的控制下执行与指令对应的功能。指令可包括由编译器或解析器生成或执行的代码。存储介质可以以非暂时性存储介质的形式被提供,其中“非暂时性”表示存储介质不包含信号并它仅表示它是有形的且不区分数据是永久还是暂时地存储到存储介质中。

根据实施方式,根据本文中公开的各种实施方式的方法可以在计算机程序产品中被提供。计算机程序产品可在卖方与买方之间作为商品交换。计算机程序产品可以以机器可读存储介质(例如,光盘只读存储器(cd-rom))形式分布或通过应用商店(例如,playstoretm)在线分布。在在线分布的情况中,计算机程序产品的至少一部分可被暂时或至少暂时存储在诸如制造商的服务器、应用商店的服务器或中继服务器的存储器等的存储介质中。

根据各种实施方式的元件(例如,模块或程序)中的每个可由单个实体或多个实体组成,并且上面提到的子元件的一些子元件可被省略。所述元件还可被包含在各种实施方式中。替代地或附加地,一些元件(例如,模块或程序)可被集成到一个实体中以执行由集成之前的各个对应元件执行的相同或相似的功能。根据各种实施方式,由模块、程序或其它元件执行的操作可以以顺序、并行、反复或启发方式被执行,或者至少一些操作可以以不同的顺序被执行。


技术特征:

1.一种电子装置的控制方法,所述方法包括:

根据用户的命令执行与预登记的电话号码的呼叫连接;

在执行呼叫的同时接收用户语音;

将接收的用户语音发送给与所述预登记的电话号码对应的外部服务器;

从所述外部服务器接收通过将所述用户语音输入到经人工智能算法训练的人工智能模型而获取的与语音和图像有关的信息;以及

基于接收到的与语音有关的信息通过扬声器输出对所述用户语音的响应,并基于接收到的与图像有关的信息在屏幕上提供包括对所述用户语音的响应的向导屏幕。

2.如权利要求1所述的控制方法,所述方法包括:

在提供所述向导屏幕的同时接收用户的附加语音;

将所述附加语音发送给所述外部服务器;

从所述外部服务器接收通过将所述附加语音输入到所述人工智能模型而获取的与语音和图像有关的信息;以及

基于通过输入所述附加语音而获取的与语音有关的信息通过扬声器输出对所述附加信息的响应,并基于通过输入所述附加语音而获取的与图像有关的信息在所述向导屏幕上提供对所述附加语音的响应。

3.如权利要求1所述的控制方法,所述方法包括:

使用传感器获取所述电子装置的状态信息;以及

将所述电子装置的状态信息发送给所述外部服务器,

其中所述与语音和图像有关的信息是通过将所述用户语音和所述电子装置的所述状态信息输入到所述人工智能模型而获取的。

4.如权利要求1所述的控制方法,所述方法包括:

在提供所述向导屏幕的同时根据用户的命令向所述外部服务器发送图像;

从所述外部服务器接收通过将所述图像输入到所述人工智能模型而获取的与语音和图像有关的信息;以及

基于通过输入所述图像而获取的与语音有关的信息通过扬声器输出对所述图像的响应,并基于通过输入所述图像而获取的与图像有关的信息在所述向导屏幕上提供对所述图像的响应。

5.如权利要求1所述的控制方法,所述方法包括:

响应于执行与所述预登记的电话号码的呼叫连接,运行人工智能专用程序以通过语音和图像提供对用户语音的响应。

6.如权利要求5所述的控制方法,所述方法包括:

在提供所述向导屏幕的同时接收附加语音;

将与所述附加语音相关的信息登记到与所述人工智能专用程序交互工作的应用。

7.如权利要求1所述的控制方法,所述方法包括:

响应于输入了登记特定电话号码的用户命令,登记所述特定电话号码和与所述特定电话号码对应的外部服务器。

8.如权利要求1所述的控制方法,其中所述向导屏幕包括至少一个图标,所述方法包括:

响应于选择了所述向导屏幕中包括的至少一个图标中的一个图标,在所述向导屏幕上提供与选择的图标对应的信息。

9.如权利要求8所述的控制方法,所述方法包括:

响应于选择了所述向导屏幕中包括的至少一个图标中的另一图标,停止与所述预登记的电话号码的呼叫连接并执行与对应于所选择的另一图标的电话号码的呼叫连接。

10.如权利要求8所述的控制方法,所述方法包括:

响应于选择了所述向导屏幕中包括的至少一个图标中的另一图标,提供将提供给所述向导屏幕的信息发送给另一电子装置的ui。

11.一种电子装置,包括:

显示器;

扬声器;

麦克风;

通信单元;

存储器,包括计算机可读指令;以及

处理器,被配置为电连接至所述显示器、所述扬声器、所述麦克风、所述通信单元和所述存储器,并控制所述电子装置,

其中所述处理器被配置为:

根据用户的命令执行与预登记的电话号码的呼叫连接,

在执行呼叫的同时接收用户语音,

控制所述通信单元将接收的用户语音发送给与所述预登记的电话号码对应的外部服务器,和从所述外部服务器接收通过将所述用户语音输入到经人工智能算法训练的人工智能模型而获取的与语音和图像有关的信息,

基于接收到的与语音有关的信息通过扬声器输出对所述用户语音的响应,并基于接收到的与图像有关的信息控制所述显示器以在屏幕上提供包括对所述用户语音的响应的向导屏幕。

12.如权利要求11所述的电子装置,其中所述处理器被配置为:

在所述向导屏幕被提供的同时接收用户的附加语音,

控制所述通信单元将所述附加语音发送给所述外部服务器,和从所述外部服务器接收通过将所述附加语音输入到所述人工智能模型而获取的与语音和图像有关的信息,

基于通过输入所述附加语音而获取的与语音有关的信息通过所述扬声器输出对所述附加信息的响应,并基于通过输入所述附加语音而获取的与图像有关的信息控制所述显示器以在所述向导屏幕上提供对所述附加语音的响应。

13.如权利要求11所述的电子装置,还包括:

传感器,被配置为感测所述电子装置的状态,

其中所述处理器被配置为:

控制所述通信单元将使用所述传感器获取的所述电子装置的状态信息发送给所述外部服务器,其中所述与语音和图像有关的信息是通过将所述用户语音和所述电子装置的所述状态信息输入到所述人工智能模型而获取的。

14.如权利要求11所述的电子装置,其中所述处理器被配置为:

在提供所述向导屏幕的同时根据用户的命令控制所述通信单元向所述外部服务器发送图像,和从所述外部服务器接收通过将所述图像输入到所述人工智能模型而获取的与语音和图像有关的信息,

基于通过输入所述图像而获取的与语音有关的信息通过所述扬声器输出对所述图像的响应,并且基于通过输入所述图像而获取的与图像有关的信息控制所述显示器以在所述向导屏幕上提供对所述图像的响应。

15.如权利要求11所述的电子装置,其中响应于执行与所述预登记的电话号码的呼叫连接,所述处理器运行人工智能专用程序以通过语音和图像提供对用户语音的响应。

技术总结
一种用于通过扬声器输出对用户语音的响应且提供包括对用户语音的响应的向导屏幕来对包含询问的用户语音做出响应的装置和方法。

技术研发人员:崔畅桓;李范锡;赵瑞荣
受保护的技术使用者:三星电子株式会社
技术研发日:2018.12.20
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-8009.html

最新回复(0)