本申请实施例涉及数据搜索技术领域,尤其涉及一种题目搜索方法、装置、设备及存储介质。
背景技术:
随着人工智能的发展与普及,各类具备人工智能的智能设备被广泛应用于人们生活的各类场景,如用于辅助学习的家教机。通常,用户通过家教机可以在题库中搜索需要的习题和/或答案。在搜索时,由家教机获取待搜索习题的题干内容,之后,基于题干内容在题库中进行搜索。如果题库中没有与题干内容相似的习题,则无法搜索得到对应的结果。此时,为了保证搜索成功率,需要在题库中录入大量的习题,且要实时更新题库,以保证题库中包含新面市的习题,进而保证搜索成功率,这样对于题库的要求较高。
技术实现要素:
本申请提供了一种题目搜索方法、装置、设备及存储介质,以解决现有技术中基于题干内容进行搜索对题库要求高的技术问题。
第一方面,本申请实施例提供了一种题目搜索方法,包括:
获取图像的文本识别结果,所述图像包含待搜索题目;
根据所述文本识别结果得到所述待搜索题目的属性数据,所述属性数据包括题目类别和/或至少一组题目关键字;
根据所述属性数据在内容库中进行搜索,以得到与所述属性数据具有关联关系的内容数据,所述内容数据为与所述内容库对应的题库中具有关联关系的元数据;
根据所述内容数据得到所述待搜索题目的习题搜索结果。
进一步的,所述根据所述文本识别结果得到所述待搜索题目的属性数据包括:
根据所述文本识别结果确定所述待搜索题目所属的科目类别;
若所述科目类别为目标科目类别,则根据所述文本识别结果得到所述待搜索题目的属性数据。
进一步的,所述目标科目类别为语文科目类别。
进一步的,所述根据所述文本识别结果得到所述待搜索题目的属性数据包括:
将所述文本识别结果作为属性识别模型的输入,以得到所述待搜索题目的属性数据,其中,所述属性识别模型通过训练已知属性数据的文本识别结果得到。
进一步的,所述属性数据包括题目类别和至少一组题目关键字,
所述根据所述属性数据在内容库中进行搜索,以得到与所述属性数据具有关联关系的内容数据包括:
在所述内容库中获取所述题目类别下的全部内容数据;
在所述题目类别下的全部内容数据中,分别基于每组所述题目关键字进行搜索,以得到与所述题目关键字具有关联关系的内容数据。
进一步的,还包括:
根据所述文本识别结果未得到所述待搜索题目的属性数据时,根据所述文本识别结果在与所述内容库对应的题库中搜索习题,以得到所述待搜索题目的习题搜索结果。
进一步的,所述获取图像的文本识别结果包括:
利用光学字符识别对包含待搜索题目的图像进行识别,以得到所述图像的文本识别结果
第二方面,本申请实施例还提供了一种题目搜索装置,包括:
结果获取模块,用于获取图像的文本识别结果,所述图像包含待搜索题目;
数据确定模块,用于根据所述文本识别结果得到所述待搜索题目的属性数据,所述属性数据包括题目类别和/或至少一组题目关键字;
数据搜索模块,用于根据所述属性数据在内容库中进行搜索,以得到与所述属性数据具有关联关系的内容数据,所述内容数据为与所述内容库对应的题库中具有关联关系的元数据;
结果确定模块,用于根据所述内容数据得到所述待搜索题目的习题搜索结果。
第三方面,本申请实施例还提供了一种题目搜索设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的题目搜索方法。
第四方面,本申请实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的题目搜索方法。
上述题目搜索方法、装置、设备及存储介质,通过获取图像的文本识别结果,根据文本识别结果得到属性数据并基于属性数据在内容库中搜索,以得到内容数据,进而根据内容数据得到习题搜索结果的技术手段,可以解决现有技术中基于题干内容进行搜索对题库要求高的技术问题。其中,预先确定题库中各元素的元数据,之后,基于每道习题将具有关联关系的元数据作为一条内容数据,并存储在内容库中,之后,通过题目类别和/或至少一组题目关键字在内容库中搜索内容数据的方式得到习题搜索结果,而不是依赖题目内容在题库中进行习题搜索。此时,仅需查找与属性数据相关的内容,且相关的内容数据可以是题库中一道习题,或者是习题中部分内容,即根据属性数据制定了内容数据的搜索策略,即使某个习题的题目调整了,仍然可以基于属性数据搜索到对应的数据内容,降低了对题库的要求,提高了搜索成功率。
附图说明
图1为本申请实施例一提供的一种题目搜索方法的流程图;
图2为本申请实施例二提供的一种题目搜索方法的流程图;
图3为本申请实施例二提供的一种题目搜索流程框图;
图4为本申请实施例三提供的一种题目搜索方法的流程图;
图5为本申请实施例四提供的一种题目搜索装置的结构示意图;
图6为本申请实施例五提供的一种题目搜索设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
实施例一
图1为本申请实施例一提供的一种题目搜索方法的流程图。实施例中提供的题目搜索方法可以由题目搜索装置执行,该题目搜索装置可以通过软件和/或硬件的方式实现,并集成在题目搜索设备中,该题目搜索设备可以是两个或多个物理实体构成,也可以是一个物理实体构成。其中,题目搜索设备可以是家教机、电脑、手机等具有数据处理及分析能力的智能设备。实施例中以习题搜索设备为家教机为例。参考图1,本实施例提供的题目搜索方法包括:
步骤110、获取图像的文本识别结果,所述图像包含待搜索题目。
示例性的,题目搜索设备可以获取包含待搜索题目的图像。该图像可以是通过网络下载的图像,或者从其他设备中获取的图像,也可以是通过本地图像采集装置拍摄的图像。实施例中,以通过本地图像采集装置拍摄图像为例进行表述,此时,题目搜索设备中配置有图像采集装置(如摄像头),其中,图像采集装置的安装方式以及安装位置实施例不做限定。当用户将纸质的习题放置在图像采集装置的拍摄区域内时,图像采集装置可以拍摄得到包含习题的图像。其中,拍摄手段可以根据实际情况设定,如摄像头检测到用户手指指向某个区域时,对该区域进行拍摄。实施例中,拍摄的图像包含至少一道习题,并将图像中包含的习题记为待搜索题目,即用户希望进行搜索的题目。一般而言,待搜索题目包含习题的题干内容,而没有习题的答案内容。可以理解,实施例中,以图像包含一道待搜索题目为例。可选的。若图像中包含多道待搜索题目,则可以通过剪裁的方式删除其他的待搜索题目,其中,剪裁方式实施例不做限定。
进一步的,对图像进行文本识别,以得到待搜索题目的文本内容,实施例中,将识别到的文本内容记为文本识别结果。可以理解,该文本识别结果可以认为是待搜索题目中题干内容。可选的,文本识别结果可以包含数字、汉字、符号和/或字母等,其中,字母可以是外文字母或者汉语拼音等。典型的,文本识别的技术手段实施例不作限定,例如,采用光学字符识别的方式得到图像中的文本识别结果。
步骤120、根据所述文本识别结果得到所述待搜索题目的属性数据,所述属性数据包括题目类别和/或至少一组题目关键字。
其中,属性数据是指在搜题时可以体现待搜索题目的相关属性的数据。实施例中,设定属性数据包括题目类别和/或题目关键字。其中,题目类别是指待搜索题目所属的习题类别,即待搜索题目的意图。题目类别的划分方式可以根据实际情况设定,可选的,每个科目下均有对应的题目类别。例如,科目为语文,题目类别可以包括:获取近义词、获取反义词、用词造句、用字组词等。科目为数学,题目类别可以包括:数字计算、判断对错等。进一步的,对文本识别结果进行意图分析,以得到题目类别。其中,意图分析采用的方式实施例不作限定。例如,通过关键字确定题目类别,如文本识别结果中包含关键字“近义词”,则可以确定题目类别为获取近义词。再如,通过机器学习的方式确定题目类别。如预先对已知题目类别的文本识别结果进行训练,以得到题目类别识别模型,之后,将文本识别结果输入至题目类别识别模型,以得到对应的题目类别。需说明,题目类别的格式可以根据实际情况设定,一般为内容库可识别格式。例如,题目类型是获取近义词,格式可以为:词@获取近义词。
题目关键字是指文本识别结果中用于得到答案的关键文本,以汉字为例,题目关键字可以是一个文字、一个词、一个短句等。其中,题目关键字的获取方式可以根据实际情况设定。例如,通过语义识别的方式得到题目关键字。再如,通过关键字识别模型得到题目关键字。其中,关键字识别模型与题目类别识别模型的实现手段相同,在此不做赘述。可以理解,对于文本识别结果而言,其可以包含至少一组题目关键字。
步骤130、根据所述属性数据在内容库中进行搜索,以得到与所述属性数据具有关联关系的内容数据,所述内容数据为与所述内容库对应的题库中具有关联关系的元数据。
具体的,题库中预先存储有一定数量的习题,其中,该习题包括题干部分以及对应的答案,且该习题可以根据实际情况进行更新。题库中每个元素均有的元数据,其中,元素可以为组成习题的汉字、数字、字母、单词等。实施例中,以待搜索题目通过汉字表示,且题库中习题通过汉字、拼音表示为例进行表述。此时,题库中每个汉字、每个汉字的拼音以及每个拼音的声调,均可以认为是一条元数据。之后,建立习题下每个汉字及其对应的拼音和声调的关联关系,并将包含关联关系的一组汉字、拼音及声调记为一条内容数据。其中,建立内容数据时可以是基于题目关键字建立内容数据,即仅建立与题目关键字有关的内容数据。且每条内容数据均有对应的题目类别。可选的,在建立某个汉字的内容数据时,还可以将习题中包含汉字的词、短句和/或作文也加入至该汉字的内容数据中。举例而言,题库中某道习题为:平凡近义词为平常,正确近义词为准确。此时,题目关键字为“平凡”、“平常”、“正确”、“准确”,相应的,题目关键字中每个汉字均有一条内容数据,例如,第一个“平”字的内容数据为:平、ping、二声、平凡、平凡近义词为平常。“凡”字的内容数据为:凡、fan、二声、平凡、平凡近义词为平常,且这两条内容数据的题目类别为“词@获取近义词”。或者是,将“近义词”也作为一个题目关键字。
可选的,得到全部内容数据后,可以进行去重,即删除重复的内容数据。之后,将得到的全部内容数据存储在对应的数据库中,实施例中,将存储内容数据的数据库记为内容库。可以理解,每个题库可以对应一个内容库。
之后,基于属性数据在内容库中搜索内容数据。具体的,内容库中每条内容数据均有所属的题目类别。此时,可以基于题目类别在内容库中得到相同意图下的全部内容数据,之后,在该题目类别的全部内容数据中进行搜索,此时,可以查找文本识别结果中包含的汉字对应的全部内容数据。可选的,若某两条内容数据具有重复的词、短句或作文等,则可以进行去重、整合处理。例如,待搜索题目为:找出平凡的近义词。此时,题目类别为“词@获取近义词”,并在内容库中查找所有题目类别位为“词@获取近义词”的内容数据,之后,基于文本识别结果中包含的汉字查找相关的内容数据,此时,查找到“平、ping、二声、平凡、平凡近义词为平常”、“凡、fan、二声、平凡、平凡近义词为平常”两条内容数据。由于两条内容数据对应同一短句“平凡近义词为平常”,因此,可以将“平、凡、ping、fan、二声、平凡、平凡近义词为平常”作为最终得到的内容数据。
可选的,基于题目关键字进行搜索时,针对一组题目关键字而言,在内容库中搜索包含该组题目关键字中每个文字的内容数据,之后,若内容数据中具有重复的词、短句或作文等内容,则可以进行去重、整合处理。若该组题目关键字包为一个词,则可以直接在内容库中获取包含该词的内容数据,之后,同样可以进行去重、整合处理。可以理解,当题目关键字为多组时,每组题目关键字对应一条内容数据。例如,待搜索题目为:找出平凡的近义词,此时,题目关键字可以包括“平凡”、“近义词”,之后,基于题目关键字进行搜索得到内容数据,并进行去重、整合处理,以得到最终的内容数据。
可以理解,属性数据同时包含题目类别和至少一组题目关键字时,得到的内容数据最佳,因此,实施例中以属性数据同时包含题目类别和至少一组题目关键字为例。此时,可以先基于题目类别在内容库中查找到相同意图的全部内容数据,之后,基于题目关键字进行再次搜索,以得到内容数据。需说明,若搜索时仅用题目关键字,则可以将决定意图的词汇作为题目关键词。若搜索时同时使用题目类别和题目关键字,则可以剔除题目关键词中决定意图的词汇。实际应用中,即使题目关键字包含拼音等内容,仍然可以按照上述方式进行搜索。
步骤140、根据所述内容数据得到所述待搜索题目的习题搜索结果。
具体的,将搜索得到的内容数据作为待搜索题目的习题搜索结果,并给用户展示。若搜索到多条内容数据时,可以将多条内容数据按照对应汉字在文本识别结果中的前后顺序进行排列。
可以理解,若待搜索题目中识别不到属性数据,则可以在题库中进行搜索。此时,本实施例还包括:根据所述文本识别结果未得到所述待搜索题目的属性数据时,根据所述文本识别结果在与所述内容库对应的题库中搜索习题,以得到所述待搜索题目的习题搜索结果。
具体的,直接基于文本识别结果在内容库对应的题库中进行搜索,即在题库中搜索与文本识别结果相似度最高的一道或多道习题作为习题搜索结果。
可选的,实际应用中,内容库和题库可以存储在题目搜索设备的后台服务器中,此时,题目搜索设备与后台服务器可以进行数据通信。题目搜索设备将属性数据发送至后台服务器,后台服务器根据属性数据进行检索,并反馈习题搜索结果。或者是,题目搜索设备直接可以为后台服务器,此时,题目搜索设备可以与用户使用的设备(如家教机等)进行数据通信,当题目搜索设备接收到家教机反馈的图像时可以获取文本识别结果,进而基于属性数据得到习题搜索结果,并将习题搜索结果反馈至用户使用的设备。
上述,通过获取图像的文本识别结果,根据文本识别结果得到属性数据并基于属性数据在内容库中搜索,以得到内容数据,进而根据内容数据得到习题搜索结果的技术手段,可以解决现有技术中基于题干内容进行搜索对题库要求高的技术问题。其中,预先确定题库中各元素的元数据,之后,基于每道习题将具有关联关系的元数据作为一条内容数据,并存储在内容库中,之后,通过题目类别和/或至少一组题目关键字在内容库中搜索内容数据的方式得到习题搜索结果,而不是依赖题目内容在题库中进行习题搜索。此时,仅需查找与属性数据相关的内容,且相关的内容数据可以是题库中一道习题,或者是习题中部分内容,即根据属性数据制定了内容数据的搜索策略,即使某个习题的题目调整了,仍然可以基于属性数据搜索到对应的数据内容,降低了对题库的要求,提高了搜索成功率。
实施例二
图2为本申请实施例二提供的一种题目搜索方法的流程图。本实施例提供的题目搜索方法是在上述实施例的基础上进行具体化。本实施例中,属性数据包括题目类别和至少一组题目关键字。具体的,参考图2,本实施例提供的题目搜索方法包括:
步骤210、利用光学字符识别对包含待搜索题目的图像进行识别,以得到所述图像的文本识别结果。
其中,光学字符识别(opticalcharacterrecognition,ocr)是指电子设备检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。实施例中,以待搜索题目位于纸质习题册为例。此时,通过摄像头获取纸质的待搜索题目的图像,并利用ocr对图像进行识别,以得到文本识别结果。其中,为了保证ocr识别的准确性,可以将ocr与ai结合,以增强对图像的理解,进而保证文本识别结果的准确性。
步骤220、根据所述文本识别结果确定所述待搜索题目所属的科目类别。
示例性的,科目类别是指学科,科目类别可以根据应用场景的实际情况设定。例如,应用场景为小学,对应的,科目类别可以包括:数学、语文、英语等。应用场景为中学,对应的,科目类别可以包括:数学、语文、英语、物理、化学、生物等。
实施例中,科目类别的识别方式可以根据实际情况设定。例如,对文本识别结果进行语义分析,以确定待搜索题目的科目类别。或者,利用人工智能技术,如通过训练大量已知科目类别的习题得到科目类别识别模型,之后,将文本识别结果作为科目类别识别模型的输入,进而通过科目类别识别模型确定根本识别结果所属的科目类别。
步骤230、若所述科目类别为目标科目类别,则根据所述文本识别结果得到所述待搜索题目的属性数据。
示例性的,设定仅有部分科目类别采用属性数据检索方式进行检索。实施例中,将部分科目类别记为目标科目类别。其中,目标科目类别的选定方式可以结合实际情况设定。例如,语文科目类别中,相同意图的习题里面出现重复内容的概率比较大,如获取近义词的不同题目中可能会包含相同的词汇、诗词填空的不同题目中可能会包含相同的诗词,因此,将语文科目类别确定为目标科目类别。再如,英语科目类别中,相同意图的习题里面出现重复内容的概率比较大,如单词翻译的不同题目中可能会出现相同的单词,因此,将英语科目类别确定为目标科目类别。实施例中,设定目标科目类别为语文科目类别。即以语文科目类别进行示例性描述。
进一步的,基于文本识别结果得到科目类别后,确认科目类别是否为目标科目类别,若是,则根据所述文本识别结果得到所述待搜索题目的属性数据。可以理解,若科目类别不是目标科目类别,则可以直接基于文本识别结果在内容库对应的题库中进行搜索,即在题库中搜索与文本识别结果相似度最高的一道或多道习题作为习题搜索结果。
可选的,当科目类别为目标科目类别时,以人工智能的方式得到文本识别结果的属性数据。此时,设定根据所述文本识别结果得到所述待搜索题目的属性数据具体包括:步骤231、将所述文本识别结果作为属性识别模型的输入,以得到所述待搜索题目的属性数据,其中,所述属性识别模型通过训练已知属性数据的文本识别结果得到。
具体的,由于属性数据包括题目类别和题目关键字两类,此时,每类属性数据可以对应一个属性识别模型,即将文本识别结果先经过题目类别对应的属性识别模型,确定文本识别结果的题目类别,之后,将文本识别结果经过题目关键字对应的属性识别模型,确定文本识别结果的题目关键字。或者是,将两类属性数据集成在一个属性识别模型,此时,将文本识别结果输入至属性识别模型后,可以直接得到题目类别和题目关键字。
需说明,无论是每类属性数据对应一个属性识别模型,还是两类属性数据对应同一个属性识别模型,属性识别模型的训练方式相同,均是对大量已知属性数据的文本识别结果训练得到。
步骤240、在所述内容库中获取所述题目类别下的全部内容数据。
可选的,每个科目类别对应一个题库,或者是,全部科目类别对应一个题库,实施例对此不作限定。当每个科目类别对应一个题库中,确认语文科目类别的题库对应的内容库,并在内容库中进行搜索。具体的,由于内容库中每条内容数据均有对应的题目类别,因此,可以先在内容库中进行一次搜索,找到与文本识别结果具有相同题目类别的全部内容数据。
步骤250、在所述题目类别下的全部内容数据中,分别基于每组所述题目关键字进行搜索,以得到与所述题目关键字具有关联关系的内容数据。
具体的,在搜索到的全部内容数据中,基于题目关键字进行二次搜索。其中,在进行题目关键字搜索时,可以结合题目关键字的元数据等内容进行搜索。例如,某组题目关键字为一个汉字,那么,在搜索时,可以结合汉字、汉字的拼音、拼音的声调搜索内容数据,以保证搜索结果的全面性准确性。再如,某组题目关键字为一个词,那么,在搜索时,可以基于词中每个汉字、汉字的拼音、拼音的声调、以及组成的词句等内容,制定搜索策略进行搜索,以保证搜索结果的全面性准确性。
进一步的,在二次搜索时,每组题目关键字均进行一次搜索,以得到相关的内容。其中,该相关的内容可以是一道完整的习题或者是习题的部分内容。举例而言,题目类型为词@获取近义词,共有两组题目关键字分别为“平凡”和“拒绝”。此时,基于“平凡”进行一次搜索,若题库中某道习题是:平凡近义词为平常,正确近义词为准确,其对应的内容数据包括“平、ping、二声、平凡、平凡近义词为平常”、“凡、fan、二声、平凡、平凡近义词为平常”、“正、zheng、四声、正确、正确近义词为准确”、“确、que、四声、正确、正确近义词为准确”等。此时,基于“平凡”搜索内容数据时,可以得到“平、ping、二声、平凡、平凡近义词为平常”、“凡、fan、二声、平凡、平凡近义词为平常”,并整合后可以得到“平、凡、ping、fan、二声、平凡、平凡近义词为平常”的内容数据,此时,对于该条内容数据对应的习题中的其他内容数据而言,不会被作为搜索结果。之后,基于“拒绝”进行一次搜索,以得到相关的内容数据。此时,即使题库中题干内容与文字识别结果不完全相似,也可以基于内容数据得到需要的内容。
需说明,题目关键字包含多组时,具体的搜索顺序实施例不作限定,也可以多组题目关键字同时搜索。
步骤260、根据所述内容数据得到所述待搜索题目的习题搜索结果。
可选的,若题目关键字有多组,则可以按照题目关键字在文本识别结果中的排列顺序,组合相关的内容数据。例如,两组题目关键字分别为“平凡”和“拒绝”,“平凡”位于“拒绝”的前面,则将“平凡”对应的内容数据放在“拒绝”对应的相关内容数据的前面,以进行展示。可以理解,内容数据的具体显示格式实施例不做限定。
下面对本实施例提供的技术方案进行示例性描述。其中,图3为本申请实施例二提供的一种题目搜索流程框图。参考图3,获取包含待搜索题目的图像,之后,利用ocr对图像进行识别,以得到文本识别结果为:1.从文中找出下列词语的近义词。平凡—()拒绝—()聪慧—()解散—()报答—()思考—()。之后,进行科目识别并确定科目类别为语文,即符合目标科目类别。之后,基于文本识别结果确定题目类别为“词@获取近义词”。题目关键字为“平凡”、“拒绝”、“聪慧”、“解散”、“报答”、“思考”6组。之后,在内容库中获取“词@获取近义词”下的全部内容数据,之后,基于6组题目关键字进行以得到内容数据,并根据内容数据得到习题搜索结果。之后,展示习题搜索结果。其中,图3中仅展示了部分习题搜索结果。用户可以通过滑动显示屏等方式查看未展示的部分习题搜索结果。
上述,通过光学字符识别对包含待搜索题目的图像进行识别,以得到文本识别结果,之后,基于文本识别结果确认待搜索题目符合目标科目类别时,确定待搜索题目的题目类别和至少一组题目关键字,并基于题目类别和至少一组题目关键字制定搜索策略,在内容库中进行搜索的技术手段,可以解决现有技术中基于题干内容进行搜索对题库要求高的技术问题。其中,预先确定题库中各元素的元数据,之后,基于每道习题将具有关联关系的元数据作为一条内容数据,并存储在内容库中,之后,通过题目类别和/或至少一组题目关键字在内容库中搜索内容数据的方式得到习题搜索结果,而不是依赖题目内容在题库中进行习题搜索。此时,仅需查找与属性数据相关的内容,且相关的内容数据可以是题库中一道习题,或者是习题中部分内容,即根据属性数据制定了内容数据的搜索策略,即使某个习题的题目调整了,仍然可以基于属性数据搜索到对应的数据内容,降低了对题库的要求,提高了搜索成功率。同时,利用ocr可以保证文本识别结果的准确性。
实施例三
图4为本申请实施例三提供的一种题目搜索方法的流程图。本实施例是在上述实施例的基础上,进行的示例性表述。参考图4,该题目搜索方法包括:
步骤310、利用光学字符识别对包含待搜索题目的图像进行识别,以得到图像的文本识别结果。
步骤320、根据文本识别结果确定待搜索题目所属的科目类别。
步骤330、判断科目类别是否为语文科目类别。若是,执行步骤340,否则,执行步骤380。
步骤340、确认根据文本识别结果是否识别得到待搜索题目的题目类别和至少一组题目关键字。若是,执行步骤350,否则,执行步骤380。
步骤350、在内容库中获取题目类别下的全部内容数据。
步骤360、在题目类别下的全部内容数据中,分别基于每组题目关键字进行搜索,以得到与题目关键字具有关联关系的内容数据。
步骤370、根据内容数据得到待搜索题目的习题搜索结果。
步骤380、根据文本识别结果在与内容库对应的题库中搜索习题,以得到待搜索题目的习题搜索结果。
可以理解,未在本实施例描述技术细节可以参考上述实施例,且本实施例与上述实施例具有相同的有益效果。
实施例四
图5为本申请实施例四提供的一种题目搜索装置的结构示意图。参考图5,本实施例提供的题目搜索装置包括:结果获取模块401、数据确定模块402、数据搜索模块403和结果确定模块404。
其中,结果获取模块401,用于获取图像的文本识别结果,所述图像包含待搜索题目;数据确定模块402,用于根据所述文本识别结果得到所述待搜索题目的属性数据,所述属性数据包括题目类别和/或至少一组题目关键字;数据搜索模块403,用于根据所述属性数据在内容库中进行搜索,以得到与所述属性数据具有关联关系的内容数据,所述内容数据为与所述内容库对应的题库中具有关联关系的元数据;结果确定模块404,用于根据所述内容数据得到所述待搜索题目的习题搜索结果。
上述,通过获取图像的文本识别结果,根据文本识别结果得到属性数据并基于属性数据在内容库中搜索,以得到内容数据,进而根据内容数据得到习题搜索结果的技术手段,可以解决现有技术中基于题干内容进行搜索对题库要求高的技术问题。其中,预先确定题库中各元素的元数据,之后,基于每道习题将具有关联关系的元数据作为一条内容数据,并存储在内容库中,之后,通过题目类别和/或至少一组题目关键字在内容库中搜索内容数据的方式得到习题搜索结果,而不是依赖题目内容在题库中进行习题搜索。此时,仅需查找与属性数据相关的内容,且相关的内容数据可以是题库中一道习题,或者是习题中部分内容,即根据属性数据制定了内容数据的搜索策略,即使某个习题的题目调整了,仍然可以基于属性数据搜索到对应的数据内容,降低了对题库的要求,提高了搜索成功率。
在上述实施例的基础上,所述数据确定模块402包括:类别确定单元,用于根据所述文本识别结果确定所述待搜索题目所属的科目类别;类别判断单元,用于若所述科目类别为目标科目类别,则根据所述文本识别结果得到所述待搜索题目的属性数据,所述属性数据包括题目类别和/或至少一组题目关键字。
在上述实施例的基础上,所述目标科目类别为语文科目类别。
在上述实施例的基础上,数据确定模块402具体用于:将所述文本识别结果作为属性识别模型的输入,以得到所述待搜索题目的属性数据,其中,所述属性识别模型通过训练已知属性数据的文本识别结果得到,所述属性数据包括题目类别和/或至少一组题目关键字。
在上述实施例的基础上,所述属性数据包括题目类别和至少一组题目关键字,数据搜索模块403包括:内容获取单元,用于在所述内容库中获取所述题目类别下的全部内容数据;内容搜索单元,用于在所述题目类别下的全部内容数据中,分别基于每组所述题目关键字进行搜索,以得到与所述题目关键字具有关联关系的内容数据,所述内容数据为与所述内容库对应的题库中具有关联关系的元数据。
在上述实施例的基础上,还包括:题库搜索模块,用于根据所述文本识别结果未得到所述待搜索题目的属性数据时,根据所述文本识别结果在与所述内容库对应的题库中搜索习题,以得到所述待搜索题目的习题搜索结果。
在上述实施例的基础上,所述结果获取模块401具体用于:利用光学字符识别对包含待搜索题目的图像进行识别,以得到所述图像的文本识别结果。
本实施例提供的题目搜索装置包含在题目搜索设备中,可以用于执行上述任意实施例提供的题目搜索方法,具备相应的功能和有益效果。
值得注意的是,上述题目搜索装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。
实施例五
图6为本申请实施例五提供的一种题目搜索设备的结构示意图。参考图6,该题目搜索设备包括处理器50、存储器51、输入装置52、输出装置53以及通信装置54。题目搜索设备中处理器50的数量可以是一个或多个,图6中以一个处理器50为例。题目搜索设备中的处理器50、存储器51、输入装置52、输出装置53以及通信装置54可以通过总线或其他方式连接,图6中以通过总线连接为例。
存储器51作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本申请实施例中的题目搜索方法对应的程序指令/模块(例如,题目搜索装置中的结果获取模块401、数据确定模块402、数据搜索模块403和结果确定模块404)。处理器50通过运行存储在存储器51中的软件程序、指令以及模块,从而执行题目搜索设备的各种功能应用以及数据处理,即实现上述题目搜索方法。
存储器51可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据题目搜索设备的使用所创建的数据等。此外,存储器51可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器51可进一步包括相对于处理器50远程设置的存储器,这些远程存储器可以通过网络连接至题目搜索设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置52可用于接收输入的数字或字符信息,以及产生与题目搜索设备的用户设置以及功能控制有关的键信号输入,还可以是图像采集装置(如摄像头等)。输出装置53可包括扬声器、显示屏等设备。通信装置54可以与其他设备进行数据通信。
本实施例提供的题目搜索设备可以用于执行上述任意实施例提供的题目搜索方法,具备相应的功能和有益效果。
实施例六
本申请实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种题目搜索方法,该方法包括:
获取图像的文本识别结果,所述图像包含待搜索题目;
根据所述文本识别结果得到所述待搜索题目的属性数据,所述属性数据包括题目类别和/或至少一组题目关键字;
根据所述属性数据在内容库中进行搜索,以得到与所述属性数据具有关联关系的内容数据,所述内容数据为与所述内容库对应的题库中具有关联关系的元数据;
根据所述内容数据得到所述待搜索题目的习题搜索结果。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本申请可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、闪存(flash)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述的题目搜索方法。
注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解,本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由所附的权利要求范围决定。
1.一种题目搜索方法,其特征在于,包括:
获取图像的文本识别结果,所述图像包含待搜索题目;
根据所述文本识别结果得到所述待搜索题目的属性数据,所述属性数据包括题目类别和/或至少一组题目关键字;
根据所述属性数据在内容库中进行搜索,以得到与所述属性数据具有关联关系的内容数据,所述内容数据为与所述内容库对应的题库中具有关联关系的元数据;
根据所述内容数据得到所述待搜索题目的习题搜索结果。
2.根据权利要求1所述的题目搜索方法,其特征在于,所述根据所述文本识别结果得到所述待搜索题目的属性数据包括:
根据所述文本识别结果确定所述待搜索题目所属的科目类别;
若所述科目类别为目标科目类别,则根据所述文本识别结果得到所述待搜索题目的属性数据。
3.根据权利要求2所述的题目搜索方法,其特征在于,所述目标科目类别为语文科目类别。
4.根据权利要求1所述的题目搜索方法,其特征在于,所述根据所述文本识别结果得到所述待搜索题目的属性数据包括:
将所述文本识别结果作为属性识别模型的输入,以得到所述待搜索题目的属性数据,其中,所述属性识别模型通过训练已知属性数据的文本识别结果得到。
5.根据权利要求1所述的题目搜索方法,其特征在于,所述属性数据包括题目类别和至少一组题目关键字,
所述根据所述属性数据在内容库中进行搜索,以得到与所述属性数据具有关联关系的内容数据包括:
在所述内容库中获取所述题目类别下的全部内容数据;
在所述题目类别下的全部内容数据中,分别基于每组所述题目关键字进行搜索,以得到与所述题目关键字具有关联关系的内容数据。
6.根据权利要求1所述的题目搜索方法,其特征在于,还包括:
根据所述文本识别结果未得到所述待搜索题目的属性数据时,根据所述文本识别结果在与所述内容库对应的题库中搜索习题,以得到所述待搜索题目的习题搜索结果。
7.根据权利要求1所述的题目搜索方法,其特征在于,所述获取图像的文本识别结果包括:
利用光学字符识别对包含待搜索题目的图像进行识别,以得到所述图像的文本识别结果。
8.一种题目搜索装置,其特征在于,包括:
结果获取模块,用于获取图像的文本识别结果,所述图像包含待搜索题目;
数据确定模块,用于根据所述文本识别结果得到所述待搜索题目的属性数据,所述属性数据包括题目类别和/或至少一组题目关键字;
数据搜索模块,用于根据所述属性数据在内容库中进行搜索,以得到与所述属性数据具有关联关系的内容数据,所述内容数据为与所述内容库对应的题库中具有关联关系的元数据;
结果确定模块,用于根据所述内容数据得到所述待搜索题目的习题搜索结果。
9.一种题目搜索设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的题目搜索方法。
10.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的题目搜索方法。
技术总结