本发明涉及数据标注领域,特别涉及一种推荐标注任务的方法和装置。
背景技术:
随着信息技术的发展,用户画像与推荐系统经常出现在电商领域,能够细致地给用户特征标签化,构建用户画像。当满足一定目标的用户画像产生后,利用部分标签数据进行推荐、关联分析和协同过滤。
在数据标注领域,语音标注任务主要由外包团队完成,而如何安排任务主要取决于团队档期以及简单筛选,例如,某些英文标注项目需要标注员具备一定的英语能力。随着语音标注市场的需求增大、数据标注的精细化与专业化,现有的标注任务分发方法并不能完全做到“人尽其用”,若再按照以往的分发方法直接扔给标注团队标注,会导致标注效率大打折扣,返工率会增大。因此,找到最适合标注任务的标注员就显得非常重要。
技术实现要素:
本发明提供了一种推荐标注任务的方法和装置,以解决现有技术中标注效率大打折扣,返工率会增大的缺陷。
本发明提供了一种推荐标注任务的方法,包括以下步骤:
获取语音标注任务的特征信息和多个标注员的用户画像;
根据所述特征信息和所述用户画像,向所述多个标注员中与所述语音标注任务匹配的标注员,推荐所述标注任务。
可选地,所述用户画像包括:年龄、籍贯、学历、外语水平、专业背景、长语音标注能力、杂音区分能力,以及近期空闲时间。
可选地,所述的方法,还包括:
在语音标注过程中,记录每个所述标注员的深层信息,根据所述深层信息更新所述标注员的用户画像。
可选地,所述深层信息包括历史表现、语种专长和场景专长。
可选地,所述根据所述特征信息和所述用户画像,向所述多个标注员中与所述语音标注任务匹配的标注员,推荐所述标注任务,包括:
基于所述特征信息和所述用户画像,使用的对两种算法进行瀑布融合得到的推荐算法,向所述多个标注员中与所述语音标注任务匹配的标注员,推荐所述标注任务;其中,所述两种算法包括基于物品的协同过滤算法和基于用户的协同过滤算法。
本发明还提供了一种推荐标注任务的装置,包括:
获取模块,用于获取语音标注任务的特征信息和多个标注员的用户画像;
推荐模块,用于根据所述特征信息和所述用户画像,向所述多个标注员中与所述语音标注任务匹配的标注员,推荐所述标注任务。
可选地,所述用户画像包括:年龄、籍贯、学历、外语水平、专业背景、长语音标注能力、杂音区分能力,以及近期空闲时间。
可选地,所述的装置,还包括:
更新模块,用于在语音标注过程中,记录每个所述标注员的深层信息,根据所述深层信息更新所述标注员的用户画像。
可选地,所述深层信息包括历史表现、语种专长和场景专长。
可选地,所述推荐模块,具体用于基于所述特征信息和所述用户画像,使用的对两种算法进行瀑布融合得到的推荐算法,向所述多个标注员中与所述语音标注任务匹配的标注员,推荐所述标注任务;其中,所述两种算法包括基于物品的协同过滤算法和基于用户的协同过滤算法。
本发明通过建立用户画像系统和推荐系统,将用户特征标签化,将用户画像和推荐系统应用到数据标注领域,极大地提高了标注效率和人员整合效率。此外,在推荐系统使用两种算法瀑布融合,能够提高推荐的准确性。
附图说明
图1为本发明实施例中的一种推荐标注任务的方法流程图;
图2为本发明实施例中的一种推荐标注任务的装置结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种推荐标注任务的方法,如图1所示,包括以下步骤:
步骤101,获取语音标注任务的特征信息和多个标注员的用户画像;
其中,用户画像可以包括:年龄、籍贯、学历、外语水平、专业背景、长语音标注能力、杂音区分能力,以及近期空闲时间。建立用户画像后,可以定期维护和更新用户画像。
本实施例中,可以根据每位标注员在录入系统时填写的信息,建立初期的用户画像,包括年龄、籍贯、学历、英文水平和专业背景等。在语音标注过程中,记录每个标注员的深层信息,根据深层信息更新标注员的用户画像。
其中,深层信息可以包括历史表现、语种专长和场景专长等。
步骤102,根据所述特征信息和所述用户画像,向所述多个标注员中与所述语音标注任务匹配的标注员,推荐所述标注任务。
具体地,可以基于所述特征信息和所述用户画像,使用的对两种算法进行瀑布融合得到的推荐算法,向所述多个标注员中与所述语音标注任务匹配的标注员,推荐所述标注任务;其中,瀑布型(waterfallmodel)融合方法采用将多个模型串联的方法,上述两种算法包括基于物品的协同过滤(item-basedcollaborativefiltering)算法和基于用户的协同过滤(user-basedcollaborativefiltering)算法。
例如,在建立一个庞大的用户画像系统后,当遇到某特殊项目(例如,某军事相关、中英文混合、长语音、较多杂音、非常紧急项目),可以选择系统中爱好军事、有一定英语水平、历史长语音标注表现达到80分及以上、在区别杂音能力达到90分以上、近一周有大量空闲的标注员,向他们推荐此标注项目,若标注员同意参与标注项目,则由项目经理统一安排任务。
本发明实施例建立用户画像系统和推荐系统,将用户特征标签化,将用户画像和推荐系统应用到数据标注领域,极大地提高了标注效率和人员整合效率。此外,在推荐系统使用两种算法瀑布融合,能够提高推荐的准确性。
基于上述推荐标注任务的方法,本发明实施例还提供一种推荐标注任务的装置,如图2所示,包括:
获取模块210,用于获取语音标注任务的特征信息和多个标注员的用户画像;
其中,用户画像包括:年龄、籍贯、学历、外语水平、专业背景、长语音标注能力、杂音区分能力,以及近期空闲时间。
推荐模块220,用于根据所述特征信息和所述用户画像,向所述多个标注员中与所述语音标注任务匹配的标注员,推荐所述标注任务。
具体地,推荐模块220,具体用于基于所述特征信息和所述用户画像,使用的对两种算法进行瀑布融合得到的推荐算法,向所述多个标注员中与所述语音标注任务匹配的标注员,推荐所述标注任务;其中,所述两种算法包括基于物品的协同过滤算法和基于用户的协同过滤算法。
进一步地,上述装置,还包括:
更新模块,用于在语音标注过程中,记录每个所述标注员的深层信息,根据所述深层信息更新所述标注员的用户画像。
其中,深层信息包括历史表现、语种专长和场景专长。
本发明实施例建立用户画像系统和推荐系统,将用户特征标签化,将用户画像和推荐系统应用到数据标注领域,极大地提高了标注效率和人员整合效率。此外,在推荐系统使用两种算法瀑布融合,能够提高推荐的准确性。
结合本文中所公开的实施例描述的方法中的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
1.一种推荐标注任务的方法,其特征在于,包括以下步骤:
获取语音标注任务的特征信息和多个标注员的用户画像;
根据所述特征信息和所述用户画像,向所述多个标注员中与所述语音标注任务匹配的标注员,推荐所述标注任务。
2.如权利要求1所述的方法,其特征在于,所述用户画像包括:年龄、籍贯、学历、外语水平、专业背景、长语音标注能力、杂音区分能力,以及近期空闲时间。
3.如权利要求1所述的方法,其特征在于,还包括:
在语音标注过程中,记录每个所述标注员的深层信息,根据所述深层信息更新所述标注员的用户画像。
4.如权利要求3所述的方法,其特征在于,所述深层信息包括历史表现、语种专长和场景专长。
5.如权利要求1所述的方法,其特征在于,所述根据所述特征信息和所述用户画像,向所述多个标注员中与所述语音标注任务匹配的标注员,推荐所述标注任务,包括:
基于所述特征信息和所述用户画像,使用的对两种算法进行瀑布融合得到的推荐算法,向所述多个标注员中与所述语音标注任务匹配的标注员,推荐所述标注任务;其中,所述两种算法包括基于物品的协同过滤算法和基于用户的协同过滤算法。
6.一种推荐标注任务的装置,其特征在于,包括:
获取模块,用于获取语音标注任务的特征信息和多个标注员的用户画像;
推荐模块,用于根据所述特征信息和所述用户画像,向所述多个标注员中与所述语音标注任务匹配的标注员,推荐所述标注任务。
7.如权利要求6所述的装置,其特征在于,所述用户画像包括:年龄、籍贯、学历、外语水平、专业背景、长语音标注能力、杂音区分能力,以及近期空闲时间。
8.如权利要求6所述的装置,其特征在于,还包括:
更新模块,用于在语音标注过程中,记录每个所述标注员的深层信息,根据所述深层信息更新所述标注员的用户画像。
9.如权利要求8所述的装置,其特征在于,所述深层信息包括历史表现、语种专长和场景专长。
10.如权利要求6所述的装置,其特征在于,
所述推荐模块,具体用于基于所述特征信息和所述用户画像,使用的对两种算法进行瀑布融合得到的推荐算法,向所述多个标注员中与所述语音标注任务匹配的标注员,推荐所述标注任务;其中,所述两种算法包括基于物品的协同过滤算法和基于用户的协同过滤算法。
技术总结