本发明涉及一种公共标识语语料资源的加工整理方法。
背景技术:
公共标识语也被称为公示语,主要是在城市中为公众或游客的出行方便而提供的指示性语音,包括服务设施、机构名称、广告牌、公共设施、公共交通、旅游景点、街头路牌、标语口号、商店招牌等,其作用是通过简明的语言向公众提供有效的信息。随着经济文化的发展,尤其是旅游业的发展,很多城市都吸引了大量的外国友人,因此公共标识语的翻译显得尤为重要,其不仅是城市语言环境和人文环境的代表,而且为促进旅游产业的发展起到重要的作用。正确、得体的公共标识语翻译内容能够为各国游客提供良好便捷的帮助并提高城市的整体形象,反之,错误、不得体的公共标识语反应内容会给外国游客带来理解上的障碍甚至误区,因此保证公共标识语翻译的准确很有必要。
由于公共标识语涉及的领域众多,在其语料采集过程中涉及的来源信息十分广泛,在广泛来源的语料信息中提取出较为准确的双语信息,关系到后续公共标识语双语平行语料库的建立,对此本领域技术人员亟需一种行之有效的方法或系统来对公共标识语的语料资源进行加工整理。
技术实现要素:
针对上述技术问题,本发明提供一种公共标识语语料资源的加工整理方法,以提高语料资源的准确率。
为实现上述目的,本发明采用的技术方案如下:
一种公共标识语语料资源的加工整理方法,包括以下步骤:
(s1)基于公共标识语的关键词信息从采集到的基础语料信息库中提取公共标识语基础语料信息;
(s2)以段落为单位对提取的公共标识语基础语料信息进行清洗并对齐,统一格式和标点符号;
(s3)将清洗后的公共标识语基础语料信息按段和句进行切分,并按段和句的先后顺序进行依次编号,存入预处理语料库;
(s4)从预处理语料库中根据编号顺序依次提取每句语料信息,对其进行机器翻译,并依照编号标注对应的翻译序号;
(s5)将语料信息和翻译后的信息按句对齐,存入校验语料库;
(s6)利用人工翻译依次对校验语料库中存储的语料信息进行校正;
(s7)将校正后的语料信息按公共标识语类型进行标注,并输出类别标示符;
(s8)将校正标注后的语料信息存入公共标识语语料库,并基于类别标示符建立类别索引表。
具体地,所述步骤(s3)中,先按段落对公共标识语基础语料信息进行切分,并按段落的先后顺序编排第一编号,然后再按句对每一段公共标识语基础语料信息进行二次切分,并按句的先后顺序编排第二编号,该第一编号和第二编号共同构成预处理语料库中的公共标识语基础语料信息的排序编号。
具体地,所述步骤(s4)中,翻译序号与所述排序编号依次对应。
进一步地,所述步骤(s7)中,公共标识语类型至少包括对应公共标识语基础语料信息的主要分类的一级类别,以及对应公共标识语基础语料信息的次要分类的二级类别。
进一步地,所述类别标示符包括与一级类别对应的一类标示符和与二级类别对应的二类标示符。
与现有技术相比,本发明具有以下有益效果:
本发明通过提取、清洗、切分、排序的操作方式先将公共标识语基础语料信息按需处理对其,并采用机器翻译为主、人工翻译为辅的形式对公共标识语语料进行翻译校正,有效地提高了语料资源的双语对应准确度,而且还通过分类标注的方式对语料资源进行保存,为后续建立公共标识语双语平行语料库打下了坚实的基础。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图说明和实施例对本发明作进一步说明,本发明的方式包括但不仅限于以下实施例。
实施例
如图1所示,该公共标识语语料资源的加工整理方法,包括如下过程:
(s1)基于公共标识语的关键词信息从采集到的基础语料信息库中提取公共标识语基础语料信息;
(s2)以段落为单位对提取的公共标识语基础语料信息进行清洗并对齐,统一格式和标点符号;
(s3)将清洗后的公共标识语基础语料信息按段和句进行切分,并按段和句的先后顺序进行依次编号,存入预处理语料库:
先按段落对公共标识语基础语料信息进行切分,并按段落的先后顺序编排第一编号,然后再按句对每一段公共标识语基础语料信息进行二次切分,并按句的先后顺序编排第二编号,该第一编号和第二编号共同构成预处理语料库中的公共标识语基础语料信息的排序编号;
(s4)从预处理语料库中根据编号顺序依次提取每句语料信息,对其进行机器翻译,并依照编号标注对应的翻译序号,该翻译序号与所述排序编号依次对应;
(s5)将语料信息和翻译后的信息按句对齐,存入校验语料库;
(s6)利用人工翻译依次对校验语料库中存储的语料信息进行校正;
(s7)将校正后的语料信息按公共标识语类型进行标注,并输出类别标示符,其中,公共标识语类型至少包括对应公共标识语基础语料信息的主要分类的一级类别,以及对应公共标识语基础语料信息的次要分类的二级类别;所述类别标示符包括与一级类别对应的一类标示符和与二级类别对应的二类标示符;
(s8)将校正标注后的语料信息存入公共标识语语料库,并基于类别标示符建立类别索引表。
通过上述过程,能够较为方便快捷并准确地基于所采集的公共标识语基础语料信息来进行语料资源的加工处理,为后续建立公共标识语双语平行语料库打下了坚实的基础。
上述实施例仅为本发明的优选实施方式之一,不应当用于限制本发明的保护范围,但凡在本发明的主体设计思想和精神上作出的毫无实质意义的改动或润色,其所解决的技术问题仍然与本发明一致的,均应当包含在本发明的保护范围之内。
1.一种公共标识语语料资源的加工整理方法,其特征在于,包括以下步骤:
(s1)基于公共标识语的关键词信息从采集到的基础语料信息库中提取公共标识语基础语料信息;
(s2)以段落为单位对提取的公共标识语基础语料信息进行清洗并对齐,统一格式和标点符号;
(s3)将清洗后的公共标识语基础语料信息按段和句进行切分,并按段和句的先后顺序进行依次编号,存入预处理语料库;
(s4)从预处理语料库中根据编号顺序依次提取每句语料信息,对其进行机器翻译,并依照编号标注对应的翻译序号;
(s5)将语料信息和翻译后的信息按句对齐,存入校验语料库;
(s6)利用人工翻译依次对校验语料库中存储的语料信息进行校正;
(s7)将校正后的语料信息按公共标识语类型进行标注,并输出类别标示符;
(s8)将校正标注后的语料信息存入公共标识语语料库,并基于类别标示符建立类别索引表。
2.根据权利要求1所述的公共标识语语料资源的加工整理方法,其特征在于,所述步骤(s3)中,先按段落对公共标识语基础语料信息进行切分,并按段落的先后顺序编排第一编号,然后再按句对每一段公共标识语基础语料信息进行二次切分,并按句的先后顺序编排第二编号,该第一编号和第二编号共同构成预处理语料库中的公共标识语基础语料信息的排序编号。
3.根据权利要求2所述的公共标识语语料资源的加工整理方法,其特征在于,所述步骤(s4)中,翻译序号与所述排序编号依次对应。
4.根据权利要求3所述的公共标识语语料资源的加工整理方法,其特征在于,所述步骤(s7)中,公共标识语类型至少包括对应公共标识语基础语料信息的主要分类的一级类别,以及对应公共标识语基础语料信息的次要分类的二级类别。
5.根据权利要求4所述的公共标识语语料资源的加工整理方法,其特征在于,所述类别标示符包括与一级类别对应的一类标示符和与二级类别对应的二类标示符。
技术总结