本发明涉及地理信息数据处理领域,尤其涉及一种基于fasttext的三维单体模型语义分类方法及系统。
背景技术:
1、随着数字城市、智慧城市、城市信息模型(city information modeling,cim)以及实景三维中国等新型基础测绘建设与发展要求,需要将各种自然要素以三维实体模型的形式进行表达,并且对实体模型附加统一标准格式语义信息进行描述。建筑物作为城市的最重要的基础设施之一,是城市要素的核心组成部分,如何在三维模型中提取建筑物单体受到广泛的关注与重视。
2、目前,国内外基于无人机倾斜摄影测量、三维激光点云、航空摄影测量等三维建模技术相对成熟,能实现高效、精确地获取一定区域的三维模型;但难以将三维模型中的各要素单体模型提取出来,或者提取出来的实体模型缺少语义信息,无法满足智慧城市、cim等新型基础测绘数据产品要求。在目前的实际项目中,国内并没有针对三维模型数据分类的统一分类标准和科学的分类方法,而三维模型建筑物单体化工作,一般是通过大量作业人员手工实现的方式进行,这将产生一系列问题:
3、1、作业效率低下:传统作业方式,需要人工依据单体模型名称、编码等字段进行分类,作业效率不高。
4、2、人工成本高:城市级的模型管理数量多,作业量大,需要投入大量人力进行分类。同时,还需要安排专人进行二级审核,整体人工成本高。
5、因此,这严重限制了三维模型的应用效率,难以满足新型基础测绘的发展需求。基于此,本发明提供一种基于fasttext的三维单体模型语义分类方法及系统,结合现有nlp(自然语言处理)技术,分析语义信息完成模型自动分类,并实现快速检索、提取及分发。
技术实现思路
1、本发明旨在解决现有技术中存在的技术问题。为此,本发明提供一种基于fasttext的三维单体模型语义分类方法及系统,结合现有nlp(自然语言处理)技术,分析语义信息完成模型自动分类,并实现快速检索、提取及分发。
2、本发明解决其技术问题所采用的技术方案是:
3、第一方面,提供一种基于fasttext的三维单体模型语义分类方法,包括以下步骤:
4、步骤s1,poi数据获取及处理:利用python爬虫技术获取模型数据文件的原始poi文本数据,并对该文本数据进行筛选、清洗和标准化处理;
5、步骤s2,对经步骤s1处理的文本数据进行中文分词及去停用词处理;
6、步骤s3,对经步骤s2处理后的文本数据进行数字特征提取,使文本特征转化成计算机可以处理的数字特征;
7、步骤s4,通过fasttext算法进行多分类模型的构建及优化,将经步骤s3处理的每段完整的数字信息预测分类为对应的类别。
8、在本发明的一种较佳实施例中,所述步骤s1具体包括如下步骤:
9、步骤s11,数据获取:利用python爬虫技术获取模型数据文件的原始poi文本数据,包含poi的名称、地址、x坐标、y坐标、门类信息;
10、步骤s12,数据清洗:对数据进行去重、缺失值处理、噪声处理、及属性值规范填写处理;
11、步骤s13,数据处理:对于同类型的poi文本数据,确保字段名和字段类型统一,并将数据格式转换为模型分析所需的txt格式或csv格式。
12、在本发明的一种较佳实施例中,所述步骤s12中,数据去重具体为:通过poi的唯一标识id来识别重复的poi数据,并进行删除处理;数据缺失值处理具体为:检查单条记录中缺失的属性值,通过默认值填充或算法估算进行缺失值处理;数据噪声处理具体为:对数据进行质检,对错误记录进行修改或删除处理;数据的属性值规范填写处理具体为:将属性值填写格式统一为标准格式。
13、在本发明的一种较佳实施例中,步骤s2中,采用分词器对文本数据进行分词,分完词后的文本数据再通过内置的停用词表对其进行去停用词处理。
14、在本发明的一种较佳实施例中,步骤s4中,对数字信息分类前,采用n-gram模型处理,提高数字信息的词序准确性。
15、第二方面,提供一种运行基于fasttext的三维单体模型语义分类方法的系统,包括:
16、poi文本预处理模块,用于对通过爬虫技术爬取到的原始poi文本数据进行筛选、清洗和标准化处理;
17、中文分词及去停用词模块,用于通过分词器对文本数据进行分词操作并通过停用词表去除对文本分类无意义的词;
18、数字特征提取模块,用于将文本特征转化成数字特征;
19、fasttext分类器模块,用于通过fasttext算法进行多分类模型的构建,将每段文本预测分类为对应的类别,实现弹体模型的快速分类。
20、在本发明的一种较佳实施例中,所述分词器采用jieba分词器,所述停用词表采用哈工大停用词表。
21、在本发明的一种较佳实施例中,所述数字特征提取模块采用基于深度学习的词嵌入模型word2vec将文本特征提取为数字特征。
22、在本发明的一种较佳实施例中,还包括语义化检索模块,用于实现单体模型的快速检索。
23、在本发明的一种较佳实施例中,还包括开发模型提取模块,用于实现单体模型的快速分发。
24、与现有技术相比,本发明的有益效果是:本发明实现了单体模型的语义信息自动分类,提高了作业效率,降低了人工成本;同时,还能实现单体模型的快速检索、提取及分发。
1.一种基于fasttext的三维单体模型语义分类方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于fasttext的三维单体模型语义分类方法,其特征在于,所述步骤s1具体包括如下步骤:
3.根据权利要求2所述的基于fasttext的三维单体模型语义分类方法,其特征在于,所述步骤s12中,数据去重具体为:通过poi的唯一标识id来识别重复的poi数据,并进行删除处理;
4.根据权利要求1所述的基于fasttext的三维单体模型语义分类方法,其特征在于,步骤s2中,采用分词器对文本数据进行分词,分完词后的文本数据再通过内置的停用词表对其进行去停用词处理。
5.根据权利要求1所述的基于fasttext的三维单体模型语义分类方法,其特征在于,步骤s4中,对数字信息分类前,采用n-gram模型处理,提高数字信息的词序准确性。
6.一种基于fasttext的三维单体模型语义分类系统,其特征在于,用于运行基于fasttext的三维单体模型语义分类方法,包括:
7.根据权利要求6所述的基于fasttext的三维单体模型语义分类方法,其特征在于,所述分词器采用jieba分词器,所述停用词表采用哈工大停用词表。
8.根据权利要求6所述的基于fasttext的三维单体模型语义分类方法,其特征在于:所述数字特征提取模块采用基于深度学习的词嵌入模型word2vec将文本特征提取为数字特征。
9.根据权利要求6所述的基于fasttext的三维单体模型语义分类方法,其特征在于:还包括语义化检索模块,用于实现单体模型的快速检索。
10.根据权利要求9所述的基于fasttext的三维单体模型语义分类方法,其特征在于:还包括开发模型提取模块,用于实现单体模型的快速分发。
