一种计算人口在不同微环境的活动模式概率密度函数的方法和系统与流程

专利2022-06-30  51


本发明涉及大气污染防控技术领域,更具体地说,涉及一种计算人口在不同微环境的活动模式概率密度函数的方法和系统。



背景技术:

伴随着我国经济的快速发展和城市化进程的持续推进,大气污染已逐渐发展为我国的一个突出环境问题。国内外流行病学研究结果表明,大气污染尤其是pm2.5暴露与一系列急性和慢性健康终端变化存在重要关联,包括呼吸系统疾病和循环系统疾病的发病和死亡。全球疾病负担研究结果也表明,2010年pm2.5是中国第4大致死风险因素,导致了约123万的超额死亡人数,该数字在2015年略微下降但仍高达111万人。

暴露评估是大气污染健康损益评估的重要环节之一。通常而言,人群暴露量一方面取决于客观存在的环境污染物浓度,另一方面也受到人体对污染物接触时间和频率等的影响。当前大部分的健康损益的研究中都直接采用大气污染物的环境浓度作为暴露水平来匹配,而未将室内环境排放源以及人的行为活动等因素考虑到个体暴露评估的过程中,从而不能表征个体实际的暴露水平。

为纠正此偏差,国内外学者开发了采用便携式个体采样器在暴露个体的呼吸区域内连续监测一定时间内个人身体表层接触环境介质中污染物浓度的方法。但由于个体采样监测法仪器花费昂贵且需要花费大量时间和人力对被测试者进行培训,仪器佩戴会对被测试者的日常行为产生不可控的影响甚至侵犯隐私等,其在实际暴露评估中大范围的应用受到了限制,因而近年来国内外采用该方法进行的个体暴露研究大多是非代表性的试点研究,并不适用于为宏观层面的健康损益评估研究提供暴露数据。目前,特别需要开发一种科学反映人群在不同微环境下开展不同行为活动模式的新的定量计算方法,以满足宏观层面健康损益评估的技术需求。



技术实现要素:

1.要解决的技术问题

针对大气风险健康损益评估多为针对小群体的试点研究的局限,本发明融合随机森林算法和主体行为模型,开发一种计算人口在不同微环境的活动模式概率密度函数的方法和系统,本发明使用方法成本低、精度高,可以实现在宏观层面对公众群体的健康损益评估提供技术支撑。

2.技术方案

本发明的目的通过以下技术方案实现。

一种计算人口在不同微环境的活动模式概率密度函数的方法,包括以下步骤:

步骤一:获取目标区域内常住人口的静态空间分布数据,在目标区域内采用随机抽样法开展公众行为模式的问卷调研,得到公众行为模式数据;

步骤二:采用随机森林机器学习分类算法,获得特定特征的个体在一天内特定时段开始前决定其在下一时段进行特定活动及选择特定活动场所的概率分布函数;

ai,t,d=f(agei,sexi,edui,cari,ai,t-1,d);

li,t,d=f(agei,sexi,edui,cari,li,t-1,ai,t,d);

式中:i为个体i;t为一天的某一时段t;d为星期属性,用于判断是工作日还是周末;agei为个体i的年龄;sexi为个体i的性别;edui为个体i的教育程度;cari为个体i的家庭车辆数;ai,t,d为个体i在t时段的行为活动类型;li,t,d为个体i在t时段所处的微环境类型;ai,t-1,d为个体i在t-1时段的行为活动类型;li,t-1,d为个体i在t-1时段所处的微环境类型;f为个体行为活动决策规则的函数形式,由随机森林分类算法导出。

步骤三:结合基于公众行为模式数据构建的个体行为活动决策规则、目标区域人口背景以及目标区域人口总体分布,采用主体行为模型进行仿真模拟,得到目标区域内所有个体在特定时段做出个体的行为活动决策后公众的行为活动的分布。

更进一步的,步骤一中公众行为模式数据包括被调研者的性别、年龄、教育程度、收入和家庭车辆数。

更进一步的,公众行为模式数据通过活动类型和活动场所两个维度获取。

更进一步的,活动类型包括睡眠、安静的活动、轻度体力活动、中度体力活动和重度体力活动;活动场所包括室内环境、室外环境和交通环境。

更进一步的,公众行为模式数据采集在工作日和非工作日共同开展,污染天气提高数据采集密度。

更进一步的,步骤三中模型仿真时先创建主体,然后将目标区域人口普查统计数据与创建的主体关联,运行模型得到公众行为活动的分布。

更进一步的,目标区域人口普查统计数据缺少部分由行为模式调研数据表征。

更进一步的,主体创建个数至少是公众行为模式数据样本数的50倍。

更进一步的,公众行为活动分布数据信息包括模拟时段、坐标系及投影信息、网格编号、网格中心点经度、网格中心点纬度和网格内进行特定活动的人口数。

一种计算人口在不同微环境的活动模式概率密度函数的系统,使用所述的一种计算人口在不同微环境的活动模式概率密度函数的方法,所述系统包括信息获取单元,数据处理单元和模型仿真单元;信息获取单元先采集行为模式数据,然后将数据发送到数据处理单元进行分析处理获得个体行为决策规则;最后通过模型仿真单元输出仿真结果。

3.有益效果

相比于现有技术,本发明的优点在于:

本发明所述的动态人口活动模式模拟方法及模拟系统,通过融合随机森林模型和主体行为模型,创新性地开发了一种低成本的计算人口处于不同微环境开展不同活动模式的概率密度函数的方法,大大提高大气污染暴露评估的精准度。

在数据收集统计方面,立足于中国国情和大气污染暴露评估的模型输入需求,改进了国外量表,提高数据收集的时间分辨率至小时尺度、增加了活动场所这一空间属性,丰富了数据的时空属性。在算法构建方面,创造性的融合了机器学习模型和仿真模拟模型,解决了模拟大规模群体活动模式的概率分布的技术难题,提高了活动模式模拟的精准度。

附图说明

图1为本发明动态人口活动模式模拟方法的技术路线;

图2为本发明公众行为模式调研地点分布;

图3为本发明公众行为模式模拟过程截图;

图4为本发明动态人口活动模式模拟结果;图4(a)为人群每种活动类型在工作日花费的时间比例,图4(b)为每种活动类型在周末花费的时间比例,图4(c)为人群在工作日时在每种微环境中花费的时间比例,图4(d)为人群在周末时在每种微环境中花费的时间比例,图4(e)为活动类型和微环境比例在随机森林模型-多主体模型联用和问卷统计结果之间的差异;

图5为本发明动态人口活动模式模拟系统模块图。

具体实施方式

下面结合说明书附图和具体的实施例,对本发明作详细描述。

实施例1

本发明动态人口活动模式模拟系统如图5所示,包括信息获取单元,数据处理单元和模型仿真单元;信息获取单元先采集行为模式数据,采集后将行为模式数据发送到数据处理单元进行分析处理,获得个体行为决策规则;分析处理后获得的个体行为决策规则通过模型仿真单元输出仿真后的人口空间分布图,获得动态人口分布结果。

信息获取单元在采集行为模式数据时,先通过获取目标区域内常住人口的静态空间分布数据,然后在目标区域内采用随机抽样法开展公众行为模式的问卷调研。调研问卷根据大气污染暴露评估的数据要求设计,从活动类型和活动场所两个维度收集人群的活动模式数据。

数据处理单元在本实施例中采用随机森林机器学习分类算法导出个体行为活动决策规则,根据信息获取单元的行为模式数据,获得特定特征的个体在一天内特定时段开始前决定其在下一时段进行特定活动及选择特定活动场所的概率分布函数,得到个体行为决策规则。

模型仿真单元采用主体行为模型(abm,agentbasedmodel)进行仿真模拟,结合数据处理单元导出的个体行为决策规则以及目标区域人群的背景特征分布,计算得到具有活动强度、活动场所属性的单位网格中的人口数。

如图1所示,本实施例的一种融合随机森林模型和主体行为模型的动态人口活动模式模拟方法,包括以下步骤:

步骤一:公众行为模式数据的调研

收集目标区域内的常住人口的静态空间分布数据,本实施例中空间分辨率为3*3公里,使用中国科学院资源环境科学数据中心的全国人口空间分布1公里网格数据系列。数据信息包括年份、坐标系及投影信息、网格编号、网格中心点经度、网格中心点纬度、网格所在行政区(村或街道)、网格内总常住人口数。

在目标区域内采用随机抽样法开展公众行为模式的问卷调研,调研内容包括被调研者的性别、年龄、教育程度、收入和家庭车辆数,以及被调研者在调研发生前一天特定时段内所从事的行为活动的类型、行为活动发生的场所类型和所在的地址信息,地址信息至少精确到县区。

调研需在工作日与周末共同开展,同时针对重污染天气开展临时加密调研,并记录详细的调研时间与地点。推荐依据活动强度的不同将活动类型分为五类;将活动场所简化分为十类,包括家\宿舍\酒店、有粉尘的车间、办公/学习场所和室内公共场所四类室内环境,出租\私家车、公交车\地铁、摩托车\电动车和自行车等四类交通环境,以及公共绿地和除绿地外的室外环境两类室外环境。

从活动类型和活动场所两个维度收集人群的活动模式数据:不同活动类型导致的呼吸速率的区别会引起污染物呼吸摄入量的不同,不同活动场所导致的污染物穿透系数的区别会引起污染物环境浓度的不同。本数据调研方案有助于提高大气污染暴露评估的准确性和精确性。

步骤二:基于公众行为模式的抽样调研数据,采用随机森林机器学习分类算法导出个体行为活动决策规则,即具有特定特征的个体在一天内特定时段开始前决定其在下一时段进行特定活动及选择特定活动场所的概率分布函数,如公式(1)和(2)所示,

ai,t,d=f(agei,sexi,edui,cari,ai,t-1,d)(1)

li,t,d=f(agei,sexi,edui,cari,li,t-1,ai,t,d)(2)

式中:i为个体i;t为一天的某一时段t;d为星期属性,用于判断是工作日还是周末;agei为个体i的年龄;sexi为个体i的性别;edui为个体i的教育程度;cari为个体i的家庭车辆数;ai,t,d为个体i在t时段的行为活动类型;li,t,d为个体i在t时段所处的微环境类型;ai,t-1,d为个体i在t-1时段的行为活动类型;li,t-1,d为个体i在t-1时段所处的微环境类型;f为个体行为活动决策规则的函数形式,由随机森林分类算法导出。

步骤三:

采用主体行为模型(agentbasedmodel,abm)进行仿真模拟,得到目标区域内所有个体在特定时段做出个体的行为活动决策后全人群的行为活动的分布。

根据步骤二导出的个体行为活动决策规则及目标区域人群的背景特征分布,首先创建大规模主体count(i),单个主体代表目标区域内单个人,标记为i。本实施例创建的主体个数与目标区域内的总人数(pop)相等;在计算能力有限的情况下,创建的主体个数至少是公众行为模式抽样调研所得样本数(qz)的50倍及以上:

50×qz≤count(i)≤pop(3)

在完成主体创建后,结合目标年份人口网格数据以及人口普查数据,将目标区域内人群的空间分布特征性别、年龄、家庭车辆数以及教育程度的结构分布特征赋予所创建的主体。在主体个数等于或小于区域总人数的情况下,所创建的主体都具有与目标区域内全人群相同的空间分布特征和性别、年龄、家庭车辆数以及教育程度的结构分布特征。在模型运行后即可得到一天内特定时段目标区域内各网格中进行特定行为活动的人口数。数据信息包括模拟时段、坐标系及投影信息、网格编号、网格中心点经纬度和网格内进行特定活动的人口数。其中坐标系及投影信息用于提供地理信息系统的空间定位框架,模拟时段、网格编号、网格中心点经纬度用于定位每次模拟的空间单元和时间属性。计算得到的具有活动强度a、活动场所l属性的单位网格中的人口数如下:

式中:a为活动类型;l为微环境类型,i为个体i;t为一天的某一时段t;d为星期属性,用于判断是工作日还是周末;gridu为网格u的编号;popa,l,gridu,t,d为在t时间段d天具有活动强度a活动场所l属性的在网格u中的人口数。

本实施例选取江苏省省会城市南京市作为案例城市开展问卷调查。本实施例于2014年7月至2015年6月采用随机抽样法在南京市开展了问卷调研。调研采用面对面访谈与问卷调研相结合的方式,内容包括调研时刻前一天的活动日志(活动的类型和行为活动发生的场所类型)以及个人基本信息。

为保证样本代表性,如图2所示,本研究共选取5处调研地点,范围涵盖南京市玄武区、秦淮区、鼓楼区、建邺区、雨花台区、浦口区、六合区、栖霞区和江宁区。调研每两周进行两次,包括周六周日两天,对应得到被调研者周五与周六的活动日记,用于区分工作日和双休日公众活动模式的变化。在青奥期间采取加密调研手段,即每周进行三次调研,包括周三、周六、周日三天。此外,针对重污染天气开展临时加密调研。一年间共开展调研73次,涵盖调研期间所有月份,出动调研人员500余人次,有效样本数为工作日4228份,周末3405份,共计7633份。

参照国际体力活动问卷以及世界卫生组织的全球体力活动调查表,本实施例公众行为模式问卷调查表依据活动强度的不同将活动类型分为了睡眠、安静的活动、轻度体力活动、中度体力活动和重度体力活动五类。参照美国国家人类活动模式调查研究,本实施例将活动场所简化分为十类,包括家\宿舍\酒店、有粉尘的车间、办公/学习场所和室内公共场所四类室内环境,出租\私家车、公交车\地铁、摩托车\电动车和自行车等四类交通环境以及公共绿地和除绿地外的室外环境两类室外环境。为方便表征,本实施例将活动类型和活动场所进行编码,活动类型和场所代码及对应的具体活动见表1和表2。

表1公众行为活动类型分类代码

表2公众行为活动场所分类代码

基于公众行为模式抽样调研数据,采用随机森林分类算法导出个体行为活动决策规则,本实施例假设个体在某一时段的活动类型与活动场所受个体的年龄、性别、受教育水平和家庭车辆数影响,且与前一时段的活动有关,另外,活动场所的选择也受活动类型影响。由此构建了决策规则的函数如公式(1)和(2)所示,决策规则的导出程序使用r语言编写:

ai,t,d=f(agei,sexi,edui,cari,ai,t-1,d)(1)

li,t,d=f(agei,sexi,edui,cari,li,t-1,ai,t,d)(2)

式中:i为个体i;t为一天的某一时段t;d用于判断是工作日还是周末;agei为个体i的年龄;sexi为个体i的性别;edui为个体i的教育程度;cari为个体i的家庭车辆数;ai,t,d为个体i在t时段的行为活动类型;li,t,d为个体i在t时段所处的微环境类型;ai,t-1,d为个体i在t-1时段的行为活动类型;li,t-1,d为个体i在t-1时段所处的微环境类型;f为个体行为活动决策规则的函数形式,由随机森林分类算法导出。

为得到南京市内所有个体在特定时段做出个体行为活动决策后全人群的行为活动的分布,使用netlogo平台进行主体行为模型(abm,agentbasedmodel)仿真模拟。首先,在netlogo平台中创建大规模主体,单个主体代表南京市内单个人。在完成主体创建后,结合人口3公里网格数据以及人口普查数据,将南京市内人群的空间分布特征,及性别、年龄、教育程度和家庭车辆数的结构分布特征赋予netlogo平台中所创建的主体。netlogo平台中所创建的主体都具有与南京市内全人群相同的空间分布特征和性别、年龄、教育程度以及家庭车辆数的结构分布特征。在运行netlogo后即可得到一天内特定时段南京市内各网格中进行特定行为活动的人口数。

动态人口分布模拟所需的数据为基于公众行为模式调研构建的个体行为活动决策规则、南京市人群的背景特征(包括性别、年龄、受教育程度和家庭车辆数)和南京市人口总体分布。南京市人群的背景特征来自《第六次全国人口普查》数据,其中统计数据中缺乏的家庭车辆数,由行为模式调研数据表征。模拟中使用的南京市人口基本数据来自经过修正的中国科学院资源环境科学数据中心的2010年全国人口空间分布1公里网格数据系列,修正方法如公式(3)所示。修正中采用的数据来自《江苏统计年鉴2016》中江苏省下辖13个地级市的常住人口统计数据,在得到江苏省2016年1公里人口网格数据后,采用arcgis软件将其汇总至3*3公里。

式中:i为网格所在地级市i;j为江苏省地级市内的网格j;pi,n,2016为2016年江苏省地级市内的网格j的常住人口数,人;pi,j,2010为2010年江苏省地级市i内的网格j的常住人口数,人;pi,2016为2016年江苏省地级市i的总常住人口数,人;pi,2010为2010年江苏省地级市i的总常住人口数。

图3为将本实施例中的活动模式模拟模型在netlogo平台上实现的动态模拟过程示意,程序运行时可直接观察到居民活动类型的动态变化。

因活动模式在工作日与周末有差异,本实施例中工作日与周末的所有模拟工作均分别进行。将程序模拟的每一位居民的活动时间结果进行汇总,模拟结果如图4所示。根据图4(a)和(b)显示,南京市居民大部分时间处于安静的活动(act.b),在工作日和周末分别占45.36%和43.89%;其次处于睡眠(act.a)状态,在工作日和周末分别占38.17%和38.13%;从事轻度体力活动(act.c)的时间占比分别为12.28%和13.13%,而中度体力活动(act.d)和重度体力活动(act.e)的时间较少,在工作日占比为2.86%和1.33%,周末则为3.75%和1.10%。

在模拟活动类型的同时,本实施例同时模拟了每一个居民的活动场所,结果如图4(c)和(d)所示。南京市居民大部分时间均处于室内环境(indoor),在工作日占比达90.81%。其中在家\宿舍\酒店(loc.a)的时间占比最大达55.76%,办公\学习场所(loc.c)时间占比也超过四分之一。处于室外(outdoor)及交通工具中的时间(vehicle)则较少,占比分别为4.81%和4.39%。交通工具方面,人们在公交\地铁上的时间最多,达2.28%,其他交通方式的时间小于1%。在室外环境中,人们则更多处于除绿地外的室外环境(loc.j),处于公共绿地(loc.i)的时间则相对较少。图4(e)分析了随机森林模型和多主体模型的模拟结果与直接从问卷中得出的统计结果之间的相对差异。后者的结果会出现偏差,主要是由于样本量相对较小(与南京市总人口相比)和样本本身的偏差。两种方法的相对差异在-32%到58%之间。

本发明模拟系统,结合随机森林模型和主体行为模型,开发了一种提高动态人口活动模式模拟精度的方法,并且基于问卷调查和统计分析的本方法大大降低了调研成本。有助于大规模大气污染暴露评估的开展及矫正传统方法的误差。

以上示意性地对本发明创造及其实施方式进行了描述,该描述没有限制性,在不背离本发明的精神或者基本特征的情况下,能够以其他的具体形式实现本发明。附图中所示的也只是本发明创造的实施方式之一,实际的结构并不局限于此,权利要求中的任何附图标记不应限制所涉及的权利要求。所以,如果本领域的普通技术人员受其启示,在不脱离本创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本专利的保护范围。此外,“包括”一词不排除其他元件或步骤,在元件前的“一个”一词不排除包括“多个”该元件。产品权利要求中陈述的多个元件也可以由一个元件通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。


技术特征:

1.一种计算人口在不同微环境的活动模式概率密度函数的方法,其特征在于,包括以下步骤:

步骤一:获取目标区域内常住人口的静态空间分布数据,在目标区域内采用随机抽样法开展公众行为模式的问卷调研,得到公众行为模式数据;

步骤二:采用随机森林机器学习分类算法,获得特定特征的个体在一天内特定时段开始前决定其在下一时段进行特定活动及选择特定活动场所的概率分布函数;

ai,t,d=f(agei,sexi,edui,cari,ai,t-1,d);

li,t,d=f(agei,sexi,edui,cari,li,t-1,ai,t,d);

式中:i为个体i;t为一天的某一时段t;d为星期属性,用于判断是工作日还是周末;agei为个体i的年龄;sexi为个体i的性别;edui为个体i的教育程度;cari为个体i的家庭车辆数;ai,t,d为个体i在t时段的行为活动类型;li,t,d为个体i在t时段所处的微环境类型;ai,t-1,d为个体i在t-1时段的行为活动类型;li,t-1,d为个体i在t-1时段所处的微环境类型;f为个体行为活动决策规则的函数形式,由随机森林分类算法导出。

步骤三:结合基于公众行为模式数据构建的个体行为活动决策规则、目标区域人口背景以及目标区域人口总体分布,采用主体行为模型进行仿真模拟,得到目标区域内所有个体在特定时段做出个体的行为活动决策后公众的行为活动的分布。

2.根据权利要求1所述的一种计算人口在不同微环境的活动模式概率密度函数的方法,其特征在于,步骤一中公众行为模式数据包括被调研者的性别、年龄、教育程度、收入和家庭车辆数。

3.根据权利要求2所述的一种计算人口在不同微环境的活动模式概率密度函数的方法,其特征在于,公众行为模式数据通过活动类型和活动场所两个维度获取。

4.根据权利要求3所述的一种计算人口在不同微环境的活动模式概率密度函数的方法,其特征在于,活动类型包括睡眠、安静的活动、轻度体力活动、中度体力活动和重度体力活动;活动场所包括室内环境、室外环境和交通环境。

5.根据权利要求2或3或4所述的一种计算人口在不同微环境的活动模式概率密度函数的方法,其特征在于,公众行为模式数据采集在工作日和非工作日共同开展,污染天气提高数据采集密度。

6.根据权利要求1所述的一种计算人口在不同微环境的活动模式概率密度函数的方法,其特征在于,步骤三中模型仿真时先创建主体,然后将目标区域人口普查统计数据与创建的主体关联,运行模型得到公众行为活动的分布。

7.根据权利要求6所述的一种计算人口在不同微环境的活动模式概率密度函数的方法,其特征在于,目标区域人口普查统计数据缺少部分由行为模式调研数据表征。

8.根据权利要求6所述的一种计算人口在不同微环境的活动模式概率密度函数的方法,其特征在于,主体创建个数至少是公众行为模式数据样本数的50倍。

9.根据权利要求8所述的一种计算人口在不同微环境的活动模式概率密度函数的方法,其特征在于,公众行为活动分布数据信息包括模拟时段、坐标系及投影信息、网格编号、网格中心点经度、网格中心点纬度和网格内进行特定活动的人口数。

10.一种计算人口在不同微环境的活动模式概率密度函数的系统,其特征在于,使用任一如权利要求1-9所述的一种计算人口在不同微环境的活动模式概率密度函数的方法,所述系统包括信息获取单元,数据处理单元和模型仿真单元;信息获取单元先采集行为模式数据,然后将数据发送到数据处理单元进行分析处理获得个体行为决策规则;最后通过模型仿真单元输出仿真结果。

技术总结
本发明公开了一种计算人口在不同微环境的活动模式概率密度函数的方法和系统,属于大气污染防控技术领域。针对大气风险健康损益评估多为针对小群体的试点研究的局限,本发明通过融合随机森林模型和主体行为模型,开发了一种低成本的计算人口处于不同微环境开展不同活动模式的概率密度函数的方法,先通过信息获取单元先采集行为模式数据,采集后将行为模式数据发送到数据处理单元进行分析处理,获得个体行为决策规则;分析处理后获得的个体行为决策规则通过模型仿真单元输出仿真后的人口空间分布图,获得动态人口分布结果。本发明使用方法精度高,解决了模拟大规模群体活动模式的概率分布的技术难题,提高了活动模式模拟的精准度。

技术研发人员:毕军;刘苗苗;马宗伟;周琪
受保护的技术使用者:南京大学
技术研发日:2020.01.20
技术公布日:2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-56391.html

最新回复(0)