08城乡规划方法与技术(钮心毅) 发布时间:2015-12-14 点击:4401

推特数据与人口分布相关性
近期从社交网络获取位置数据用于城市研究已经是一种较为常见的方法。这一篇论文测算了社交网络数据与人口分布相关性,旨在验证社交网络数据能否用于研究居住人口、就业人口分布。作者首先讨论了已有研究将社交网络推特上获取的位置信息用于居民机动性调查。相比传统的机动性调查方式,不仅减少了人力、物力的投入,还能采集更多的样本。这些数据反映出居民的时空行为,能有助于揭示居民通勤方式、就业中心等某些特定的城市空间结构。尽管如此,作者认为来自推特这样的社交网站的数据反映的行为能否与实际社会活动相一致,还需要研究验证。为此,论文以伦敦为案例,以推特位置数据和英国官方人口普查数据进行对比、校核,验证两者之间的相关性。
论文中首先提出了两个研究问题。问题之一:从居民社交活动的时空特征和语义模式能否用于发现城市结构特征?这个问题将从工作相关、居住地相关行为中提取居民行为。问题之二:从推特的推文中获取数据能否作为居民社会活动和人口活动分布的依据?
研究范围选取了以大伦敦地区,地区面积为3265.387km2。从推特上采集了2013年7月31日-2014年7月31日之间一整年内在上述大伦敦范围内包含地理位置的推文,经预处理后共2040万条。这些推文是476071个用户发出的。
从推特的推文中获取时空信息和语义信息,存在一些不利的特点。一个特点是位置上的不确定性。推文上的位置信息是由用户选择附加的。用户可以选择附加精确位置,或是选择大致地点信息,如所在城市名、社区名。第二个特点是样本的偏向。推特用户发布信息在时间、空间上都是不均匀分布的。活跃的用户数量与实际人口数量也是不匹配的。为应对这些特点,作者采用了以下的数据处理方法。第一是数据的预处理,预处理是为了减少语义上减噪,空白和标点符号。第二是语义上相似性评估,给一个特定的主题,识别推文之间的相似性。随后进行空间自相关分析。对语义上相似性的的推文进行地理空间上分布的分析。观察在语义上相似的推文,如属于同一个主题,在地理空间上是否有相关性。此处采用了局部G统计量和局部 Moran指标。分析尺度上,定义了250m社区,用于构建空间权重矩阵。采用局部 Moran指标探知高值聚类区、低值聚类区,用来分析推文语义上相似度与地理空间分布之间关系,进而用于测度城市结构。采用局部G统计量进一步区分“冷点”低值聚类区和“热点”高值聚类区,发现语义上的“工作”、“家庭”热点与人口普查数据之间相关性。
在语义分析中,确定了“工作”、“家庭”两个主题。在“家庭”主题中,推文出现的最多概率的五个词是 “sleep、time、good、day、bed”。在“工作”主题中,推文出现的最多概率的五个词是 “day、job、hour、today、early”。上述主题内容的推文每日各个时间段有规律集中出现,一周之内各日也有规律集中出现。对上述语义识别出的主题的推文进行地理定位,分别进行局部空间自相关计算。采用局部Moran指数测度所有推文的空间聚类程度。从Z值高的局部正相关区域推测出社会活动集中区域。
每周工作日工作主题相关的推文时空分布在空间上聚集出现,尤其在伦敦城内部最为集中。对这些空间聚类都通过了显著性检验。继续进行局部G统计量计算,显示出工作主题相关额推文集中发生在上午6点至下午6点。工作相关推文的高值聚类区“热点”,最集中在伦敦城内,还集中在附近市中心威斯敏斯特、金融区金丝雀码头。从图面上来看与2011年工作日人口密度统计比较匹配。相对而言,莱切斯特广场附近是低值聚类区“冷点”。
每周的家庭主题相关的推文时空分布的高值聚类区“热点”分散在伦敦城内部。87%表示家庭主题Z值较高区域都成聚类出现。原来工作相关推文集中的市中心威斯敏斯特、金融区金丝雀码头都不再是家庭相关推文集中区域。相反,金丝雀码头西南是家庭主题推文高值聚类区。这在图面上与2011年人口普查的居住人口密度分布匹配。
随后,将工作、家庭两个主题的推文时空分布与人口普查数据进行相关性分析。采用2011年人口普查的统计区为空间单元,空间单元尺度大致是1km2。依据公开人口普查数据,得到每一个统计区的居住人口、工作人口。居住人口包括所有在该区居住的居民。工作人口统计了工作日在该区域就业的人数。
以统计区为单元,分别对工作人口与工作主题相关推文数量,居住人口与家庭主题相关推文数量进行相关性分析。统计分析显示,工作人口与工作主题相关推文数量,在1%显著性水平上皮尔逊相关系数为0.75。说明工作人口分布与工作主题相关推文分布呈现较强的相关性。居住人口与家庭主题相关推文数量,在1%显著性水平上皮尔逊相关系数为0.08。说明居住人口分布与家庭主题相关推文分布没有明显相关性。继续对家庭主题相关推文的发布位置进行分析,发现家庭主题相关推文分布位置明显集中在公共交通设施附近。
这一项研究对工作、家庭主题相关推文进行地理空间聚类,发现使用语义分析识别居民使用社交网络时空特征,能够分析识别出居民时空活动的特征。在伦敦的推文中,分析得到了居民行为的空间、时间以及语义上的聚类模式。这可以用来回答第一个研究问题。对于第二个研究问题,这项研究实际上回答了在多大程度上,推文聚类区域能够用来表达居民社会活动、表达人口分布。研究结论表明,工作相关的推文能够用来表达工作相关活动分布,也能用以表达工作人口的空间分布。相对而言,家庭相关推文与居住人口分布相关性较弱,难以用来表达居住人口空间分布。其中的原因可能与推特数据位置上的不确定性有关,也有可能是与家庭相关推文的语义识别复杂性有关。基于位置的社交网路(LBSN)能用于探知城市结构、居民机动性及相关研究。
来源:STEIGER E, WESTERHOLT R, RESCH B, et al. Twitter as an indicator for whereabouts of people? correlating twitter with UK census data[J]. Computers Environment & Urban Systems, 2015, 54: 255-265.

利用被动记录的手机定位数据认知居民活动模式:以居住地为基础的方法
随着移动定位技术的发展,利用移动定位设备可以被动地记录用户的位置信息,从而使得获取个人时空位置信息成为了可能。手机定位数据是移动定位数据中的一种,是一种大规模的被动定位数据。使用手机数据能够帮助我们以低成本和前所未有的规模来认知人类活动。这一篇论文的作者使用了深圳市匿名手机通话记录(CDRs),以居住地为基础测度了手机用户的日常活动范围,用以分析城市内部不同地区的居民活动模式。这里使用的匿名通话记录不是用户通话内容的记录,而是一种位置数据。手机用户在发生通话、收发短信时,由移动通信网络记录下来的即时位置数据。每个手机用户在一日内会发生多个通话、收发短信行为,每次会被动记录了位置信息。居民一日内的多次位置记录数据形成了居民日常活动轨迹。这些数据是匿名的,不包含任何个人信息,并且位置精度只能定位到移动通信基站,并不涉及具体位置。在深圳市,平均每个基站服务范围约0.67km2。
从手机数据中筛选出连续13天中至少有5天在深圳市出现过的用户,符合这一条件的用户数为1,219,190名。以上述用户的通话记录数据分析居民的活动特征。作者首先识别了用户的居住地,具体的方法为筛选每个用户在13天中连接最多的两个基站,将在非工作时间(每日18点到第二天6点)连接次数最多的基站识别为居住地。每一个用户都识别出了代表居住地的基站,作为后续轨迹研究的基准点。随后,以根据基站生成的泰森多边形为空间单元,显示居住密度。分析结果发现城市西南地区密度最高,这些地区正是深圳市的人口稠密区。
随后作者计算了每个手机用户的日常活动范围。此处提出了一个标准差距离方法,具体为计算每个轨迹点与居住地之间距离的标准差,标准差距离越大,日常活动范围越大。研究发现深圳市43%的用户的标准差距离小于1km,58.3% 的用户的标准差距离小于2km,23.9% 的用户的标准差距离大于5km。这表明大多数深圳市居民仅在居住地附近活动。
接下来将标准差距离按0-1km、1-2km、2-3km、3-4km、4-5km、大于5km分为6类,代表不同的居民日常活动模式,并据此将用户分为不同类型,计算在每个代表居住地的基站中不同类型用户所占的比例。以此为依据,用多层次分层合成聚类算法(Multi-Level Hierarchical Agglomerative Clustering Algorithm)将2976个基站中的2634个分为9个组(C1-C9)。其余有异常值或未被识别为居住地的342个基站不属于任何分组。
研究发现9个组中,每一组基站中的居民活动模式各具特征。C1类基站有27.75% 的用户标准差距离小于1km,33.84%的用户标准差距离大于5km。这些基站主要分布于深圳南部经济较发达的南山区、福田区和罗湖区。福田区和罗湖区是两个主要的商业地区,集聚了众多金融和商业中心,南山区的人均GDP是深圳6个区中最高的,集聚了众多大学和高新企业。因此,可以认为经济发展差异可能是影响居民日常活动模式的潜在因素。C2和C3类基站的多数用户标准差距离较小,其中C2类基站有44.3%的用户标准差距离小于1km,C3类基站有60.16%的用户标准差距离小于1km,标准差距离大于5km的用户分别只占21.89%和13.61%。这些基站主要分布于深圳北部宝安区和龙岗区的工业区。这是因为在深圳,很多工厂为工人就近提供宿舍,外来务工人员倾向于居住在工作地附近以减少通勤时间和通勤支出。此外,作者还提出了另外两个有意思的发现。第一是部分C2类基站位于福田区和罗湖区交界处,表明在这些经济发达地区也有大部分人的活动范围较小;第二是部分C2和C3类基站沿地铁线分布,如宝安区西南部和龙岗区西部,然而这些地区的居民的活动范围仍然较小。C6、C7、C8和C9类基站的多数居民用户标准差距离大于5km。其中C6、C7和C9类基站主要位于南山区、盐田区和龙岗区南部部分地区。C8类基站主要位于宝安区东南部地区,且标准差距离超过5km的用户比例接近100%。进一步从谷歌地图上可以发现,C8类基站覆盖的地区多是山区,并且有大型交通枢纽(深圳北站)坐落于此,许多城际高速公路穿行而过。这4类基站覆盖地区有一个共同特征,即人口密度不高。标准差距离较大的原因可能是这些地区缺少就业机会,导致居民外出工作需要出行较远距离。多数C4类基站位于宝安和龙岗区,C5类和未分类的基站分布无规律,还需要进一步研究。
这一研究表明使用大规模的手机定位数据获取的居民活动模式与深圳6个区的经济和交通特征相对较为吻合,能够用来表征深层次的社会、人口和土地使用模式,可以用于研究居民如何使用城市空间,为研究城市空间和建成环境之间的关系提供新的视角。
来源:XU Y, SHAW S L, ZHAO Z, et al. Understanding aggregate human mobility patterns using passive mobile phone location data: a home-based approach[J]. Transportation, 2015, 42(4): 625-646.
(供稿: 丁亮)

基于GIS的城市更新中土地使用规划支持框架:以香港为例
这是一个规划支持系统案例,提出了一个基于GIS的土地使用规划支持系统技术框架,并在香港的城市更新中得到实践应用。在城市更新中,土地使用规划扮演重要的角色。在城市更新工作中,规划师缺少综合性、集成度高的土地使用适宜性分析工具、土地使用规划决策工具。这一基于GIS的系统试图提供一种能支持城市更新中土地使用规划决策的定量工具。该规划支持系统采用了MCE(多准则评价)+AHP(层次分析法)+GIS(地理信息系统)的方法为基础,以土地适宜性分析为主要技术手段。系统的概念模型包括了三个模块,每一个模块承担不同功能,通过数据输入、输出将三个模块组织联系起来。
这一系统选择以香港九龙的油尖旺区的城市更新案例进行应用。油尖旺区是香港城市中高度密集开发区域,面积约7个平方公里。使用上述的规划支持系统是为该区域进行小尺度的城市更新提供决策支持。系统对该区域内86处地块进行了适宜性分析,生成了上述系统生成了5种城市用地的适宜性地图。系统的三个组成模块基本情况如下。
第一个模块是土地信息数据库。土地信息数据库中存储了矢量、栅格地图数据。构建土地信息数据库的过程包括了数据收集、数据处理两个阶段。在数据收集阶段,收集了多项原始数据。空间数据包括地形图、航空影像、土地使用现状图、土地使用规划图、道路网图、轨道交通网络图、公共设施位置图、历史地段位置图、交通噪声分布图、植被覆盖图、地理参考信息。非空间数据包括人口数据、人口预测数据、就业岗位分布、家庭收入、空气质量指数、土地出售统计、住宅交易统计、写字楼和工业厂房租金。在数据处理中,将原始数据处理成能在土地适宜性分析中使用的数据格式。例如,从地形图中获取坡度、高程数据;依据主要公共设施位置计算出各个地块与公共设施之间的距离。通过数据处理,得到能在土地适宜性分析中使用的图层数据。土地信息数据库使用ArcGIS建立。
第二个模块是规划/政策控制模块。在这个模块中,依据土地信息数据库中的土地使用现状,将研究范围内土地划分为六种用途,分别是居住用地、商业用地、工业用地、政府用地、开放空间、空地。进一步使用了20个土地适宜性准则评价前5种城市用地的适宜性。这20个准则分成5个类,包括物质属性、区位属性、社会属性、经济属性、环境属性。物质属性包括是土地使用性质、坡度、高程、植被等4准则。区位属性包括与CBD、机场、地铁站、公交枢纽等设施的距离等10个准则。社会属性包括居住人口密度、就业密度2个准则。经济属性包括土地价格、物业价格2个准则。环境准则包括空气质量、交通噪声2个准则。上述20个准则需要设置相应的权重。权重是由专门小组讨论确定的。小组成员包括了规划师、当地居民、开发商,使用层次分析法软件Expert Choice计算确定了权重。
第三个模块是土地适宜性分析模块,用以生成5种城市用地分析。该模块分成两个子模型。一个是生成准则值的子模型,用ArcGIS的Model builder工具编写,用于计算上述各个准则的分值,生成20个准则地图。另一个是适宜性评价子模型,对准则地图进行标准化和加权叠合计算。最后的适宜性评价结果按分值划分为4个等级,非常适宜、适宜、不适宜、非常不适宜。在油尖旺区的案例中,由于土地使用性质不同,划分的适宜性等级也不同。居住用地划分为非常适宜、适宜、不适宜3级;商业用地划分为适宜、不适宜2级;工业用地也划分为适宜、不适宜2级;政府用地仅为适宜1级;开放空间划分为适宜、不适宜2级。
最后对适宜性分析结果进行了检验。这个检验过程是依靠有经验的规划师参与。6位均有10年规划实践经验以上的香港注册规划师参与了这个过程。这6位规划师均没有参与前面阶段适宜性分析中权重制定等工作。检验工作中要求这6位规划师对上述系统选择出最适宜土地的结果进行讨论,填写反馈表。反馈表由若干个问题组成,包含了诸如:使用本系统能更快熟悉规划区域、使用本系统能使得更好理解每一幅地块的特性、用本系统能使得更好理解每一幅地块适宜性分析过程、土地适宜性定量分析能使得产生更好的规划决策、这一系统能够在城市更新中支持决策等问题。6位规划师在反馈表中对规划支持系统提出了积极的评价,均认为该系统能够对城市更新起到决策支持作用。这些用户最认可部分是以下三项:综合了多种数据的土地信息数据库、对土地适宜性相关的20个准则列表、提供了定量计算适宜性的工具。这些用户最不认可的是以下三项:系统缺少了法律、政治方面因素对土地适宜性影响、数据处理和更新、操作界面。
经过实例应用,研发者认为该系统的主要特点包括两项。第一个特点是学术意义上特点。以往的类似系统极少关注小尺度的城市更新。这一研究是在现有建成区内用于城市更新的适宜性分析,提供了一个集成城市更新中土地使用决策支持方案。另一个特点是在实践意义上特点。在香港的规划实践中得到使用,解决了多年规划实践中规划师面临的一些问题,协助规划师在复杂的现实条件进行城市更新的规划,支持土地使用规划决策。
来源:WANG H, SHEN Q, TANG B S. GIS-based framework for supporting land use planning in urban renewal: case study in Hong Kong[OL/J]. Journal of Urban Planning and Development, 2015, 141(3): 05014015