热线电话：13121318867

用大数据给城市画像_数据分析师

2014-12-02

用大数据给城市画像_数据分析师

都市的美并不是你一眼就能看到的，它有可能藏在某一个角落，有可能会在你背后，只有用大数据把他整体呈现出来，在经过数据分析师的分析才能得到你想要的美。

城市印象

Managershare：对于描绘城市，画像或者漫画，是一种更形象的方法。我们可以使用各种有趣的类比，来构建更震撼的效果。城市，真的很美。

导论

源自城市的丰富数据可以让我们了解人们怎样组织起来，无论组织的规模有多大。可视化城市话语提供了种种方法，有抽象的，也有直观的、形象的。在本章中，我们使用一种不那么抽象、不那么简单的方式来处理可视化城市问题。我们超越了科学的可视化的处理方式，转而投向我们称为具体的可视化方法。通过这种方式，我们退一步来审视可视化必须以抽象直接的方式呈现数据这种理念。通过一种形象的方法，我们把图像与漫画引入到了数据的国度，使用可视化的隐喻，引入变形的视觉效果，来强调数据的某些特定方面。这使得我们能够使用有趣的类比，构建视觉效果，来向学术圈外的一般大众传达城市的本质特征。

这篇文章将描述了两个可视化的案例，既有抽象方法的案例，也有具体方法的案例，但是没有涉及具体的技术细节，而是试图用一种可信的话语，使用图像与漫画的方式，在可视化数据的语境中，把这些呈现出来。

可视化的具体方法

信息可视化是一个跨学科的领域，涉及平面设计、人机交互、计算机图像学以及数据挖掘。这个学科的目的是为广大受众综合大量的数据，从数据中提炼并澄清信息。这里所说的具体方法，分为相片、图像、漫画以及扭曲等方法，从而得以描述可视化的不同方式。这种分类学背后的概念是著作权（译注：根据上下文，此处当指数据的原创程度）。我们认为著作权的内涵是可变的，随着图像的创造者对数据进行可视化的角度而变化。著作权在当代的可视化信息中名目繁多，这些可视化信息大多从属于“信息技术”（information art）这个术语，并且也深植于科学可视化之中。值得注意的是，当可视化制图的目的并不是单纯地分析数据的时候，可视化常常被视为对真相的歪曲，在学术性的可视化语境中尤其如此。虽然在这是一个简洁的视角下的合理论述，对于数据的漫画化在概念上就是不可避免的。正如费尔南达·维格斯指出的：“传统的视觉分析工具尽量减少对信息的歪曲，因为这可能会干扰冷静的分析。有没有可能，这种尽量减少视角（带来的偏差）的方式已经误入歧途？首先，创造一个真正不偏不倚的视图在总体上而言是不可能的。正如我们不改变空间距离，就无法绘制地球的表面图。

考虑到著作权在数据可视化领域在某种程度上总是存在的，我们的分类学主要以四种方式处理数据可视化问题，这四种方式的著作权等级是按升序排列的：相片、图像、漫画以及扭曲。但是著作权并不是描述这些概念、使这些概念具有连续性的唯一方式。这种具体的方法重点在于，可视化并不是必须借助抽象的美学，而可以传递强烈的视觉隐喻，也可以在沟通语言中强调某些数据的特征。由于信息可视化是数据可视化领域的一个领域，数据可视化涵盖了科学可视化，可以说也涵盖了艺术可视化，因而这种看似不科学的分类学方法描述出了可视化领域内从更科学的一端到更艺术的一端的谱系。

数据相片

在我们的分类法中，相片是对一个数据集的最直接的复制——这是一种最接近一对一映射的数据模型。这一概念指的是李维·马诺维（Lev Manovich，2011）在既没有还原也没有直接制图的情况下进行的可视化。直接制图保留了数据的特征，而非通过雅克·贝尔坦（Jacques Bertin,1967）的位置、大小、价值、质地、颜色、方向和形式等视觉变量，将映射数据转化为一种抽象的象征。数据集中的文本在表象空间中仍旧是文本，图像仍旧是图像，语言仍旧是语言，如此等等。这样做不会侵犯著作权，因为可以从不同的角度拍摄相片，可以忠实地表现照片的主题，同时又保留照片的每一特征，在本文所说的情况下，也就是保留了数据的特征。

数据肖像

在数据肖像中，作者通过反复的视觉隐喻，起到了比在照片中更加重要的作用。这里的视觉隐喻不仅仅是装饰性的视觉原素，不是爱德华•塔夫特（Edward Tufte，1983）称为“图表垃圾”的东西，而是图形的详细内容，其语义学内涵接近数据集和作者所要传递的信息。这些语义学隐喻和唐娜·考克斯（Donna Cox，2006）所说的“visaphor”含义最为接近，它们都意味着依赖于主观解释的近似数据。语义学上的视觉隐喻是在数据中以及直接映射中存在某些特征的具体证据。这些证据在图像层面得到了阐释，因而带来了不那么抽象的、更明快、更自然、更具表现力的作品。

此外，视觉隐喻具有新颖性和独特性，这些特点是深植于我们的文化之中的，然而现在我们失去了这些特征。例如，饼图是1801年威廉·费尔坡莱（William Playfair）发明的（费尔坡莱，统计摘要，对欧洲各王国的资源情况说明<伦敦，1801>）。这曾经是一种新颖的办法，随着使用的普遍化变得不再新鲜。饼图传达出一种细致的视觉隐喻，表示出一个整体的一部分。

数据漫画

我们把数据漫画当做数据肖像的一种扩展形式，因为它们也利用语义学上的视觉隐喻。但是数据漫画也有自己的独有特征，如下所述。

通常认为，漫画是一个主题的形象化，通过夸大某些突出特征，来达到提高辨识度的目的。（Redman，1984）。这种所谓的辨识度是所谓的“峰位转移效应”的结果。一个习惯于表象r的个体，在看到与之相似的表象b的时候，b和r的差别越大，个体的反应就越强烈（Ramachandran和Hirstein，1999）。这样的一个参考模型r是漫画的核心部分，无论在精神上还是物质上，它总是存在的。

漫画概念在数据可视化语境中有一定的限制。正如我们解释过的，漫画基于心理上的图像给出的参照。这样的一种参照在数据可视化领域并不是理所当然的，因为即使是最直接的可视化也会给原来的非可视化数据带来一种新形式。因而，漫画在可视化语境中的应用取决于漫画所表象的参考模型的相似性，从而可以比较其不同。

如上所述，漫画与夸张和辨识度的概念是联系在一起的。在与数据有关的语境下，夸张意味着增加某个特定角度的权重，减少其他角度的权重。除了彼得·雷泰（Peter Rautek等人，2006）的著作中所指出的放大数据差异的那种方式之外，这在其他好几个方面都是可以以图形方式实现的。这会造成数据资料形式、位置、大小、颜色的视觉要素的扭曲。辨识度在数据的语境中，意味着对数据意图的说明，对来自数据的信息加以强调。虽然数据漫画和数据照片以及数据肖像相比，这种形式未必是最优越的，我们仍然认为这是一种可视化的解决方案。总之，数据漫画是一种可视化的模型，这种模型用图像的方式对数据维度加以扭曲表现，用以强调同样的数据维度，或是其他数据维度。

很明显，漫画的方法之一，是通过地理位置的变形，来实现数据可视化的。这一方法自19世纪以来一直应用在统计图上。变形的统计地图是为了表现其他的数据维度。例如，世界地图上的面积统计图会根据人口或是GDP适当变形。这一方法被丹尼尔·道灵（Daniel Dorling）所简化，著名的例子就是《道灵统计图》。这种统计图不会保留地理对象的形状，而是常常用与映射成正比的圆圈的大小来表示。尽管简化了地理对象的形状，道灵已经被证明是非常有效的。这些方法的漫画性质在于强调某些数据维度（比如人口），弱化地理地图维度。这种地图是一种可供参考的模型，或者完全是被表现出来的，或者是一种精神上的建构。

数据残缺

数据漫画引入对数据的变形来表现数据，当这样的扭曲超过某个程度，就会导致数据残缺。残缺的数据过分强调了某些特定数据，以至于传达了某些关于数据的错误信息。它们颠覆了某些视觉隐喻的语义学内涵，破坏了可视化的澄清作用，产生了难以理解的制图。然而夸张的变形给了创造更多的空间，产生了更加令人难忘的制图作品。

城市的形象可视化

我们的案例研究以直观的、形象的方式实现了对里斯本和新加坡的城市交通系统的可视化。里斯本的数据集（数据由葡萄牙CityMotion项目/麻省理工大学提供，可视化的项目也得到了PTDC/EIA-EIA/108785/2008世界协作组织的支持，来优化移动性）包括了对城市中车辆在一个月内的GPS定位，记录了车辆位置与当前速度的信号。新加坡的数据集包括乘客的上下车信息（所谓的登入与登出），以及在一周以上的时间里在新加坡城中分别花了多少交通费。（数据由新加坡陆路交通管理局提供。可视化项目源自实时新加坡！项目，此项目由麻省理工大学的可感城市实验室以及SMART的Kristian Kloeckl负责。）

里斯本的相片

里斯本的数据集的时空精度不允许我们用可视化的方式分别描述每一天的交通模式的明确数据。因而，我们把信息压缩到单独的虚拟日之中，对每秒的数据进行分组，并通过动画加以展示。为了让交通的时间模式变得更加明显，每辆车都用一个小白点表示，在虚拟时间中会在30分钟内留下痕迹。相应的痕迹几乎是透明的，并根据车辆的速度涂上颜色。这些颜色的范围是有限的，红色和橙色表示速度放缓，绿色表示50公里/小时，青色表示更高的速度。这些轨迹往往在视觉方面不断重叠堆积，形成隆起的线条，这些线条在色块和透明的区域出现，它们（通过厚度和透明度）代表了交通的密度，（通过色彩）表示当时的平均速度。例如，狭窄的街道上的线条往往是薄薄的红色，而高速公路上的线条往往是厚厚的绿色。横跨里斯本的高速公路的颜色在交通高峰期会变成偏黄的色调。

对某个数据集的可视化通常涉及到在下面所说的系统中寻找问题：在里斯本的数据集中，那些拥挤的地区是最明显的特征。为了强调这些特征，我们添加了另外的视觉要素，将那些每30分钟就有一辆车经过的地区用很低的透明度表示。我们通过封闭回路、连接起点和终点来标明这些覆盖区域；透明度越高，颜色越接近橙色和红色，车速就越低（车速接近绿色，表明这个车速几乎是透明的。）在白天用图来表现这些区域是最大的问题，问题是要让人们更容易看到这些，而不是仅仅使用一些有色的线条来勾画这些区域——这是一个出名的难题。例如，在白天，表示市中心的线条要如何保持高亮度，城市周边地区如何在其他地区之前进入活跃状态。这不仅仅要引导观众的注意力，还要在制图中加入视觉要素，使其变得更加细致、更引入注目（见图1）。所有半透明的叠加线条与形状，使得从具体的数据要点中提取视觉要素变得不太可能，如某辆车的瞬时速度。但是这是一种直观的表现，数据的一种照片形式，并且它提供了一天之内里斯本交通进程的整体图片。

由于制图要非常细致，因而必须离线制作，之后被组合为一个动画。然而，有时制作实时的可视化图片也是有利的，让我们有机会在出现问题的时候及时发现这些问题。以下这些在新加坡的项目表现出这样的用意。

点击可放大

1）顶部：上午9点钟里斯本在高峰期的交通照片。底部：白天的城市进程：不同的区域亮度，车流用不同的颜色表示。

新加坡的相片

新加坡的公交网络数据集描述了公交车站的情况，但没有提供车站与车站之间的轨迹信息。尽管如此，我们认为描述这样的轨迹可以提供更加实际的制图，并且也是一个有趣的可视化挑战：表现出公交交通网络，而不仅仅表现出在车站公交车。为了达到这个目的，我们把公交车看做是被编好程序的自动设备，仅仅对一个模拟相应输入环境（反应主体），也就是数据构成的环境做出响应。这也使得另一个目标成为可能：创建一个交互性的可视制图，在执行的时候能够运行，使得应用技术的结果能够迅速可视化。

每辆公交车，作为一个主体，只知道它下一站在哪里、到达时间以及当前的模拟时间。在执行时间内，数据被注入到模拟环境中，将每辆相应的汽车加以重新定向。每辆汽车都对下一站的情况进行缓冲，负责检索什么时候才能到下一站，什么时候能从下一站驶出。只需要知道到达时间、下一站的情况、现在的位置以及现在的时间，公交车就能开往下一站了。可以用许多方法来建构每辆车在车站之间的运动模型：第一种方法是使用非线性运动，随着这辆公交车到达下一站的时间而变化。这种方法的名字叫做“懒惰的巴士”，因为这些公交车尽管知道某个时间要停在某个车站，只要慢慢开车就可以了，但是当时间紧的时候就开得快。（两个车站之间的距离与到站时间的平方成反比。）

除了对公交车的行程进行肖像般的描述之外，描述拥挤时的情况也很有趣。公交车站的密度在可视化背景上的密度比较高，这不允许在同一时间标注每个车站。在地理上，聚类算法被用来选出那些在同一时间内，有N辆车停留的最拥挤的车站。我们的算法（Ester等人，1996；Finkel和Bentley等人，1974）能够在大量数据被使用的时候在执行时间内表现良好。第一个聚类算法的结果以及“懒惰公交车”的行为模式如图2所示。小小的灰色十字代表所有的公交车站，三角形代表公交车，三角形指示着当前公交车的运行方向。只有与那一瞬间的公交车聚类相对应的车站被标记了出来。

点击可放大

2）在搜素半径44米之内聚类算法的结果，每个聚类至少有5辆公交车

里斯本的漫画

为了绘制里斯本数据集的漫画，我们首先必须从其肖像上着手，从而进行视觉上的隐喻。我们观察到的城市系统的行为是非常复杂的，但是这些行为通过形状、正常的活动周期都有各自的位置，因而任何异常的活跃都可以得到诊断。根据这种说法，并且也根据作者的审美偏好，可以绘制出里斯本的交通情况的肖像，建立血管般的（交通）网络，使用循环系统来对有机体的隐喻进行探索。

计算的结构，即能够保留形式的“骨架”是有弹性的，这种结构是为里斯本的每条主要干道设计的。当道路交叉、并且在运行时相互影响其他临近区域的时候，这些骨骼就连接在一起。这使得城市能够根据交通动脉来改变其形态。弹性装置能够随着某些在受到作用力的时候产生的反作用力而改变形状。如果这些数据的变化就是作用于那些弹簧上的力，那么我们就可以实现在城市形态之间的平滑转换，当这些作用力平息的时候，也能够自然地回到初始形态。这些形态的变化通过与普通的地理映射进行对比（也就是我们所说的漫画，即参考模型），转化了城市中实际的感知距离。这种类型的映射是一个典型的可视化漫画，因为它是一种有关距离的漫画——这种漫画以距离统计图的形式出现是比较常见的，从一个精确定义的原点在旅途时间的函数中对地理距离进行一对一的映射。在我们所说的情况下，是想要呈现旅行时间如何与城市主动脉相关联，同时如何改变这些距离，如何改变城市的整体形态。

我们正在处理一个相当复杂的弹性的物理系统。如前所述，每个弹性装置都能够根据数据扩大或者缩小，在我们所处理的情况中，每个弹性装置又与其他的弹性装置相联系，形成一个骨架。因而，每个弹性装置不能自由改变其形态，它还同时被其他弹性装置和数据所影响。经常有许多相反的作用力作用于相同的弹性装置，这里存在着很高的风险——当骨架无法辨认出城市图像的时候，就会崩溃，进而产生有缺陷的图像。因而，我们必须确保其暂时的稳定性，来减弱那些小变化，给系统时间来适应新变化，来避免崩溃的发生。这样，数据被均分在一天当中，每隔10分钟仅仅出现一个小时的聚合，从而来对系统产生影响，制造可视化效果（如，从3:20到4:20，再从3:30到4:30，等等）。系统在以下几个情况下会被激活：车流量变得更大，使得（线条）增厚，车速变高，使得（线条）变长（反之亦然）。我们选择后面的行为来传达整个城市感知距离的总体印象。当交通的速度变高的时候，（系统的）这种行为就会减少，当在高峰期城市面临拥堵问题的时候，这种行为就会增加。“血管”也被标记为相应的颜色：速度越低，颜色越暗，表示循环变慢、血流停滞（参见图3）。车辆的可视化会带来天然的美学制图，它是天生的视觉隐喻，每当高峰期交通拥挤压力大的时候，就会产生脉动。动脉的压缩和扩张以及整个城市的漫画显示了感知距离以及超出平均速度的交通情况。

点击可放大

在早晨7:04（左）和早晨8:44（右）里斯本的“血管”。这恰好是早高峰之前和之后的两个时间点。可以观察到，早高峰开始的时候，里斯本的主干道要负载大量的车流，但是没有产生交通拥堵的问题，也就是说“血管”是收缩的。上午8:44，血流速度降低，这使得“血管”和整个城市呈扩张状态。

另一个典型的体现出漫画风格的技术，是乔治·弗纳斯发明的鱼眼视角（1986），此后这一技术被应用于绘制地图（Keahey和Robertson，1996）。这项技术放大我们关注的地理区域，而对外围地区加以扭曲，以便在背景上保留其他区域。对于统计图来说，主要的区别在于统计图的工作方式不同：统计图在一个维度上进行扭曲（地理维度），是为了强调另一个维度（比如GDP）。而在使用鱼眼视角的情况下，同一个维度（地理维度）上出现了扭曲，为的是强调同一个维度内的某些要素（关注的区域）。此外，鱼眼视角在使用设备绘制数据肖像的时候也是一个视觉隐喻：它隐喻了放大镜。

新加坡的数据集漫画采用了这个方法。我们使用了一个数据镜头，从而在不脱离整体语境的情况下，解决展示在街道层面展示每个公交车站的问题。然而，经典鱼眼镜头的放大倍数无法满足这种可视化的要求。为了实现这一点，我们发明了一种新型的镜头，能够改变放大镜的运行方式（通常的做法是在飞机上向半球进行投影来绘制地图），将之转变为从飞机上向一个非常扁的椭圆球体进行投影（参见图4）。

点击可放大

我们设计的数据镜头是一个交互式的可视化工具，让用户能够发现不同层次的信息，这些信息可以揭示新加坡公交网络的更多细节。镜头可以在城市交通网拖拽，也可以聚焦在某一组公交站台。用户可以修改镜头的属性（位置、大小和缩放级别）来区分不同的公交车站，哪怕车站之间距离很近也可以区分。此外，镜头还让我们能够在数据集中通过过滤某些类型的信息层次，来发现某些特性：在每个车站分别有哪几路公交车、每辆车上有多少人、在任意一站每位乘客花费的总费用。用户可以在这些信息层次之间切换，来探索公交线路、车站、等车时间、载客量和车费之间的联系。

这一装置可以带来更多有趣的浏览空间，用户可以把界面引导到一簇点中，顺畅地浏览并理解其每个组成部分。

数据漫画旨在使用艺术可视化的做法，通过平衡科学的客观性与对科学可视化进行描述，推进当代信息可视化的边界。这种平衡通过以明确的意图设计的方法，绘制有关数据的漫画得以维持——它能够有效地与观众沟通。

数据漫画用隐喻的方法，此外还包括照片、肖像、漫画、有缺陷的可视化等方式得以形成。照片主要关于直接的映射或者可视化，并不包括任何缩减。肖像和照片不同，它引入了强烈的视觉隐喻。视觉隐喻有语义学上的意图，构成了数据的某些特征以及直接映射的比喻性的证据。这样的证据在地理层面得到了阐释，带来了不那么抽象、因而更具表现力的制图。数据漫画拥抱了视觉隐喻的概念，用夸张来对其加以延伸，以强调数据的某些方面。这样的夸张可以通过引入粗糙的变形——也就是有缺陷的数据。

我们把漫画的概念应用于城市的可视化。我们相信，通过使用一种漫画式描绘城市的方法，通过传递更加具体的信息，可以更贴近观众。例如，城市居民对此已经有了某些心理印象——如果我们可以把这个印象和理想模型的表现加以比较，我们就有了一个扭曲的表现形式，这个时候就可以充分利用漫画。此外，这些扭曲也可以是可视化模型的自然结果，随着复杂数学问题的近似策略而产生。比如在我们的工作中，代理或者是物理模型，能够顺利地适应数据，这些模型比那些迅速做出反应的模型有更广的适用性，使得我们能够把它们再用于其他城市，甚至其他类型的数据。事实上，这些模型对于漫画的方法来说是理想状态下的，因为根据格雷格·尤德尔曼（Greg Judelman, 2004）的说法，它们更接近自然美学，在解码复杂情况的可视化语境下得到更经常的运用。比如在自然界中，复杂性是广泛存在的，在自然的驱动下的系统的应用对于这些城市来说似乎是一种自然的漫画，描述了不同尺寸的信息，同时又保留了其核心内容。由于这些，我们相信漫画能够在信息可视化中起到重要作用，增加效率、进行难忘的交流、表现城市，并且拉近城与人的距离。

CDA数据分析师培训下官网

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；