
今天之所以写这篇文章的原因在于,最近看了Carto公司发布的免费电子书《Becoming a Spatial Data Scientist》(文末会提供下载方式),这本书是由Carto公司内部的空间数据分析专家总结的想成为空间数据专家你需要掌握的所有内容,总体上内容还是偏导论的那种类型,也比较适合目前快速阅读的习惯,有兴趣的可以自己下载下来看一下,对全面的建立空间数据分析体系很有帮助,对于我为何将题目定义成“没有价值的时空大数据”的原因,我放在后面说。

这本书一共分为如下五个章节:
1、什么是空间数据科学以及空间数据为什么如此重要?空间数据科学和一般的数据科学的相同点都是从数据中提取有价值信息的科学,不同点在于数据科学在处理空间数据的时候只是将空间的经度、纬度作为附加的变量加入到数据处理的算法和工具中,但是空间数据本省是具备很强的特殊性,就是我们常说的“地理学第一定律”,任何事物都是与其他事物相关的,只不过相近的事物关联更紧密,所以空间数据科学是将位置、距离以及空间交互作为关键的维度进行算法和软件的设计,这是二者的不同。同时在这个部分还介绍了几种常见的空间分析的数据类型,包括Point-referenced data,Areal data, Point Patterns ,Network data,这部分的数据模型的定义和我们常用的GIS数据模型的表述稍微有一点区别。
既然有这么多种不同类型的空间数据,那如何描述或者度量这种空间的相关性,这就需要一些定义一些不同的测度标准,由于存在不同的空间过程,比如连续的空间过程,离散的空间过程,点模式的空间过程,所以就会存在不同的空间测度方法,比如针对连续过程的协方差函数和变异函数、针对离散过程的莫兰指数、针对点模式过程的空间随机性。
2、空间建模-在预测中利用位置,空间建模主要就是通过对空间数据的分析从而进行模型参数的推断,从而实现对未采样位置的预测,或者降尺度和升尺度的应用,在此介绍了连续空间误差模型、离散空间误差模型、空间可变系数模型等。
3、空间聚类和区域化,空间聚类和区域化都是一种在大量的数据中进行同质数据发现的过程,比如相似的人员等,形成一系列的连续空间约束的区域,同时也是一种数据降维的过程,通过这样的工具可以更好的进行决策的支撑,比如如何进行质量的优化、销售区域的划分、选区的划定之类的。这部分介绍了常见的空间聚类算法包括Kmeans和DBScan,这些算法也都在postgis中实现了,使用起来比较方便,在区域化方面,这部分介绍了SKATER、Max-p、Agglomerative Clustering等。
4、利用空间分析进行物流优化,这个部分以物流优化为场景介绍空间分析应用的方法,主要从数据的选择、模型的建立、结果的搜索、算法提取等几个方面进行展开。
5、继续你的空间教育,略。
其中关于建模、分析和优化的部分还需要进一步的理解,因为也正是看了这样的一本书,才发现自己在时空数据方面基础的薄弱,书本中对于很多的知识点都是一带而过,但是对于学习者来说就需要一直往上溯源寻找理论基础,才能更好的理解,只是理解个形还是无法做到很好的理解,比如连续空间过程、高斯过程、高斯分布、泊松分布等等,同时对于高斯分布的推导、理解等等都是需要花点功夫,不然就会造成很多对算法的生搬硬套,连基本的数据和应用假设都不满足,得出的结果也是没有价值的,所以体系化的学习就比较重要。在这边我再来谈一下,我为啥说“没有价值的时空大数据”,这里的语境可能更多的是针对国内To G行业在时空数据的利用来谈的,我们口口声声在谈“时空大数据”,但是实际上我们基本上很难有一个能拿得出手的案例来说明,由于时空大数据的存在而创造的价值,所以很多城市轰轰烈烈的时空大数据建设是没有意义的,由于市场的应用导向,导致学生或者学校在教学上对如何利用数据解决问题也没有很好的重视。
1、没有有价值的数据,当前国内的空间数据利用的很大的一个痛点就是,真正有价值数据获取的难度太大,大家处于政策或者自己核心利益的考虑在数据的共享和利用上都比较保守,数据科学如果没有真正有价值的数据,那所谓的数据分析应用更多的是在做一个游戏,比如我们在做很多的时空大数据项目,很多大数据局都没有基本的数据资产清单,也根本拿不到所谓有价值的数据,我们有时候甚至还需要通过一些公开渠道来去获取一些数据来充实应用。之前有一个做规划的小伙伴跟我说,领导说他觉得我们应该把园区的一条道路扩建,但是他们设计人员认为现在的道路已经可以满足需求了,没必要浪费,他们希望拿到一些道路的流量数据来辅助自己的判断,但是后面发现很难有途径能够获取这样的数据。
2、地学分析显得很old school,基于数据匮乏的现状,大家对于数据到底能在决策上发挥多大的作用,同时如何成功的实施一个有价值的项目项目是没有经验的,我们课程建设中的很多地学分析就显得很刻板,因为你很难有真正有价值的数据能够反映分析的价值,毫不夸张的说国内GIS学生在空间分析上的重视和投入是不够的,更多的还是高校的老师为了发论文会从事相关的一些工作。我们现在很多所谓的时空大数据项目的中的各种分析、模拟、推演其实都是无本之木,包装了一系列的漂亮的外衣,花了一堆的冤枉钱,除了在可视化上面玩的花里胡哨的技巧其实毫无价值,我也在此呼吁相关主管部门的能关注这些问题,在政策规划上真正立足城市管理的痛点,务实的做一些“小事”,让信息化建设回归逻辑和价值,让擅长包装的“专家学者”的意见更多的成为参考而不是主导的,也呼吁同行的厂商能够在参与一些标准、客户咨询、研讨的时候能够收着点,不忘初心,做生意的本质是要为客户创造价值,只有真正的创造价值才能有长远的生意可做,也能做成更大的生意。
3、GIS更重视信息系统的建设,基于上面两点以及互联网的兴盛,大部分的GIS都开始将大部分的精力放在计算机技术的学习上了,这是在当前国内的环境下产生的自然选择,但是对于数据决策,信息系统只是工具,重系统本质上是一种畏难,和真正的利用数据解决问题相比,可能做系统更简单一些。但是如果我们不追求我们的本质价值,未来GIS可能真的就会像很多人说的会慢慢的变得没有特点以至于最后的消失。
4、流于形式的时空大数据平台,时空大数据平台建设的失败在最近谷歌地图被封的事件中体现的最为彻底,整个行业以及相关行业都哀嚎遍野,我们投入了这么多财力和人力建设的平台为什么别人不愿意用?而都去选择非官方的谷歌地图?我们打了那么多卫星,做了这么多轮调查,但是我们的平台数据依然如此陈旧?平台的建设要能够服务各个行业对数据的需求,真正的为别人创造价值别人才会用,不然只能是“食之无味,弃之可惜”的鸡肋,目前这种时空大数据平台就是这种“鸡肋”,这是我们的管理者必须要面对的现状,同时去解决这些现状,我们的主导建设的单位是否有在建设的过程中真真的进行各个行业的用户需求的调研?还是只是根据专家学者的“高大上”方案?其实时空大数据验收合规的关键指标就是要用用户数据说话,到底有多少公众用户使用,问题就会简单的多,我发现很多时候大家对于平台的理解是有误区的,我们更多的时候认为平台就是具备了一些基础技术功能的软件,但是在我看来可以称之为平台产品首先的评价标准是是否具备平台级别的用户数量,而不是看平台堆的功能数量。我们是时空开放平台从地理空间框架到现在的时空大数据平台本质上是没有进步的。
这篇文章又没搂住,又说了一些乱七八糟的,话说回来,推荐大家折腾可视化啥的折腾累了,可以看看真本书换换脑子,轻松一下,字数差不多了,就不多唠了~
本文转自 知乎,原文链接:https://zhuanlan.zhihu.com/p/354085020,如需转载请自行联系原作者