当一个一个超级大城市在不断增加时,应该怎么管?
交通越来越堵塞,人口流动性越来越强,空气质量越来越令人担忧,噪音等污染越来越严重……数据、智能,能否给我们搭把手,在监测、预测和调控方面,助我们一臂之力?
前几天,黑智(VR-2014)也报道了在今年的GMIC现场,驭势科技CEO吴甘沙和《机器学习》作者、卡内基梅隆大学计算机科学学院机器学习系主任Tom Mitchell ,就也对未来的AI如何颠覆我们的城市生活进行了讨论。甚至,他们还提到,是否可以用人工智能技术,来帮助雄安新区的规划。
郑宇博士和他的团队,就是在用“城市计算”回答这些问题的人。
郑宇博士是微软亚洲研究院“城市计算”领域负责人。他主持开发了多个城市大数据系统,其中Urban Air首次利用大数据来监测和预报细粒度空气质量,该服务覆盖了中国的300多个城市,并被中国环境保护部采用。
2013年,郑宇被MIT科技评论评为“全球杰出青年创新者”(TR35),并作为现代创新者代表登上了美国《时代》周刊。2014年,由于他主导的城市计算具有巨大的商业前景和改变行业格局的潜力,他被《财富》评选为中国40位40岁以下商界精英。2016年被评为美国计算机学会杰出科学家 (ACM Distinguished Scientist)。
在不久前结束的AAAI 2017上,郑宇发表了研究论文《运用时空深度残差网络进行城市人群流动量预测》,这也是全球真正把深度学习有效用在时空数据上的第一个研究成果。而人工智能在城市计算领域的进展究竟如何?郑宇在源码资本2017年码会上,进行了详细的讲解。
口述 | 郑宇
来源 | 源码资本
编辑 | 黑智(VR-2014)
非常高兴有机会能够跟大家分享我们在城市计算(Urban Computing)领域的工作。大家平时听到很多人工智能用于语音、图象、文本的场景。怎么样用人工智能和大数据技术改变我们的生活,我围绕这个主题探讨一下,人工智能在城市领域的进展。
做好人工智能在城市领域的应用需要四个方面的技能:
1、理解城市文化本身,数据科学家纯粹的理论无法代替行业知识;
2、理解数据本身,不仅仅要了解数据的表征,也要了解数据背后蕴含了什么样的知识;
3、掌握数据科学的模型,包括数据管理,数据挖掘,机器学习,还有可视化;
4、懂得如何利用云平台,把算法高效部署在平台上解决问题。
在城市领域,以上四点也有应用上的不同之处。
可以想象,城市里面数据特别多。链家的、搜房的,从地理信息到人流量,好像千差万别上百种、上千种的数据。实际上按照数据的结构来分的话有两种数据,一种点的数据,一种网的数据。按照数据关联的时空属性来分,可以分为三类。所以总共有六种数据。这六种中最为复杂的就是轨迹数据,因为物体的位置和在每个位置上的属性都在不断的随着时间改变,而且点和点之间存在着关联。像摩拜和滴滴的车的轨迹都属于这种类型。
我不希望来了一千种数据要建一千种模型和算法,使得系统变得非常复杂。我们希望只要定义好这个模型之后,不管你来什么数据,可以高效利用平台,利用对应的分析和挖掘算法去处理。
城市领域有大规模的数据,多元、多模,变化非常快,这么复杂的数据怎样快速更新,以及大规模的应用?必须要有一个平台。大家自然会想到,我们就用云平台把它连接到一起。可惜的是,不管哪家商用云平台都无法做好时空大数据,对城市大数据支持的并不是很好。
现有云平台处理城市大数据的限制,与MSRA的实践:
1、数据结构很不一样,跟图象文本结构不一样。
2、查询方式不一样。例如我们在找滴滴的时候,希望是找周边这个时间段内有没有空车经过,而不是关键词进去匹配一个文本出来。
3、真正我们做城市计算的时候我们往往用到多个数据源,而不是单一数据。比如说空气质量预测的时候我们需要用到气象、交通、地理信息以及人的移动数据,怎么样把这些数据多元管理起来?这是一个难题,这个技术是缺失的。所以基于它的原因,现在已有的云平台并不能支持很好支持时空大数据。
受限于已有云平台的现实限制,微软亚洲研究院去年在洛阳市落地了中国第一个城市大数据平台。
它首先定义了六种数据模型,然后利用了现有微软云计算平台的存储资源。接着我们做了一层中间件,针对不同的数据结构设计了时空索引算法,并针对不同数据设计了混合式索引算法。然后把时空索引集成到Hadoop、Spark和Storm等分布式计算环境中。
这里面不光有分布式计算环境,也有时空索引算法,两者的结合把数据的访问和管理存储变得非常高效。最后向上层的机器学习和人工智能算法提供API,使得我们的机器学习算法能够快速访问下面的一些数据。想象一下,如果没有这一层的话很多机器学习算法根本不能上线,根本不能做大规模的访问和应用。
下面几个应用案例可以看到这个城市大数据平台所产生的实际效应。
城市充电桩与广告牌布局
我们要通过城市大数据平台,在贵阳市决定应该在什么位置放置充电桩,才能最大化覆盖整个城市的车流量。最终选取出五个路口,使得覆盖不同出租车的GPS轨迹数量最大化。
以前做这个工作需要一天。现在我们只需要2-3秒的计算结果。我们发现在商业应用中,部署一个东西除了需要数据科学支持,还需要行业知识支持,不仅要考虑车流量最大化的问题,还是考虑周边是不是商城,有没有配套。车主充电的两小时等待时间里,周边要有餐饮、娱乐机构供人休闲。
我们通过可视交互的分析方法实现人的智慧与人工智能的结合。人工智能先用简单的规则,用算法反馈一个初步结果让行业专家判断,行业专家认为这个点不合适可以删掉,或者保留这个点再计算,实现了一个迭代式的交互挖掘。
这个案例体现了平台的威力,性能的威力,也体现了真正把机器智能跟人的智能结合在一起。
除了充电桩,这个模型还可以分析商业门店选址、广告牌选址,这些案例体现出城市大数据平台的数据管理威力。
转载请注明出处。