登录
首页CDA发布如何用人工智能从新型数据中来寻找Alpha
如何用人工智能从新型数据中来寻找Alpha
2017-08-31
收藏

如何用人工智能从新型数据中来寻找Alpha

随着移动互联网,小型卫星普及等,资产管理公司,尤其对冲基金公司开始利用人工智能从新型数据中来寻找Alpha。

本期精编版嘉宾演讲为合一创投首席数据科学家吴海山博士带来的分享,看了他讲的内容你会发现,原来数据分析还可以有这样一种不一样的形式……

关注公众号CDA数据分析师(ID:cdacdacda)并回复“吴海山”领取吴海山博士现场演讲视频和PPT。

现场纪实

首先非常感谢CDAS主办方CDA数据分析师的邀请,能够在今天和大家分享一下我之前做的一些与数据分析相关的工作。先简单跟大家分享一下我来合一的很重要的动机。之前在中国高校演讲和交流中,我发现数据科学和大数据已经成为很多中国学校的课程,有些学校已经开设大数据专业,甚至成立了数据科学研究院或者数据科学这个专业。但是一直没有很好的教材和线下组织,能够让学生接受到更多的业界里和数据科学、数据挖掘、数据分析相关的进展。有一次我碰到人大的赵总,发现CDAS是一个很好的组织,我认为它对数据挖掘能起很大的作用。所以我义不容辞很愿意来这里跟大家分享一下。


我介绍一下自己,我现在合一创投工作,创始人是优酷的创始人。加入合一之前我在百度研究院大数据实验室做人工智能和数据相关的研究。我今天和大家分享的课题是,用人工智能和新型数据在金融投资里如何寻找新的Alpha?当时我选择这个课题的方向也是有原因的,刚才拉钩网张总介绍到,现在能够促使大家学习数据分析的很重要的动机:我学习这个,我的工资可能会高一些,这个是很直接的数据。还有人说,如果我学会了数据分析,我能够用数据帮我来赚钱,也是一个很重要的动机。所以我今天分享如何用新型的数据帮我们做投资,帮助我们从数据里找到属于我们的财富。


首先说一下什么叫新型数据?大家做投资,做股票、债券也好,或者其他的投资收益也好,一个很重要的信息是怎么看市场的变化,去分析市场的趋势。大家可以回想一下,从历史上来看人类是如何在金融市场上分析信息的变化,来做决策的。大家如果看《人类简史》的话能够想起来,17世纪-18世纪英国女皇投资了东印度公司,东印度公司去全世界殖民地也好,或者贩卖烟草、茶叶也好,整个公司业绩的表现很大程度上取决于有没有海盗,而该信息的传播直接影响这家公司财富的表现。当时市场信息的传达没有这种变化,完全是靠着口头传播或书信传播,效率是非常非常低的。所以最先获取信息的人,在市场上就会有信息优势。上个世纪随着电话、报纸的发展,其实市场的信息已经开始通过报纸、电话,甚至电报传播。


20世纪70年代我们有了新型的资讯终端和软件,我们可以在终端上快速了解市场上发生的变化,帮助我们做决策。但是这个平台有一个弊端,如上面发布的信息是公开的,像CPI反映通货膨胀,政府一个月(每个月)公布一次,如七月份今天刚刚结束,到八月中旬公开CPI指数,在市场上有半个月延迟,这对决策的价值已经很小。还有其他指数,像GDP是每个月甚至每年更新一次,频率很低。另外,我们分析某公司和某企业时,证券公司的分析员,会如何分析一个公司呢?实地去考察。如投资水泥公司,矿产公司的股票,我们是在考察,去看看这个矿产变化怎么样的,工人数量有没有增多。这个效率也是很低的,比如我下面有一千家水泥公司,我不可能一年,我就是一天去一个的话,一年也就去360个,所以这个不具有可扩展性。现在随着手机互联网的发展和物联网的发展,我们有了新型的数据,能够帮助我们自动的去分析,去实时的监测市场的变化来帮助我们做市场的决策。比如说我们现在有各种各样的传感器,比如手机,我每天在手机上都留下了大家上了什么网站,买过什么地方,所有信息都可以聚合起来分析市场的变化。所以我们可以通过这种方式来去对金融市场的信号来做一个实时的分析。

这些新型的数据包括哪些呢?第一个,我刚才讲的手机传感器数据,它能获取哪些数据?如定位、WIFI连接,这些数据能够实时看到这个市场消费的变化,比如把所有去过某个酒店用户的聚合起来,我就知道酒店消费、餐饮行业等一系列就业的变化。另外就是微型卫星,以前发射一个卫星,这个卫星特别大,发射成本也特别高,一个卫星可能要几亿美元。现在互联网的发展也在改变太空行业,像美国有一家公司,它是已经发射了大概150颗微型卫星。这个卫星大概也就这么大。这个卫星的好处是基本上可以每天实时的最地球进行观测。我们以前观测一个东西的时候要先打电话或者进行预约,说能不能看中国大饭店的一个区域,如果那天正好下雨还看不到。但是这个可以对全球实现7×24小时的变化,这个数据对我们做金融分析价值非常大的。尤其像农作物、房地产、港口贸易。我分享几个案例,是怎么用卫星图像来做金融市场分局分析的。

还有物联网数据,大家知道现在基本上很多传感器上,很多设备上都已经装了传感器,我们可能机器人身上有些传感器,我们家庭用的智能家居身上有传感器。这些传感器可以记录,比如物流车上的流动,可以记录工业机器人运行的数据,还可以看智能家居的变化。通过这些传感器的数据,我们可以实时分析物流上的变化,可以看到用电量的变化等等。还有一个是大家可能无时无刻看到的摄像头的数据,这个数据有哪些作用呢?比如大家去停车场停车的时候有一个设备,是计费的。这样可以看今天来中国大饭店开会的,或者去某个商场消费的客流量和车流量的变化,可以具体识别某个车型的型号。通过这种方式可以大概的估算一下,丰田汽车销售是什么样子的。所以这些来分析线下商场的商品消费,像汽车消费。

还有像日常生活中每天能接触到的就是支付终端的信息,像去某些地方消费,POS机信息也可以记录消费者刷卡数据,甚至购房、购车数据,都可以分析整体线下消费的趋势。

另外,现在越来越普及的,比如像大疆的无人机,这个无人机能实时拍摄,像农业的图像,像房产现在正在建筑的一些工程施工的图像。通过这些数据我们能来分析一些农业、地产,或者建设工程实地进展的变化。

这里显示的图是说哪些公司正在搜集和分析这些数据。我举个例子,左边这个是全部用来分析卫星图像的,就是刚才讲的美国的那家公司,这是Google投的一家公司,这个主要是为对冲基金公司来做服务的。还有像可以通过签到的数据发现线索下某个餐饮店销量的变化,他们用这个变化分析某个公司的财务的表现,结果是非常的准。还一个比较有意思的,这个公司是用来搜集用户信用卡刷卡数据,通过这个数据聚合来具体分析,比如说沃尔玛每天的销量,来通过这个看线下实时销售变化。会发现很多创业公司去来分析相关的数据,或者说叫一些新型的数据。我觉得这个趋势在美国已经发生,我觉得它在中国也正在发生,我认为接下来一段时间中国越来越多的公司通过新型数据分析为金融投资市场做决策。

这是金融市场信息扩散的一个表,左边的是任何人都能看到的金融市场的一些数据,比如像每个公司发布财报的信息,每个公司股价的历史信息,这个信息是每个人都能获取,每个人都能来分析,它能在市场产生Alpha的价格就很小了;但是新型的数据,像我提到的卫星图像的,甚至像微博等等数据都能用来分析做投资。还有一些数据是刚兴起的,就是我刚才讲的,像物联网数据,包括无人机的数据,还有小型卫星Google地图的数据,这些信息我认为在接下来的市场能够产生Alpha的价值是非常大的。在座的各位如果想从事金融行业和数据行业,我觉得这块大家可以重点来关注的。


我现在分享一下我之前做过的用新型数据来做投资的案例。第一个,我们用定位的数据。这个是我们展示了手机定位数据一天的在除夕这一天全国用定位的可视化结果。大家看定位数据的本身,我们下面是没有放任何地图,这个可视化的定位数据本身已经能展示整个中国的轮廓,如果我们再放大一下,还能够看到具体的空间上的构造,比如看到黄河的轮廓,还有海河轮廓。发现人的定位数据的足迹可以非常好的刻画空间上的信息。这个对金融投资价值是非常大的。这是静态的。

还有一个展示北京一天二十四小时的动态变化。


还有一个没有提到的,就是用人工智能的数据分析线下消费的数据。我刚才提到一个指数,叫CPI指数来衡量通货膨胀的,这个数据一般是政府,像国家统计局每个月都会有调查员实地的调查考察和分析。美国有一家公司,它用图像分析的方式来去看市场上价格变化,怎么做呢?比如大家每天去超市买东西,买完东西以后如果用手机拍下小票的照片,或者能够在超市看到价格的图片,拍上去后后面会用人工智能的方式分析这个图片,它后面会找到价格的信息。它通过这种方式可以实时看任何一个国家线下消费数据,这样可以看到每天的通货膨胀的变化。这个数据已经被世界银行和很多组织来应用这个数据。

还有用卫星图像分析,大家看这是用卫星图像捕捉到地球上某个国家,某个区域储存石油的储油罐的图片。他们会有一些算法,能够根据图片识别出储油罐阴影面积的大小来算高度,进而通过这种方式算五可能的储油量的变化。通过这种方式可以每天扫一遍全球储油量的变化,这对全球石油交易非常有用的。还有用卫星图像看区域经济发展的,像我刚才讲的世界银行,世界银行想去为非洲不发达国家贷款,它面临的问题是到底贷多少款给他们,像有些国家长期处于战乱无法获取这个信息。但是可以通过卫星图像,像这个地方楼型建筑比较好,可以认为比较发达,还有些房屋是破破烂烂的,所以斯坦福大学建立了一套方法,根据卫星图像来进行分析来为世界银行提供服务。

还可以看一个零售商的变化,以美国为例,美国超市都建在郊区,大家买东西都把车停在商场的旁边。如果通过卫星图像和机器学习的方式,识别每天商场旁边停多少车,就可以测算出来每天有多少人来超市。


我们做的工作是用卫星图像和结合其他的数据去识别空间区域的功能。第一,我们左边是卫星图像,然后又结合路网的信息,比如我们这个区域是一个路,然后再结合刚才说的手机移动数据定位,然后我们自动识别这个区域是工行,这个区域是写字楼。这是我们叫全卷积神经网络的一个算法,我就不展开说了,大家可以在我们网站上看到这个算法。这个是我们识别出来的几个案例,这两个案例都是我们识别出来的功能上的区域,这个边界是通过算法识别出来的功能边界。这个是通过深度学习再结合卫星图像去识别空间区域功能。还有一个移动手机定位的数据,我把这两个数据结合起来,比如左边的图是上海的一个地图,右边两个:蓝色的区域代表了我们用刚才的算法去识别的工厂,下面的区域是我们用这个算法来识别的商场写字楼。我们有了这两个区域之后,我们再结合用户的定位数据,比如这是一个用户的线下移动的规矩,用有机算法来算出用户去什么地方消费,在什么地方驱逐。把这些信息聚合起来可以实时看某个区域的劳动力的变化。尤其是对证券和投行的分析师,他们调研的时候工厂必须去考察,但是现在有了卫星图像可以识别这个区域,和有多少人在这儿工作,就可以识别出来这个区域的劳动力观察,就不用去现场考察了。

这个图可以看到劳动力在第六年有明显的下滑,这个倒闭的其中一个是苏州的工厂。下面两个是反过来的,有很多人搬到这里工作,或者说这个公司融资完之后开始大规模的扩张,会发现劳动力也有大幅度提升。通过这种方式我就可以实时来看全国的各个工业园区劳动力的变化。如果说把劳动力数量聚合起来,就可以来看基本上整个中国范围内宏观的就业趋势的变化。大家知道衡量宏观经济还有一个指标,叫失业率。失业率在中国每年政府工作公布的数字都是在4%。我们的数据其实发现,可能结果不一定是这个样子的,我们这个给出来是一个,我们发现就业园区就业的趋势其实整体来讲是有一定的下滑的。但是正如刚才拉钩网展示的数据发现,其实我们发现新兴工业园区,尤其像高科技园区,或者像生物制药园区,它的就业趋势是上升的。所以说新兴工业园区就业趋势我们认为是比较好的。

这是我们给出了全国非常大的四千个商业中心的数据,我们刚才讲通过卫星数据可以识别商场的边界,可以通过定位数据识别到每天有多少人来这里消费。把两个聚合起来可以看到全国范围宏观的线下整体消费趋势。这里其实包括了很多像银泰或者万达很多商超聚合的结果。我们也可以看具体的某个公司的趋势来做分析的。

刚才讲到通过卫星图像来获取一个区域边界,再通过定位的方式聚合,来去看这个区域的消费和就业。还一个方式,比如银泰商场有一个海底捞,如何看海底捞里具体的消费呢?我们有一个深度学习的算法,能够自动识别预测用户是不是到访这样一个具体地点的概率。大体就是我们会用很多种数据,像定位数据、签到等数据,然后结合贝音丝深度学习的算法来预测客户到访海底捞的概率。有了这个到访概率我们算法的准确度非常高。所以如果能预测某个客户具体到访每个地方的话,就可以看用户到某个地点的客流量的变化,这是我们预测的用户到访大中华区中国大陆的30个苹果旗舰店的客流量的变化。通过客流的变化预测苹果公司在大中华区财务营收的变化。前两次我们模型的误差都非常低,在2015年Q4预测的结果可能要上升15%,它们财报结果是14%。另外一次我们认为它2016年结果要下滑25%,它们财报是26%。这个其实从另外一个侧面证明了,通过签到的数据,WIFI定位的数据去预测一个公司的营收结果是靠谱的。

还有预测电影院的票房收入,我们可以通过历史的时间序列建一个模型去预测。我们现在是把用户去到访电影院或者搜索电影院,或者签到电影院数量作为一个特征去预测电影票收入,我们发现这个模型准确度提升的非常高。红色的结果是我们使用了新型数据预测结果,蓝色的结果是我们只用时间序列预测,发现误差降低非常多。如果我们预测比较准,可以预测电影院营收的状况。这个B,我们预测了保利的电影院,我们预测的误差非常小。我们对新型数据预测这家连锁电影院票房结果是非常准的。但是用同样的方法预测另外一家电影院,发现曾经有一段时间预测的误差特别高,像8-9月份。我们模型预测的票房收入可能会比较少,但是它报出来的电影票房非常高。后来我们调查,因为这个电影院上映了《捉妖记》,进行了电影票房的作弊。

我们看一下具体行业的,这个是汽车的,这个是我们用新型数据到访4S店的数据,这样可以看出来汽车销量变化。为了证明我们结果是靠谱的,我们把我们数据,蓝色的线和汽车工业协会的线做了对比,我们发现我们的趋势跟它们非常吻合的。但是我们的结果好处是,新型数据可以实时分析这个市场的变化。所以我们结果对分析市场变化是有很大的优势的。

第二个产业,是线下餐饮行业的变化,我们把所有的到访,像麦当劳、全聚德等店的到访,我们做了中国线下餐饮消费指数。为了证明我们这个比较靠谱,我们和另外一家公司的指数对比,是银联,大家在POS机上刷卡的指数,我们发现在2016年之前整体是非常吻合的,但是我们的结果在2016年之后线下餐饮行业的趋势下滑非常严重的。后来我们调研分析我们认为我们结果更靠谱,因为尤其是像外卖行业,其实在很大程度上影响了线下很多餐饮行业的变化,很多人可能就直接叫外卖,不用去餐饮店吃了。

还有一个应用就是对房地产投资的。大家知道这种情况在中国是非常常见的,就是中国有很多空的楼盘没有人住。很多媒体开始报道哪些地方是鬼城。但是没有一家用数据的方式帮助我们分析这个城市是否空的很厉害,到底空的多厉害?我们刚才讲过我们可以用用户手机定位的数据和手机图像的数据,我们可以通过机器学习和人工智能算法去识别,从而我们发现中国很多的空置率,这是我们给出九个空城特别多的区域。这个是鄂尔多斯,这个城市非常有意思,之前大家说鄂尔多斯是空城,这个空在什么地方呢,其实大家没有概念的。我们发现一个非常有意思的现象,是鄂尔多斯的新城区空的很厉害,就是左下角这个,跟媒体报道是比较一致的。还有右上角发现主城区的郊区空置的楼盘也很多。这个城市很有意思,就是很多由于原来逐渐衰败的城市除了新城区衰落,其实郊区的一些房子入住率也是比较低的,很重要的原因就是这个地方的就业率开始下降,很多真开始搬到其他地方去居住和工作了。但是我们也发现一个比较意思的现象,是之前媒体报道特别多的城市是郑州的新区,但是我们数据发现现在越来越多的年轻人愿意去新区工作。我们认为郑州新区不能再是传说中的空城。这是我们用数据发现中国房地产的变化。


我们的研究也获得了很多国内外知名媒体的报道,这是一些报道我们相关研究的媒体。

非常感谢大家在周末时间来到CDAS现场,非常高兴能与大家分享之前做的研究。谢谢。


CDA坚持打造高端数据分析学习社区和数据分析认证

CDA 数据分析师,作为国内领先的数据分析师人才教育品牌,一直致力于打造中国最棒的数据分析学习社区。旨在加强国内外乃至全球范围内正规化、科学化、专业化的数据分析人才队伍建设,进一步提升数据分析师的职业素养与能力水平,促进数据分析行业的高质量持续快速发展。

数据分析咨询请扫描二维码

客服在线
立即咨询