京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据在金融中的应用
由《中国证券投资基金年鉴》主办,广发基金协办的“2015基金营销拓展研讨会”于11月26日在北京召开,本次会议主题为“痛点思维下的转型与创新”。百度技术基础运营部大数据金融商业负责人伍茜在论坛上做了发言。
百度技术基础运营部大数据金融商业负责人伍茜表示,从所谓散户的情绪,从数据当中看到的东西是什么,我们看到这个是我们的产品,它每天都在实时的获取网民的情况,网民的一些情绪,只用一点,就是叫情绪分析,我们利用我们的NLAP技术,百度多年来做搜索,做搜索其实我们对语言的处理应该是世界级的。
以下为嘉宾发言实录:
伍茜:我今天主要是介绍一下百度大数据我们在做什么,我们做的是什么,我们未来想要往金融领域这个方向要怎么样发展,我也是来跟大家学习的,想跟业内的老师多交流,多跟你们探讨,多跟你们学习。
我们分四个部分讲。
首讲一下百度的数据帝国,众所周知我们是非常低调的互联网公司,不像阿里,我们从来不说,花钱也不说,包括前段时间跟中信银行(601998,股吧)成立了一个百姓直销银行也没有说,今天下午我们马上跟安联成立保险公司,其实我们跟其他两家公司不太一样的是我们更想和业内进行合作,因为我们是技术型合作,所以我们更想和业内共赢的生态区发展。
说一下我们的黑科技,我们这个部门在做什么?这是百度在美国硅谷的世界小组,我们筹备了有三年之久,研发有高达40亿美金,有全世界最顶级的专家,我们的核心数据只有一个就叫人工智能。
我们三个部分有北京大数据中心,有17款APP,它涵盖了人们所有的衣食住行以及情绪指标,硅谷研发中心有人工识别、语音识别,我们从数据的角度去还原数据,我们的人工智能就是我们的百度大脑现在可以达到5岁小孩的智商,就是你给它一个图片它就知道这是什么。
关于个人得数据是什么?就是我们涵盖了对你这个人7个纬度,32个行业,10万个标签,这什么意思呢?包括你的兴趣关注点、消费场景、常住地、信用评分,在我们眼中的数据生态是什么?这里面可以说一个我们的想法,在我们看来因为百度是做了一个15年搜索处理信息的公司,我们看来数据是天然就存在的,到今天大家提到大数据这个时代的时候我们会发现数据首先是从量变到质变的,如果换到金融的案例,有一个谷歌的投资,它是做放贷的,也就是说我们数据增信的指标可能只有5个纬度,这个公司它通过大数据改变,我们增值了1000个纬度,这1000个纬度可能来自于当下的行为,以及人际关系等等,增加了变量,这个变量增加的时候我们已经不知道,我们增信已经发生了变化,已经发生了改变,改变的是根本,所以我们看来第一阶段是数据的质变,第二个阶段就是数据的处理。就是刚才主持人念到的非结构数据到结构化,什么叫非结构化呢?就是将新闻的文字化成数据,运用的比较多的,可能运用在我们的广告营销领域,这块是应用最多的,也是应用最广泛的。运用在金融投资里面可能会是什么,我们可以接下来举一些例子。
有看过《失控》的人应该知道,他说流动的才能产生价值。所以说我们觉得通过我们的技术,通过我们的数据,通过我们过往15年来的经历,我们觉得我们应该找到一把钥匙,不管理从个人到价值投资,接下来给大家举一些案例,刚刚说的比较虚幻。
我们有这么技术可以干什么?首先从个人画像出手,上午我听到银行的老师们讲跟客户的互动,什么是客户的互动?我觉得这个其实可以探讨一下。其实我们需要更加了解客户的需求,可能是这样,我们面对这样一些庞大的资金也好,庞大的人群也好,他们到底在想什么?这是我们现在正在做的一个产品,或者说我们数据的一个东西。我们可以根据以往银行中拿到的客户数据,可以看到它的风险感知,它的投资经历,以及过往的财务收入等等,但是我们看不道德另外一点是它的成分特质,它的人生阶段是什么,它的年龄是什么,它的身体状况是什么,以及影响财富的可能性是什么,这个纬度是看不到的。
这是我们拿到的一份数据,可以看到客户的投资情况,他的年龄情况,我们分析出来风险承受能力是中低的,但是加入了我们17款APP的数据我们看到的是什么?他的收入水平是偏高的,地方档次也是中高的以及金融的关注度是高的,以及金融的专业性是中等的,年龄是36-32岁,然后未婚未生育,有房有车,我们得处他的风险承受能力是忠告的,你发现他发挥发生要跟你讨债,或者说他马上要去自杀的行为,所以根据我们这个产品得处理的结论就是他的风险承受能力是什么样的,根据他的身份特质,这时候这个客户当下的情况是什么。有时候是这样,你发现上个月跟这个客户说产品的时候,可能下个月他就改变了他的主意了,原因是什么?原因不是因为他对这个产品的问题,而是他的生活情况发生了改变,也许他突然怀孕了,所以这是我们对个人的画像。
接下来我们说完个人可以说说在投资端我们的大数据可以做什么。从所谓散户的情绪,大家是专家,我们讲的只是我们从数据当中看到的东西是什么,我们看到这个是我们的产品,它每天都在实时的获取网民的情况,网民他的一些情绪,只用一点,就是叫情绪分析,我们利用我们的NLAP技术,百度多年来做搜索,做搜索其实我们对语言的处理应该是世界级的。一个新闻,或者是一篇非机构化的文章出来了以后,我们可以立刻的分析到篇文章的中性或者是正性,或者是负项,这个东西出来了以后它将会往什么样的方向发展,我们通过我们所有的DTD技术发生的最终能力都可以看到,以及对所也数据的结构化我们都可以看到整个市场它到底是什么样情绪。
这个是什么意思呢?我们内部有一个系统叫神经元网络系统。当一个新闻出来,比如克强总理说中国高铁要走出去,走出去以后比如说目前我们现在先选的2800家上市公司,然后我们把它和新闻联结在一起,当这个新闻出来以后股东是什么,业务什么样,上下游什么样,以及连接它的产品又是什么,因为这个新闻的出来那些东西会根据这个行业受到影响,以及公司的影响是什么,我们对内部进行了这样一个系统的剖析。这是我们事件型在金融方向的实验。
以及从行业拐点我们可以怎么看。我们设想一下,因为大家都是老师,所以说大家比较清楚,比如说我们举了地产行业,2014年的时候我们信托违约,这时候最开始爆发点在那儿,我们怎么能够看出来,我们之前调研一个行业它快到拐点的时候我们怎么做的,我们的方法是什么,可能是分析师,除了分析师它每期会出,但这些都不是实时的,数据永远在滞后。到今天我们可以看,换做一个互联网公司我们可以用什么样的眼光或者角度看这个事情呢?我们通过我嫩数据可以看到华润商业楼的空置率可能比龙湖低,从空置率上,再加上全行业的搜索情况,以及全网的分析,我们可以实时的看到一个行业的拐点提前发生,并且这个数据应该能提早将近一个月的时间。
从价格出发,这个是我们每个月跟李克强总理去提出了一份报告,叫中小企业紧急指数,我们可以看到和汇丰比,我们总会提前1-2个月的时间,我们的行业拐点,为什么?因为我们有60万的广告客户,春江水暖鸭先知,只要他交了我们就知道整个中小企业或者景气程度是什么,这是我们在中小业这个板块上我们能做的事情。
还有个有意思的事情也是我们正想推出的,我们觉得这个东西可以跟老师们多探讨,这是对非标资产重新的评估,或者是模式的分析。还是举IOBS为例,我们有对实时景区客流分析的产品,因为我们做的这个产品给到旅游景区的时候,我们突然发现可以预测它未来的情况,以及告诉公路未来收费的情况,因为我们看到除了主的之外时旁边会发生一个什么人群,未来的人流趋势是什么,所以我们会看到这个。在做SPV的时候,我们是不是说加上这样流动的,以及实时的数据在做告诉公路证券化的评估有一些新的方法,有一些新的有意思的地方,这是刚刚我们所说案例。
刚刚主持人提到我们做一些落地的事情,接下来也会陆陆续续在行业内推出,我们确实是上半年跟国信证券(002736,股吧)合作的产品,我们想说一点,也许就像刚刚王老师说的,也有可能效果不好,但是我们不是追求这个,我们追且的并不是收益率有多高,而是我们想要去证实一个事情,也许这个世界正在发生变化,而我们正好参加金融的变化当中,我们希望跟行业内的朋友一起去玩这个事情,因为我们真的觉得从大数据的时代来临开始,我们觉得有更多有意思的事情可以进这个市场升级、变革,从逻辑上,从我们的数据上,从渠道上区升级这个市场,或者是去改变一些事情,这是我们要做的事情,以及这是百度应该做事情。我们有责任,有义务告诉这个市场什么是正确的,什么是错误的。比如说我们太贪婪的要更多高收益的产品,比如说现在的投资人要更多高收益的产品,我们可能告诉他这个人不是这样的,我也很赞赏阿里前段时间做的事情,就是养鸡场,跟鸡民做一些普及,这才是互联网做的事情,因为互联网将所有的东西放大,将所有大家原来讲的看不见的东西放大。如果说今天哪怕我们做一点点改变,这都是我们今天需要改变的。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在实验检测、质量控制、科研验证等场景中,“方法验证”是确保检测/分析结果可靠、可复用的核心环节——无论是新开发的检测方法 ...
2026-03-04在数据分析、科研实验、办公统计等场景中,我们常常需要对比两组数据的整体差异——比如两种营销策略的销售额差异、两种实验方案 ...
2026-03-04在数字化转型进入深水区的今天,企业对数据的依赖程度日益加深,而数据治理体系则是企业实现数据规范化、高质量化、价值化的核心 ...
2026-03-04在深度学习,尤其是卷积神经网络(CNN)的实操中,转置卷积(Transposed Convolution)是一个高频应用的操作——它核心用于实现 ...
2026-03-03在日常办公、数据分析、金融理财、科研统计等场景中,我们经常需要计算“平均值”来概括一组数据的整体水平——比如计算月度平均 ...
2026-03-03在数字化转型的浪潮中,数据已成为企业最核心的战略资产,而数据治理则是激活这份资产价值的前提——没有规范、高质量的数据治理 ...
2026-03-03在Excel办公中,数据透视表是汇总、分析繁杂数据的核心工具,我们常常通过它快速得到销售额汇总、人员统计、业绩分析等关键结果 ...
2026-03-02在日常办公和数据分析中,我们常常需要探究两个或多个数据之间的关联关系——比如销售额与广告投入是否正相关、员工出勤率与绩效 ...
2026-03-02在数字化运营中,时间序列数据是CDA(Certified Data Analyst)数据分析师最常接触的数据类型之一——每日的营收、每小时的用户 ...
2026-03-02在日常办公中,数据透视表是Excel、WPS等表格工具中最常用的数据分析利器——它能快速汇总繁杂数据、挖掘数据关联、生成直观报表 ...
2026-02-28有限元法(Finite Element Method, FEM)作为工程数值模拟的核心工具,已广泛应用于机械制造、航空航天、土木工程、生物医学等多 ...
2026-02-28在数字化时代,“以用户为中心”已成为企业运营的核心逻辑,而用户画像则是企业读懂用户、精准服务用户的关键载体。CDA(Certifi ...
2026-02-28在Python面向对象编程(OOP)中,类方法是构建模块化、可复用代码的核心载体,也是实现封装、继承、多态特性的关键工具。无论是 ...
2026-02-27在MySQL数据库优化中,索引是提升查询效率的核心手段—— 面对千万级、亿级数据量,合理创建索引能将查询时间从秒级压缩到毫秒级 ...
2026-02-27在数字化时代,企业积累的海量数据如同散落的珍珠,若缺乏有效的梳理与分类,终将难以发挥实际价值。CDA(Certified Data Analys ...
2026-02-27在问卷调研中,我们常遇到这样的场景:针对同一批调查对象,在不同时间点(如干预前、干预后、随访期)发放相同或相似的问卷,收 ...
2026-02-26在销售管理的实操场景中,“销售机会”是核心抓手—— 从潜在客户接触到最终成交,每一个环节都藏着业绩增长的关键,也暗藏着客 ...
2026-02-26在CDA数据分析师的日常工作中,数据提取、整理、加工是所有分析工作的起点,而“创建表”与“创建视图”,则是数据库操作中最基 ...
2026-02-26在机器学习分析、数据决策的全流程中,“数据质量决定分析价值”早已成为行业共识—— 正如我们此前在运用机器学习进行分析时强 ...
2026-02-25在数字化时代,数据已成为企业决策、行业升级的核心资产,但海量杂乱的原始数据本身不具备价值—— 只有通过科学的分析方法,挖 ...
2026-02-25