京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据在金融中的应用
由《中国证券投资基金年鉴》主办,广发基金协办的“2015基金营销拓展研讨会”于11月26日在北京召开,本次会议主题为“痛点思维下的转型与创新”。百度技术基础运营部大数据金融商业负责人伍茜在论坛上做了发言。
百度技术基础运营部大数据金融商业负责人伍茜表示,从所谓散户的情绪,从数据当中看到的东西是什么,我们看到这个是我们的产品,它每天都在实时的获取网民的情况,网民的一些情绪,只用一点,就是叫情绪分析,我们利用我们的NLAP技术,百度多年来做搜索,做搜索其实我们对语言的处理应该是世界级的。
以下为嘉宾发言实录:
伍茜:我今天主要是介绍一下百度大数据我们在做什么,我们做的是什么,我们未来想要往金融领域这个方向要怎么样发展,我也是来跟大家学习的,想跟业内的老师多交流,多跟你们探讨,多跟你们学习。
我们分四个部分讲。
首讲一下百度的数据帝国,众所周知我们是非常低调的互联网公司,不像阿里,我们从来不说,花钱也不说,包括前段时间跟中信银行(601998,股吧)成立了一个百姓直销银行也没有说,今天下午我们马上跟安联成立保险公司,其实我们跟其他两家公司不太一样的是我们更想和业内进行合作,因为我们是技术型合作,所以我们更想和业内共赢的生态区发展。
说一下我们的黑科技,我们这个部门在做什么?这是百度在美国硅谷的世界小组,我们筹备了有三年之久,研发有高达40亿美金,有全世界最顶级的专家,我们的核心数据只有一个就叫人工智能。
我们三个部分有北京大数据中心,有17款APP,它涵盖了人们所有的衣食住行以及情绪指标,硅谷研发中心有人工识别、语音识别,我们从数据的角度去还原数据,我们的人工智能就是我们的百度大脑现在可以达到5岁小孩的智商,就是你给它一个图片它就知道这是什么。
关于个人得数据是什么?就是我们涵盖了对你这个人7个纬度,32个行业,10万个标签,这什么意思呢?包括你的兴趣关注点、消费场景、常住地、信用评分,在我们眼中的数据生态是什么?这里面可以说一个我们的想法,在我们看来因为百度是做了一个15年搜索处理信息的公司,我们看来数据是天然就存在的,到今天大家提到大数据这个时代的时候我们会发现数据首先是从量变到质变的,如果换到金融的案例,有一个谷歌的投资,它是做放贷的,也就是说我们数据增信的指标可能只有5个纬度,这个公司它通过大数据改变,我们增值了1000个纬度,这1000个纬度可能来自于当下的行为,以及人际关系等等,增加了变量,这个变量增加的时候我们已经不知道,我们增信已经发生了变化,已经发生了改变,改变的是根本,所以我们看来第一阶段是数据的质变,第二个阶段就是数据的处理。就是刚才主持人念到的非结构数据到结构化,什么叫非结构化呢?就是将新闻的文字化成数据,运用的比较多的,可能运用在我们的广告营销领域,这块是应用最多的,也是应用最广泛的。运用在金融投资里面可能会是什么,我们可以接下来举一些例子。
有看过《失控》的人应该知道,他说流动的才能产生价值。所以说我们觉得通过我们的技术,通过我们的数据,通过我们过往15年来的经历,我们觉得我们应该找到一把钥匙,不管理从个人到价值投资,接下来给大家举一些案例,刚刚说的比较虚幻。
我们有这么技术可以干什么?首先从个人画像出手,上午我听到银行的老师们讲跟客户的互动,什么是客户的互动?我觉得这个其实可以探讨一下。其实我们需要更加了解客户的需求,可能是这样,我们面对这样一些庞大的资金也好,庞大的人群也好,他们到底在想什么?这是我们现在正在做的一个产品,或者说我们数据的一个东西。我们可以根据以往银行中拿到的客户数据,可以看到它的风险感知,它的投资经历,以及过往的财务收入等等,但是我们看不道德另外一点是它的成分特质,它的人生阶段是什么,它的年龄是什么,它的身体状况是什么,以及影响财富的可能性是什么,这个纬度是看不到的。
这是我们拿到的一份数据,可以看到客户的投资情况,他的年龄情况,我们分析出来风险承受能力是中低的,但是加入了我们17款APP的数据我们看到的是什么?他的收入水平是偏高的,地方档次也是中高的以及金融的关注度是高的,以及金融的专业性是中等的,年龄是36-32岁,然后未婚未生育,有房有车,我们得处他的风险承受能力是忠告的,你发现他发挥发生要跟你讨债,或者说他马上要去自杀的行为,所以根据我们这个产品得处理的结论就是他的风险承受能力是什么样的,根据他的身份特质,这时候这个客户当下的情况是什么。有时候是这样,你发现上个月跟这个客户说产品的时候,可能下个月他就改变了他的主意了,原因是什么?原因不是因为他对这个产品的问题,而是他的生活情况发生了改变,也许他突然怀孕了,所以这是我们对个人的画像。
接下来我们说完个人可以说说在投资端我们的大数据可以做什么。从所谓散户的情绪,大家是专家,我们讲的只是我们从数据当中看到的东西是什么,我们看到这个是我们的产品,它每天都在实时的获取网民的情况,网民他的一些情绪,只用一点,就是叫情绪分析,我们利用我们的NLAP技术,百度多年来做搜索,做搜索其实我们对语言的处理应该是世界级的。一个新闻,或者是一篇非机构化的文章出来了以后,我们可以立刻的分析到篇文章的中性或者是正性,或者是负项,这个东西出来了以后它将会往什么样的方向发展,我们通过我们所有的DTD技术发生的最终能力都可以看到,以及对所也数据的结构化我们都可以看到整个市场它到底是什么样情绪。
这个是什么意思呢?我们内部有一个系统叫神经元网络系统。当一个新闻出来,比如克强总理说中国高铁要走出去,走出去以后比如说目前我们现在先选的2800家上市公司,然后我们把它和新闻联结在一起,当这个新闻出来以后股东是什么,业务什么样,上下游什么样,以及连接它的产品又是什么,因为这个新闻的出来那些东西会根据这个行业受到影响,以及公司的影响是什么,我们对内部进行了这样一个系统的剖析。这是我们事件型在金融方向的实验。
以及从行业拐点我们可以怎么看。我们设想一下,因为大家都是老师,所以说大家比较清楚,比如说我们举了地产行业,2014年的时候我们信托违约,这时候最开始爆发点在那儿,我们怎么能够看出来,我们之前调研一个行业它快到拐点的时候我们怎么做的,我们的方法是什么,可能是分析师,除了分析师它每期会出,但这些都不是实时的,数据永远在滞后。到今天我们可以看,换做一个互联网公司我们可以用什么样的眼光或者角度看这个事情呢?我们通过我嫩数据可以看到华润商业楼的空置率可能比龙湖低,从空置率上,再加上全行业的搜索情况,以及全网的分析,我们可以实时的看到一个行业的拐点提前发生,并且这个数据应该能提早将近一个月的时间。
从价格出发,这个是我们每个月跟李克强总理去提出了一份报告,叫中小企业紧急指数,我们可以看到和汇丰比,我们总会提前1-2个月的时间,我们的行业拐点,为什么?因为我们有60万的广告客户,春江水暖鸭先知,只要他交了我们就知道整个中小企业或者景气程度是什么,这是我们在中小业这个板块上我们能做的事情。
还有个有意思的事情也是我们正想推出的,我们觉得这个东西可以跟老师们多探讨,这是对非标资产重新的评估,或者是模式的分析。还是举IOBS为例,我们有对实时景区客流分析的产品,因为我们做的这个产品给到旅游景区的时候,我们突然发现可以预测它未来的情况,以及告诉公路未来收费的情况,因为我们看到除了主的之外时旁边会发生一个什么人群,未来的人流趋势是什么,所以我们会看到这个。在做SPV的时候,我们是不是说加上这样流动的,以及实时的数据在做告诉公路证券化的评估有一些新的方法,有一些新的有意思的地方,这是刚刚我们所说案例。
刚刚主持人提到我们做一些落地的事情,接下来也会陆陆续续在行业内推出,我们确实是上半年跟国信证券(002736,股吧)合作的产品,我们想说一点,也许就像刚刚王老师说的,也有可能效果不好,但是我们不是追求这个,我们追且的并不是收益率有多高,而是我们想要去证实一个事情,也许这个世界正在发生变化,而我们正好参加金融的变化当中,我们希望跟行业内的朋友一起去玩这个事情,因为我们真的觉得从大数据的时代来临开始,我们觉得有更多有意思的事情可以进这个市场升级、变革,从逻辑上,从我们的数据上,从渠道上区升级这个市场,或者是去改变一些事情,这是我们要做的事情,以及这是百度应该做事情。我们有责任,有义务告诉这个市场什么是正确的,什么是错误的。比如说我们太贪婪的要更多高收益的产品,比如说现在的投资人要更多高收益的产品,我们可能告诉他这个人不是这样的,我也很赞赏阿里前段时间做的事情,就是养鸡场,跟鸡民做一些普及,这才是互联网做的事情,因为互联网将所有的东西放大,将所有大家原来讲的看不见的东西放大。如果说今天哪怕我们做一点点改变,这都是我们今天需要改变的。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据仓库与数据分析体系中,维度表与事实表是构建结构化数据模型的核心组件,二者如同“骨架”与“血肉”,协同支撑起各类业务 ...
2026-01-16在游戏行业“存量竞争”的当下,玩家留存率直接决定游戏的生命周期与商业价值。一款游戏即便拥有出色的画面与玩法,若无法精准识 ...
2026-01-16为配合CDA考试中心的 2025 版 CDA Level III 认证新大纲落地,CDA 网校正式推出新大纲更新后的第一套官方模拟题。该模拟题严格遵 ...
2026-01-16在数据驱动决策的时代,数据分析已成为企业运营、产品优化、业务增长的核心工具。但实际工作中,很多数据分析项目看似流程完整, ...
2026-01-15在CDA(Certified Data Analyst)数据分析师的日常工作中,“高维数据处理”是高频痛点——比如用户画像包含“浏览次数、停留时 ...
2026-01-15在教育测量与评价领域,百分制考试成绩的分布规律是评估教学效果、优化命题设计的核心依据,而正态分布则是其中最具代表性的分布 ...
2026-01-15在用户从“接触产品”到“完成核心目标”的全链路中,流失是必然存在的——电商用户可能“浏览商品却未下单”,APP新用户可能“ ...
2026-01-14在产品增长的核心指标体系中,次日留存率是当之无愧的“入门级关键指标”——它直接反映用户对产品的首次体验反馈,是判断产品是 ...
2026-01-14在CDA(Certified Data Analyst)数据分析师的业务实操中,“分类预测”是高频核心需求——比如“预测用户是否会购买商品”“判 ...
2026-01-14在数字化时代,用户的每一次操作——无论是电商平台的“浏览-加购-下单”、APP的“登录-点击-留存”,还是金融产品的“注册-实名 ...
2026-01-13在数据驱动决策的时代,“数据质量决定分析价值”已成为行业共识。数据库、日志系统、第三方平台等渠道采集的原始数据,往往存在 ...
2026-01-13在CDA(Certified Data Analyst)数据分析师的核心能力体系中,“通过数据建立模型、实现预测与归因”是进阶关键——比如“预测 ...
2026-01-13在企业数字化转型过程中,业务模型与数据模型是两大核心支撑体系:业务模型承载“业务应该如何运转”的逻辑,数据模型解决“数据 ...
2026-01-12当前手游市场进入存量竞争时代,“拉新难、留存更难”成为行业普遍痛点。对于手游产品而言,用户留存率不仅直接决定产品的生命周 ...
2026-01-12在CDA(Certified Data Analyst)数据分析师的日常工作中,“挖掘变量间的关联关系”是高频核心需求——比如判断“用户停留时长 ...
2026-01-12在存量竞争时代,用户流失率直接影响企业的营收与市场竞争力。无论是电商、互联网服务还是金融行业,提前精准预测潜在流失用户, ...
2026-01-09在量化投资领域,多因子选股是主流的选股策略之一——其核心逻辑是通过挖掘影响股票未来收益的各类因子(如估值、成长、盈利、流 ...
2026-01-09在CDA(Certified Data Analyst)数据分析师的工作场景中,分类型变量的关联分析是高频需求——例如“用户性别与商品偏好是否相 ...
2026-01-09数据库中的历史数据,是企业运营过程中沉淀的核心资产——包含用户行为轨迹、业务交易记录、产品迭代日志、市场活动效果等多维度 ...
2026-01-08在电商行业竞争日趋激烈的当下,数据已成为驱动业务增长的核心引擎。电商公司的数据分析师,不仅是数据的“解读官”,更是业务的 ...
2026-01-08