
大数据挖掘投资大师的秘诀_数据分析师
先谈巴菲特
投资当如巴菲特。巴菲特从11岁开始第一次买股票,买了三股给自己,三股给自己的姐姐。到20世纪50年代初,时年20岁出头且已经有几千美金的巴菲特开始了自己的职业投资人生涯。半个多世纪后,2008年他成为了世界上最富有的人。
他在投资上做得有多好呢?如果把巴菲特的投资当作一只股票,并把这只股票和1926至2011年间美国所有存活30年以上的股票相比,那么这只股票相对于其波动性而言有最高的回报率(投资界所谓的夏普比率);按同样的指标,巴菲特也打赢了美国历史上所有有30年以上历史的公募基金。简而言之,巴菲特被公认为20世纪最伟大的投资者是当之无愧的。
如果写这篇文章的目的只是为了赞美,那么笔者可以就此打住,因为同样的主题已经被全世界的投资者唱了千万遍。相反,笔者想讨论的是一个所有投资者都关心、却可能不知道答案的问题:巴菲特被尊为奥马哈的“鬼才”、“先知”和“贤人”,而这位鬼才的杰出业绩有多少是基于“如得神助”的个人选股能力,有多少是基于可复制的普遍投资规律?
对这个问题的探讨是十分重要的。在每个国家的投资界,都流传着某些慧眼挑股票,大赚几十倍,让人羡慕嫉妒恨的故事;另一方面,一个关于基金投资的普遍规律是业绩不可持续。优秀的投资人同时也拥有卓越的投资能力吗?如果有,为什么一般基金的业绩不能持续?如果有,这种能力是对普遍投资规律的掌握,还是来自 “可欲而不可求”的个人素质?笔者认为,对最伟大的投资者的研究可以帮助我们理解投资的本质。
最近三位美国金融经济学家(Frazzini、Kabiller和Pedersen)研究发现,巴菲特的投资成绩源自三个方面:第一,巴菲特喜欢挑选周期性低(和大市关联度低)、便宜(市盈率或市净率低)、质量高(赚钱、稳定、有增长并分红)的股票;第二,巴菲特能够在逆市时坚持其投资理念。更重要的是,由于其卓越的声誉,投资者能够耐心地陪伴他而不是抛弃他;第三,巴菲特通过保险浮存金和发行债券来放大杠杆。这样一方面增大了波动性,另外一方面也放大了收益。
这些策略可以复制吗?上面的研究发现,如果时光倒流,在巴菲特投资的时期按照这几个规则选择非常分散的股票组合,并使用同等的杠杆,结果发现一些与巴菲特投资组合有所不同的股票组合,其最后的回报率甚至可以超过巴菲特。
换而言之,巴菲特的成功源自他采用了符合普遍投资规律的策略,通过杠杆放大收益,并能坚守这些策略。这个发现并不贬损世界上最伟大投资家的光辉,但确实把他从神座上拉下来了。他的成就总体而言是符合了投资规律,而非不可言喻的“天人”之作。
读到此处,估计一些投资者会嘿嘿一笑,然后对笔者说:“你说的是美国吧?”中国的A股市场以波动大、政策市、操纵市着称。这个市场似乎没有多少规律可循,倒是盛传各种因为内幕、操纵等原因而发财的故事。那么在这样一个貌似混乱的市场里,我们还能够透过规律去分析投资者吗?
再谈王亚伟
中国过去十年最有名的公募基金投资者是王亚伟,号称“一哥”,曾经长期是中国最大的华夏基金的投资经理,并有力支持了华夏基金的成长。他2007年获得 “中国最赚钱的基金经理”的殊荣,2009年当选“股基王”,2010和2011年连续两年当选《福布斯》中国十佳基金经理第一名。
关于王亚伟的传闻很多,包括超常的选股能力,神奇的押宝重组股的能力,甚至有内幕消息、基金对倒等不详传闻。那么我们应该如何看待他呢?是把他归为不可理喻的“鬼才”,有不可言说的故事,还是可以用投资规律去分析他的投资表现呢?
王亚伟曾经担任三个公募基金的经理:华夏成长(2001年12月至2005年4月)、华夏大盘(2005年12月至2012年5月)和华夏策略(2008 年10月至2012年5月),其中华夏大盘和华夏策略在2008至2012年间同时运作。所以我们可以把王亚伟的投资经历分成三个阶段:2002年至 2005年,2005年至2008年,2008年至2012年。
从2002年1月到2005年4月间,王亚伟担任华夏成长经理。在这个时期,华夏成长的回报率累积跑输所有非华夏系基金平均回报率的8.7%。也就是说,王亚伟的“成长”阶段并不出彩。
王亚伟最成功的经历是担任华夏大盘的经理。从2005年12月到2012年5月,如果我们把所有A股上市公司的简单平均回报率作为指数,叫做全A平均指数,那么华夏大盘累计跑赢全A平均指数564%(图二)。
仔细研究会发现,这个超额业绩的基础主要是在2005年12月到2008年10月(第二阶段)完成的。实际上,从2008年10月到2012年5月,即王亚伟同时管理华夏大盘和华夏策略的阶段,两只基金都跑输了全A平均指数。其中华夏大盘跑输36%,华夏策略跑输70%(图三)。
另外,笔者发现剔除重组股对王亚伟的基金回报率影响不大,所以押宝重组股并不是他成功的决定性原因。华夏成长与华夏策略的回报率相关性达到99%,这也说明这两只基金的选股方式非常类似,破除了基金对倒的传言。
行文至此,笔者认为作为中国最着名的基金经理人,王亚伟的成功并不是基于押宝重组股或基金之间的交易。而从数据中我们可以得出一个重要的结论,即王亚伟的超常业绩并不持续,这与国际惯例相同。实际上,如果把他的业绩分成三段,那么2002至2005年间他不如一般基金表现的那么出彩,2005年至2008 年间非常出彩,2008年至2012年间则跑输上市公司的平均回报率。
这个研究说明了投资的几个基本规律:其一,即便是好的投资人,其业绩也有波动,决定谁是最好的投资人可能需要很长的时间;其二,追随传说中带有神秘色彩的投资故事并不是学习投资的最佳方式。这些神秘的投资故事可能并不像想象的那么有效,而真正能够持续盈利的故事(如巴菲特)往往是可以印证的普遍投资规律。
需要指出的是,在计算全A平均指数时考虑了所有股票,包括相对市值小的股票。从表面上看,全A平均指数和华夏大盘的直接对比可能并不是最合适的,但在实际运作中,华夏大盘改变了基金公约,配置了不少中小股,因此两者之间具有了一定的可比性。
另外,国际资本市场的一个重要普遍规律是小盘股回报率超过大盘股。王亚伟2008年至2012年的经验表明,与其相信神神秘秘的投资故事,不如遵循投资规律买一些分散的小盘股。
小数据和大数据
在充满了不确定性的投资领域里,学习投资的方式也体现着人性,其具体表现为投资者喜欢追逐有个人色彩的传奇故事,力图挖掘投资大师的秘诀。对此,我们不妨称之为小数据的学习方式,即通过个别案例来学习。这里有几个关键问题,一是故事是否有普遍性,二是故事是否印证了投资的基本规律。没有大数据的印证,故事往往发展成神话或阴谋论,于学习无益。
在大数据分析的光亮底下,笔者意图和大家讨论的关键问题是投资是否可学。在任何一个时点,如同掷骰子,都有投资者欢呼或哭泣。那么持续成功所需要的,是不可学的神迹,还是可学的普遍规律?于巴菲特,他的长期成功来自于坚守合理的投资理念,值得分享借鉴。于王亚伟,他还需要更长的时间来验证自己是否是最出色的投资者。于我们,可以从对两个着名投资者的分析中学到,神妙不可学的投资方法,并不是他们持续成功的原因。这是一个好消息。
投资可学,用巴菲特自己的话来说,投资的真谛是把股票当作企业(有长线眼光)来看,利用市场的波动性,在合理的安全边际买进高质量的股票。这样的道理,“一百年后仍然是投资的基石”。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13分库分表,为何而生? 在信息技术发展的早期阶段,数据量相对较小,业务逻辑也较为简单,单库单表的数据库架构就能够满足大多数 ...
2025-10-13在企业数字化转型过程中,“数据孤岛” 是普遍面临的痛点:用户数据散落在 APP 日志、注册系统、客服记录中,订单数据分散在交易 ...
2025-10-13在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11在机器学习建模流程中,“特征重要性分析” 是连接 “数据” 与 “业务” 的关键桥梁 —— 它不仅能帮我们筛选冗余特征、提升模 ...
2025-10-11在企业的数据体系中,未经分类的数据如同 “杂乱无章的仓库”—— 用户行为日志、订单记录、商品信息混杂存储,CDA(Certified D ...
2025-10-11在 SQL Server 数据库操作中,“数据类型转换” 是高频需求 —— 无论是将字符串格式的日期转为datetime用于筛选,还是将数值转 ...
2025-10-10在科研攻关、工业优化、产品开发中,正交试验(Orthogonal Experiment)因 “用少量试验覆盖多因素多水平组合” 的高效性,成为 ...
2025-10-10在企业数据量从 “GB 级” 迈向 “PB 级” 的过程中,“数据混乱” 的痛点逐渐从 “隐性问题” 变为 “显性瓶颈”:各部门数据口 ...
2025-10-10在深度学习中,“模型如何从错误中学习” 是最关键的问题 —— 而损失函数与反向传播正是回答这一问题的核心技术:损失函数负责 ...
2025-10-09本文将从 “检验本质” 切入,拆解两种方法的核心适用条件、场景边界与实战选择逻辑,结合医学、工业、教育领域的案例,让你明确 ...
2025-10-09在 CDA 数据分析师的日常工作中,常会遇到这样的困惑:某电商平台 11 月 GMV 同比增长 20%,但究竟是 “长期趋势自然增长”,还 ...
2025-10-09Pandas 选取特定值所在行:6 类核心方法与实战指南 在使用 pandas 处理结构化数据时,“选取特定值所在的行” 是最高频的操作之 ...
2025-09-30球面卷积神经网络(SCNN) 为解决这一痛点,球面卷积神经网络(Spherical Convolutional Neural Network, SCNN) 应运而生。它通 ...
2025-09-30在企业日常运营中,“未来会怎样” 是决策者最关心的问题 —— 电商平台想知道 “下月销量能否达标”,金融机构想预判 “下周股 ...
2025-09-30Excel 能做聚类分析吗?基础方法、进阶技巧与场景边界 在数据分析领域,聚类分析是 “无监督学习” 的核心技术 —— 无需预设分 ...
2025-09-29XGBoost 决策树:原理、优化与工业级实战指南 在机器学习领域,决策树因 “可解释性强、处理非线性关系能力突出” 成为基础模型 ...
2025-09-29