
大数据将如何颠覆投资管理
近年来,大数据成为了热门词汇。作为一种新的分析方法,大数据正运用在许多行业当中。但目前投资经理采用大数据技术相当有限,这可能为投资管理行业打开一扇“机会之窗”。
利用大数据扩展模型 进行“信息套利”
在信息时代,利用大数据做交易的投资经理将会远远走在同行之前,在他们的扩展模型和那些运用传统分析工具的模型之间进行“信息套利”。
随着大数据分析方法进一步提高数据容量、多样性以及更新频率,在过去10年,系统化交易模型的创新技术加速发展,定量分析与定性分析之间的差别将逐渐消失。
定量基本面分析师可采用大数据技术,将所要验证的变量扩展到行为、看法和感知反馈等数据,而这些领域以前只属于自主基本面分析师(discretionary fundamental researchers )。这提供了一个更广泛的模型:通过使用一组新的数据,来解释相关的、类似的、最优的和低劣的数值。而这些新的数据没有被纳入传统的投资模型当中。这就在运用大数据技术的公司和那些没有运用大数据公司之间,创造了“信息套利”的可能性。
与现有模型的数据量和处理速度相同的情况下,系统性交易模型可处理新的输入数据。新程序可能寻找大量输入数据之间的相关性,而不是在传统数据集中简单地选择基于分析的交易,从而能够识别新的交易模式,这些模式将价格活动与非价格相关的变量联系起来。“多因素”的系统化程序使用了更广泛的数据集,能够实现当前系统所没有的信息优势。
如果新的建模能力与大数据分析方法相结合,比如预测分析和机器学习,就可以通过这些能“思考”的模型得出前瞻性的结论,从而改变投资研究的性质。这将导致关注价值的定量基本面模型和关注价格的系统性交易程序趋于一致。结果可能会形成一种新的自动投资组合管理模型,该模型关注“未来价值”,并对一些还未发生的或还未公布的“可能性”事件起作用。
大数据将消除定性分析与定量分析的差别
新模型的关键将是扩展当前可用数据的阈值,采纳新的数据源。而这些数据反映人们的观点、行为和动作,有助于自主基本面研究人员做出投资决策。新模型可能不会完全包含所有的数据,但扩展数据将使量化模型能更深入地研究,更广泛地假设。
以石油和天然气行业为例,假设有一家名为ABC的公司。基于资产负债表等财务报表,自主投资组合基金经理和定量分析师的定量模型可能都创建了该行业中重要公司的相对排名。而这是目前大部分的定量模型能够走到最远的一步了。
与此同时,自主基本面投资组合经理能够与企业高管交谈,并从他们的肢体语言中体会到他们对下一个季度所表现出来的兴奋或紧张。自主基金经理可能开始领悟到更多关于公司的近期活动,如果他们感觉到公司活动不同寻常的繁忙或平静,他们甚至可能会造访并观察公司的办公室或一些设施。他们还可能会联系业内人士,询问他们是否察觉到投机机会或听说一些有意思的、新的人事变动。
通过上述努力,自主基本面基金经理认为,ABC公司的CFO看起来比通常更乐观,并且公司的新闻里多次提到一些重要高管在过去一年如何增加了研发预算。
将上述的解释和预测进行“数据化”之后,定量投资模型也能得到相同的结果。
过去18个月,语言程序利用情感分析,发现ABC公司公开使用的积极词汇和消极词汇的比例有明显变化,积极词汇更多而消极词汇变少。过去4个月,积极词汇加速增多。通过程序识别,ABC公司高管在最新一年的新闻稿和采访中使用“研发”一词的频率,较此前12个月上升了182%。此外,“勘探”与“扩张”使用频率也增加。
定量模型将这些高频词汇与提到ABC公司未开发油田的公开记录联系起来,来确定是否有新文件公布出来,并了解这些未开发油田的地理位置。量化模型提取出每个油田的卫星图片,并进行时间序列图像分析,从而确定哪些油田的地貌有明显变化。分析结果显示,中非和撒哈拉以南非洲地区均出现显著变化。那么,量化模型的这一结论与上述自主基本面分析师所预测的一致,ABC公司将在中非或撒哈拉以南非洲地区开发新油田。
另外,模型将ABC公司驻非洲员工在社交网站上的照片进行定位分析。比如,在20位员工中,有16位定位在撒哈拉以南非洲地区,有2位员工出现在中非地区。这一系列因素结合此前的预测模型,可以断定,ABC公司将建立新的油田生产设施。模型还可以更进一步,通过分析撒哈拉以南非洲办公室的建设进程,判断油田可能将在三个月后开始生产。
综上所述,基于还没宣布的未来事件,自主基本面投资组合经理和量化模型都将会做多ABC公司。
新型“未来价值”模型可能出现
随着构建新定量模型经验丰富,以及系统化交易程序能够识别越来越多的定价模式,可能会产生新型系统化组合管理模型,该模型将交易选择基于公司可能的“未来价值”。
这些未来价值模型开始于未来事件的输出(future event output)(如预计ABC公司将会宣布开发新油田)。新模型将未来事件进行分类,并从历史记录中寻找ABC公司及其同行的类似公告,将这些公告日期标记起来,检索事件前后的几个星期内相关公司的图表。
公司某些新闻可能会引发价格变动,定价模型可将平均价格变动幅度和持续时间进行量化。模型将检查公司过去90天的活动,并确定是否有最相近的先例。模型每天都重新评估当前和历史的价格模式,并基于不断完善的数据来确定价格上涨还是降低。
若事件公布正如预期,当预期价格变动幅度和持续时间已实现,模型就会关闭头寸。如果事件不在特定窗口公布出来,而预测分析发生了变化,并且ABC公司发出公告的可能性降低,模型会关闭头寸或更早关闭头寸。
大数据使用的其它例子
A公司通过分析社交媒体的数据,比较该公司与同行业的B公司在社交媒体上的活跃程度,以判断其广告活动是否取得成功。
一些公司通过观察中国建设活动的卫星图片,来衡量中国经济是否稳健。
在官方调查报告出炉前,投资经理剖析消费者信用卡的交易数据以及旗舰店停车场汽车的数量,来预测零售活动。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15