
数据分析师的新发现:数据应用催生商业模式
与点击广告相比,Jeff Hammerbacher相信,数据应用能够催生更多更好的商业模式。
H= Jeff Hammerbacher Cloudera创始人
C= CBNweekly
C:你的数据挖掘工作始于华尔街投行Bear Stearn,那是怎样一份工作?
H:当时我是固定收益部的数据分析师,主要处理有关债权、抵押以及其他金融衍生工具的事务。我为交易员清理外汇期权的电子数据表。清除完成后,我还要通过复杂的随机微分方程把定价引擎应用到这些期权上。
后来我得根据金融产品价格变动,维护它的固定收入的期限结构模型。期限结构模型是对收益率曲线发展的预测—很复杂的算法,每晚都得运行。我还开发了同步模拟通货膨胀的期限结构模型。
空下来的时候,我会去维基百科管理一下上面的答案。现在我是Quora的活跃分子,就知识交换而言,Quora比维基好得多。
C:从你的工作经历来看,你怎么看待数据应用这个问题?
H:我不是很了解许多大机构的宏伟目标,我只能谈谈我的领域。在我开始为数据应用做贡献前,还有一大堆的知识等着我去消化。我一直试图找出更简洁和更准确的模型来处理那些被筛选出来的重要信息。
曾有一件事,让我真正明白了数据管理和复杂模型的价值。有天,我们丢失了路透社有关交易所的数据反馈,所有的活动都被迫停止。但是负责数据反馈的那个工程师却外出午饭去了,在他回到座位之前,我们完全束手无策。那时我觉得,没有可靠的数据结构,华尔街赚不了钱,不管它有多少数学博士。
还有另外一件事情让我感到复杂模型的局限性。当时我们的一位交易员决定在某个金融产品上停用我们的模型,原因是模型预测的价格和其他交易员预测的价格有很大差异。这让我明白,所有的模型都必须考虑它所针对的金融工具的背景信息。
C:后来你去了Facebook,还组建数据团队,工作性质变了吗?
H:2006年,我以研究科学家的身份进入Facebook。就在我加入的前几个月,Facebook聘请了他们第一位分析总监。他搭建了Facebook第一个数据库,加入后的头几个月我都在帮他干这个活。同时,我也会负责一些数据分析项目,尤其是分析在News Feed功能和开放注册推出之后网站访问量的增长情况。
几个月之后,我便清楚我们的增长速度将使得我们的数据结构超出任何当时的商业软件处理能力,于是我便向我的老板,Facebook的CTO Adam D'Angleo建议,我们要有自己的、由结构工程师和研究科学家组成的数据团队。我深刻地觉得,这两种人一起工作对于开发早期数据结构软件太重要了。
此后,我的工作主要就是在世界范围内招聘最出色的数据结构工程师,一起去证明我们的远见。
C:你在那些数据挖掘里发现了什么?
H:这工作感觉太棒了:News Feed发布之后的第二天简直就是疯狂的一天。一整天我都在把Facebook的流量数字更新给马克·扎克伯格,佐证他当时的直觉—不管当时的新闻报道如何唱衰,News Feed对于用户来说会是个好东西。最让我兴奋的还要数推出平台的那天。在接下来的那个星期,我第一次明白Facebook会成功的,就像它今天一样的成功。
然而最棒的时刻,是我们终于可以把软件进行开源的那?天。
C:但你后来又离开了,还说“最聪明的人都在让人们把注意力转到点击广告上,真糟糕”。你为什么会这么想?
H:正确的引用应该是:我一代中最聪明的人都在想着怎么让更多人点击广告,这真是糟糕透了。这很容易理解:在线广告已经成为了过去十年财富创造最可靠的来源。把消费者和销售者配对起来,以及创造新的消费者和销售者,这对于任何市场来说都是最重要的问题。在线浏览和在线购买都变得非常容易估量。当你有估量方法,你就可以研究科学。在这种情况下,我这一代中最聪明的人则在推动科学的前?进。
但不幸的是,我人生中大部分有朝一日可以被解决的问题,都不会因更精准的广告而迎刃而解。我不确定如何整合我们的社会,才能让致力于解决长期挑战的人觉得自己得到了应得的回报,但是这是一个值得问出口的问题。
当然,广告之外现在已经有了大量的其他数据应用,我现在就能脱口而出那些公司的名字:GitHub让开发开源软件变得更容易;Kickstar让项目可以更快地获得资金支持;Rock Health和Imagine K-12在教育和资助下一代创业公司应该把更多目光投向医疗和教育领域的实际问题;Sage Bionetworks正在创造一个软件和数据的共享仓库,帮助疾病模型的建立和药品的开发;EyeWire用众包的方式研究大脑结构。有一些在线广告公司已经开源了工具包,比如Facebook的Open Compute项目就是其中很有意思的一个。
C:你现在工作的Cloudera有什么不一样?
H:Cloudera的特别之处在于,我们的软件可以和任何形式、任何规模的数据匹配,并且是开源的。我们希望可以在数据分析的基础上创造更为开放的平台。
我们的主要产品是Cloudera Enterprise,它是我们的资产管理软件Cloudera Manager最重要的组成部分。它的销售一路走红,让我们得以从小团队成长为200多人的公司,到今年年底可能会超过300人。做一个开源软件还能赚钱是一个让人兴奋的事情。最近我们新增了一些企业用户功能,比如可以让企业把被毁灭的数据恢复过来。
Cloudera更让人兴奋之处在于,许多公司的成功是建立在我们所提供的平台之上,投资我们的Accel公司很看好这个平台,它催生机遇,目前Accel在各种大数据领域的公司里投资了将近1亿美元。
C:你在硅谷看到数据挖掘的趋势是什么?
H:数据收据和数据挖掘最有趣的部分仍然发生在互联网公司之内,广告是构成这类公司营收最重要的部分。然而,在过去的几年里,这些公司当中有的已经成功地把开源工具商业化,创造了其他高收益的商业模式。我希望未来几年,会有更多的革新出现在这些公司里。
现在发生了很多有趣的事情。在人工智能方面,许多算法已经被隐藏到了开源软件平易近人的交互界面之下,比如Scikit-Learn,它能让用户很方便用各种模型做试验;还有像Vowpal Wabbit、Kaggle等等。
浏览器已经成为了数据可视化最棒的平台。JAVA Script, HIML5和WebGl,还有像D3和Crossfilter等实验室都让数以亿计的数据互动性更强、更可视化。当数据可视化在浏览器上实现了以后,合作将变得更便利,并随之催生出更多让人兴奋的新技术和工具。
我可以说出许多在数据搜集方面很有意思的工具:LearnStructure、SchemaDictionary、密歇根大学开发的Fisheye,还有斯坦福和伯克利大学合作研发的一个叫Data Wrangler的工具。
C:你现在怎么看待数据的价值?
H:我深信科学是社会一切美好事物的伟大来源。数据则是被科学管理着的世界的代表,因此收集越多的数据,我们就有能力做更多的科学研究。在广告于过去十年变得无比成熟的同时,许多产业甚至还没有进入数字时代。其中最突出的是医疗产业。我并不认为医疗产业在2030年还会如今天的情况一样驻足不动。在Cloudera,我们已经有了许多来自医疗行业的客户,同时我也希望我们能在这个进程中保持领先地位,因为医疗数字化这一天一定会到来。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15