京公网安备 11010802034615号
经营许可证编号:京B2-20210330
数据分析师的新发现:数据应用催生商业模式
与点击广告相比,Jeff Hammerbacher相信,数据应用能够催生更多更好的商业模式。
H= Jeff Hammerbacher Cloudera创始人
C= CBNweekly
C:你的数据挖掘工作始于华尔街投行Bear Stearn,那是怎样一份工作?
H:当时我是固定收益部的数据分析师,主要处理有关债权、抵押以及其他金融衍生工具的事务。我为交易员清理外汇期权的电子数据表。清除完成后,我还要通过复杂的随机微分方程把定价引擎应用到这些期权上。
后来我得根据金融产品价格变动,维护它的固定收入的期限结构模型。期限结构模型是对收益率曲线发展的预测—很复杂的算法,每晚都得运行。我还开发了同步模拟通货膨胀的期限结构模型。
空下来的时候,我会去维基百科管理一下上面的答案。现在我是Quora的活跃分子,就知识交换而言,Quora比维基好得多。
C:从你的工作经历来看,你怎么看待数据应用这个问题?
H:我不是很了解许多大机构的宏伟目标,我只能谈谈我的领域。在我开始为数据应用做贡献前,还有一大堆的知识等着我去消化。我一直试图找出更简洁和更准确的模型来处理那些被筛选出来的重要信息。
曾有一件事,让我真正明白了数据管理和复杂模型的价值。有天,我们丢失了路透社有关交易所的数据反馈,所有的活动都被迫停止。但是负责数据反馈的那个工程师却外出午饭去了,在他回到座位之前,我们完全束手无策。那时我觉得,没有可靠的数据结构,华尔街赚不了钱,不管它有多少数学博士。
还有另外一件事情让我感到复杂模型的局限性。当时我们的一位交易员决定在某个金融产品上停用我们的模型,原因是模型预测的价格和其他交易员预测的价格有很大差异。这让我明白,所有的模型都必须考虑它所针对的金融工具的背景信息。
C:后来你去了Facebook,还组建数据团队,工作性质变了吗?
H:2006年,我以研究科学家的身份进入Facebook。就在我加入的前几个月,Facebook聘请了他们第一位分析总监。他搭建了Facebook第一个数据库,加入后的头几个月我都在帮他干这个活。同时,我也会负责一些数据分析项目,尤其是分析在News Feed功能和开放注册推出之后网站访问量的增长情况。
几个月之后,我便清楚我们的增长速度将使得我们的数据结构超出任何当时的商业软件处理能力,于是我便向我的老板,Facebook的CTO Adam D'Angleo建议,我们要有自己的、由结构工程师和研究科学家组成的数据团队。我深刻地觉得,这两种人一起工作对于开发早期数据结构软件太重要了。
此后,我的工作主要就是在世界范围内招聘最出色的数据结构工程师,一起去证明我们的远见。
C:你在那些数据挖掘里发现了什么?
H:这工作感觉太棒了:News Feed发布之后的第二天简直就是疯狂的一天。一整天我都在把Facebook的流量数字更新给马克·扎克伯格,佐证他当时的直觉—不管当时的新闻报道如何唱衰,News Feed对于用户来说会是个好东西。最让我兴奋的还要数推出平台的那天。在接下来的那个星期,我第一次明白Facebook会成功的,就像它今天一样的成功。
然而最棒的时刻,是我们终于可以把软件进行开源的那?天。
C:但你后来又离开了,还说“最聪明的人都在让人们把注意力转到点击广告上,真糟糕”。你为什么会这么想?
H:正确的引用应该是:我一代中最聪明的人都在想着怎么让更多人点击广告,这真是糟糕透了。这很容易理解:在线广告已经成为了过去十年财富创造最可靠的来源。把消费者和销售者配对起来,以及创造新的消费者和销售者,这对于任何市场来说都是最重要的问题。在线浏览和在线购买都变得非常容易估量。当你有估量方法,你就可以研究科学。在这种情况下,我这一代中最聪明的人则在推动科学的前?进。
但不幸的是,我人生中大部分有朝一日可以被解决的问题,都不会因更精准的广告而迎刃而解。我不确定如何整合我们的社会,才能让致力于解决长期挑战的人觉得自己得到了应得的回报,但是这是一个值得问出口的问题。
当然,广告之外现在已经有了大量的其他数据应用,我现在就能脱口而出那些公司的名字:GitHub让开发开源软件变得更容易;Kickstar让项目可以更快地获得资金支持;Rock Health和Imagine K-12在教育和资助下一代创业公司应该把更多目光投向医疗和教育领域的实际问题;Sage Bionetworks正在创造一个软件和数据的共享仓库,帮助疾病模型的建立和药品的开发;EyeWire用众包的方式研究大脑结构。有一些在线广告公司已经开源了工具包,比如Facebook的Open Compute项目就是其中很有意思的一个。
C:你现在工作的Cloudera有什么不一样?
H:Cloudera的特别之处在于,我们的软件可以和任何形式、任何规模的数据匹配,并且是开源的。我们希望可以在数据分析的基础上创造更为开放的平台。
我们的主要产品是Cloudera Enterprise,它是我们的资产管理软件Cloudera Manager最重要的组成部分。它的销售一路走红,让我们得以从小团队成长为200多人的公司,到今年年底可能会超过300人。做一个开源软件还能赚钱是一个让人兴奋的事情。最近我们新增了一些企业用户功能,比如可以让企业把被毁灭的数据恢复过来。
Cloudera更让人兴奋之处在于,许多公司的成功是建立在我们所提供的平台之上,投资我们的Accel公司很看好这个平台,它催生机遇,目前Accel在各种大数据领域的公司里投资了将近1亿美元。
C:你在硅谷看到数据挖掘的趋势是什么?
H:数据收据和数据挖掘最有趣的部分仍然发生在互联网公司之内,广告是构成这类公司营收最重要的部分。然而,在过去的几年里,这些公司当中有的已经成功地把开源工具商业化,创造了其他高收益的商业模式。我希望未来几年,会有更多的革新出现在这些公司里。
现在发生了很多有趣的事情。在人工智能方面,许多算法已经被隐藏到了开源软件平易近人的交互界面之下,比如Scikit-Learn,它能让用户很方便用各种模型做试验;还有像Vowpal Wabbit、Kaggle等等。
浏览器已经成为了数据可视化最棒的平台。JAVA Script, HIML5和WebGl,还有像D3和Crossfilter等实验室都让数以亿计的数据互动性更强、更可视化。当数据可视化在浏览器上实现了以后,合作将变得更便利,并随之催生出更多让人兴奋的新技术和工具。
我可以说出许多在数据搜集方面很有意思的工具:LearnStructure、SchemaDictionary、密歇根大学开发的Fisheye,还有斯坦福和伯克利大学合作研发的一个叫Data Wrangler的工具。
C:你现在怎么看待数据的价值?
H:我深信科学是社会一切美好事物的伟大来源。数据则是被科学管理着的世界的代表,因此收集越多的数据,我们就有能力做更多的科学研究。在广告于过去十年变得无比成熟的同时,许多产业甚至还没有进入数字时代。其中最突出的是医疗产业。我并不认为医疗产业在2030年还会如今天的情况一样驻足不动。在Cloudera,我们已经有了许多来自医疗行业的客户,同时我也希望我们能在这个进程中保持领先地位,因为医疗数字化这一天一定会到来。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04 很多数据分析师拿到数据就开始清洗、建模,但当被问到“这批数据属于什么类型——结构化还是非结构化?分类变量还是数值变量 ...
2026-06-04在问卷调查与社会科学数据分析中,卡方检验是最常用、最基础的非参数检验方法,广泛应用于市场调研、用户分析、行为统计、满意度 ...
2026-06-03【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-03 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-06-03逻辑回归是数据分析、机器学习、统计建模中应用最广泛的二分类预测模型,常用于风险判断、行为预测、归因分析等场景。在SPSS、Py ...
2026-06-02数字经济时代,市场竞争日趋同质化,用户消费需求愈发个性化、多元化,传统依托经验、粗放式、广撒网的营销模式弊端日益凸显。长 ...
2026-06-02 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-06-02在市场竞争日趋饱和、用户需求不断细分的当下,企业创业创新、产品迭代与市场拓展不再依赖经验决策,而是需要系统化、工具化的商 ...
2026-06-01【核心关键词】调度、岗位、数据库、企业、报表、培训、程序、数据分析、数据加工、业务部门、企业数据、调度工具、业务指标、 ...
2026-06-01 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-06-01在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-05-29【核心关键词】大数据、经理、专业、金融、客户、传统、建模、数据产品、互联网金融、产品经理、数据分析、金融行业、数据模型 ...
2026-05-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-05-28