京公网安备 11010802034615号
经营许可证编号:京B2-20210330
数据分析师的新发现:数据应用催生商业模式
与点击广告相比,Jeff Hammerbacher相信,数据应用能够催生更多更好的商业模式。
H= Jeff Hammerbacher Cloudera创始人
C= CBNweekly
C:你的数据挖掘工作始于华尔街投行Bear Stearn,那是怎样一份工作?
H:当时我是固定收益部的数据分析师,主要处理有关债权、抵押以及其他金融衍生工具的事务。我为交易员清理外汇期权的电子数据表。清除完成后,我还要通过复杂的随机微分方程把定价引擎应用到这些期权上。
后来我得根据金融产品价格变动,维护它的固定收入的期限结构模型。期限结构模型是对收益率曲线发展的预测—很复杂的算法,每晚都得运行。我还开发了同步模拟通货膨胀的期限结构模型。
空下来的时候,我会去维基百科管理一下上面的答案。现在我是Quora的活跃分子,就知识交换而言,Quora比维基好得多。
C:从你的工作经历来看,你怎么看待数据应用这个问题?
H:我不是很了解许多大机构的宏伟目标,我只能谈谈我的领域。在我开始为数据应用做贡献前,还有一大堆的知识等着我去消化。我一直试图找出更简洁和更准确的模型来处理那些被筛选出来的重要信息。
曾有一件事,让我真正明白了数据管理和复杂模型的价值。有天,我们丢失了路透社有关交易所的数据反馈,所有的活动都被迫停止。但是负责数据反馈的那个工程师却外出午饭去了,在他回到座位之前,我们完全束手无策。那时我觉得,没有可靠的数据结构,华尔街赚不了钱,不管它有多少数学博士。
还有另外一件事情让我感到复杂模型的局限性。当时我们的一位交易员决定在某个金融产品上停用我们的模型,原因是模型预测的价格和其他交易员预测的价格有很大差异。这让我明白,所有的模型都必须考虑它所针对的金融工具的背景信息。
C:后来你去了Facebook,还组建数据团队,工作性质变了吗?
H:2006年,我以研究科学家的身份进入Facebook。就在我加入的前几个月,Facebook聘请了他们第一位分析总监。他搭建了Facebook第一个数据库,加入后的头几个月我都在帮他干这个活。同时,我也会负责一些数据分析项目,尤其是分析在News Feed功能和开放注册推出之后网站访问量的增长情况。
几个月之后,我便清楚我们的增长速度将使得我们的数据结构超出任何当时的商业软件处理能力,于是我便向我的老板,Facebook的CTO Adam D'Angleo建议,我们要有自己的、由结构工程师和研究科学家组成的数据团队。我深刻地觉得,这两种人一起工作对于开发早期数据结构软件太重要了。
此后,我的工作主要就是在世界范围内招聘最出色的数据结构工程师,一起去证明我们的远见。
C:你在那些数据挖掘里发现了什么?
H:这工作感觉太棒了:News Feed发布之后的第二天简直就是疯狂的一天。一整天我都在把Facebook的流量数字更新给马克·扎克伯格,佐证他当时的直觉—不管当时的新闻报道如何唱衰,News Feed对于用户来说会是个好东西。最让我兴奋的还要数推出平台的那天。在接下来的那个星期,我第一次明白Facebook会成功的,就像它今天一样的成功。
然而最棒的时刻,是我们终于可以把软件进行开源的那?天。
C:但你后来又离开了,还说“最聪明的人都在让人们把注意力转到点击广告上,真糟糕”。你为什么会这么想?
H:正确的引用应该是:我一代中最聪明的人都在想着怎么让更多人点击广告,这真是糟糕透了。这很容易理解:在线广告已经成为了过去十年财富创造最可靠的来源。把消费者和销售者配对起来,以及创造新的消费者和销售者,这对于任何市场来说都是最重要的问题。在线浏览和在线购买都变得非常容易估量。当你有估量方法,你就可以研究科学。在这种情况下,我这一代中最聪明的人则在推动科学的前?进。
但不幸的是,我人生中大部分有朝一日可以被解决的问题,都不会因更精准的广告而迎刃而解。我不确定如何整合我们的社会,才能让致力于解决长期挑战的人觉得自己得到了应得的回报,但是这是一个值得问出口的问题。
当然,广告之外现在已经有了大量的其他数据应用,我现在就能脱口而出那些公司的名字:GitHub让开发开源软件变得更容易;Kickstar让项目可以更快地获得资金支持;Rock Health和Imagine K-12在教育和资助下一代创业公司应该把更多目光投向医疗和教育领域的实际问题;Sage Bionetworks正在创造一个软件和数据的共享仓库,帮助疾病模型的建立和药品的开发;EyeWire用众包的方式研究大脑结构。有一些在线广告公司已经开源了工具包,比如Facebook的Open Compute项目就是其中很有意思的一个。
C:你现在工作的Cloudera有什么不一样?
H:Cloudera的特别之处在于,我们的软件可以和任何形式、任何规模的数据匹配,并且是开源的。我们希望可以在数据分析的基础上创造更为开放的平台。
我们的主要产品是Cloudera Enterprise,它是我们的资产管理软件Cloudera Manager最重要的组成部分。它的销售一路走红,让我们得以从小团队成长为200多人的公司,到今年年底可能会超过300人。做一个开源软件还能赚钱是一个让人兴奋的事情。最近我们新增了一些企业用户功能,比如可以让企业把被毁灭的数据恢复过来。
Cloudera更让人兴奋之处在于,许多公司的成功是建立在我们所提供的平台之上,投资我们的Accel公司很看好这个平台,它催生机遇,目前Accel在各种大数据领域的公司里投资了将近1亿美元。
C:你在硅谷看到数据挖掘的趋势是什么?
H:数据收据和数据挖掘最有趣的部分仍然发生在互联网公司之内,广告是构成这类公司营收最重要的部分。然而,在过去的几年里,这些公司当中有的已经成功地把开源工具商业化,创造了其他高收益的商业模式。我希望未来几年,会有更多的革新出现在这些公司里。
现在发生了很多有趣的事情。在人工智能方面,许多算法已经被隐藏到了开源软件平易近人的交互界面之下,比如Scikit-Learn,它能让用户很方便用各种模型做试验;还有像Vowpal Wabbit、Kaggle等等。
浏览器已经成为了数据可视化最棒的平台。JAVA Script, HIML5和WebGl,还有像D3和Crossfilter等实验室都让数以亿计的数据互动性更强、更可视化。当数据可视化在浏览器上实现了以后,合作将变得更便利,并随之催生出更多让人兴奋的新技术和工具。
我可以说出许多在数据搜集方面很有意思的工具:LearnStructure、SchemaDictionary、密歇根大学开发的Fisheye,还有斯坦福和伯克利大学合作研发的一个叫Data Wrangler的工具。
C:你现在怎么看待数据的价值?
H:我深信科学是社会一切美好事物的伟大来源。数据则是被科学管理着的世界的代表,因此收集越多的数据,我们就有能力做更多的科学研究。在广告于过去十年变得无比成熟的同时,许多产业甚至还没有进入数字时代。其中最突出的是医疗产业。我并不认为医疗产业在2030年还会如今天的情况一样驻足不动。在Cloudera,我们已经有了许多来自医疗行业的客户,同时我也希望我们能在这个进程中保持领先地位,因为医疗数字化这一天一定会到来。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在企业经营决策中,销售额预测是核心环节之一——无论是库存备货、营销预算制定、产能规划,还是战略布局,都需要基于精准的销售 ...
2026-03-09金融数据分析的核心价值,是通过挖掘数据规律、识别风险、捕捉机会,为投资决策、风险控制、业务优化提供精准支撑——而这一切的 ...
2026-03-09在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心工作,是通过数据解读业务、支撑决策,而指标与指标体系 ...
2026-03-09在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05数据治理是数字化时代企业实现数据价值最大化的核心前提,而CDA(Certified Data Analyst)数据分析师作为数据全生命周期的核心 ...
2026-03-05在实验检测、质量控制、科研验证等场景中,“方法验证”是确保检测/分析结果可靠、可复用的核心环节——无论是新开发的检测方法 ...
2026-03-04在数据分析、科研实验、办公统计等场景中,我们常常需要对比两组数据的整体差异——比如两种营销策略的销售额差异、两种实验方案 ...
2026-03-04在数字化转型进入深水区的今天,企业对数据的依赖程度日益加深,而数据治理体系则是企业实现数据规范化、高质量化、价值化的核心 ...
2026-03-04在深度学习,尤其是卷积神经网络(CNN)的实操中,转置卷积(Transposed Convolution)是一个高频应用的操作——它核心用于实现 ...
2026-03-03在日常办公、数据分析、金融理财、科研统计等场景中,我们经常需要计算“平均值”来概括一组数据的整体水平——比如计算月度平均 ...
2026-03-03在数字化转型的浪潮中,数据已成为企业最核心的战略资产,而数据治理则是激活这份资产价值的前提——没有规范、高质量的数据治理 ...
2026-03-03在Excel办公中,数据透视表是汇总、分析繁杂数据的核心工具,我们常常通过它快速得到销售额汇总、人员统计、业绩分析等关键结果 ...
2026-03-02在日常办公和数据分析中,我们常常需要探究两个或多个数据之间的关联关系——比如销售额与广告投入是否正相关、员工出勤率与绩效 ...
2026-03-02在数字化运营中,时间序列数据是CDA(Certified Data Analyst)数据分析师最常接触的数据类型之一——每日的营收、每小时的用户 ...
2026-03-02在日常办公中,数据透视表是Excel、WPS等表格工具中最常用的数据分析利器——它能快速汇总繁杂数据、挖掘数据关联、生成直观报表 ...
2026-02-28有限元法(Finite Element Method, FEM)作为工程数值模拟的核心工具,已广泛应用于机械制造、航空航天、土木工程、生物医学等多 ...
2026-02-28