京公网安备 11010802034615号
经营许可证编号:京B2-20210330
我们都是大数据的俘虏_数据分析师
在大数据面前,“一切稳固的东西都烟消云散,一切神圣的东西都将被亵渎”。刚刚过去的世界杯,就是最好的例证。
今年没有“章鱼帝”,但有“乌贼刘”和大数据公司的“对赌”。最终理工男设计的数学模型挫败了美女的好运气,央视体育频道主播刘语熙不敌百度。
就在巴西世界杯的另一个赛场上,微软、谷歌等国内外技术巨头和大投资银行高盛、德意志银行乃至彭博等,纷纷登台角逐,初试大数据预测。
百度脱颖而出,在14场淘汰赛和总决赛预测中,准确度达到100%。即使在频爆冷门的小组赛中,百度预测准确率也达到58.33%。而微软的准确率也达到56.25%。
人们不禁惊呼并大胆联想:在大数据面前,互联网公司完胜华尔街。2014年世界杯将成为一个新起点:大数据业务正式从单纯的技术走入日常生活的实际应用。
目前,全球都在制定具体措施发展大数据业务,将之应用于医疗、能源、农业等各个领域。毫无疑问,大数据将在未来扮演越来越重要的角色。在此背景下,如何充分利用大数据、借助大数据掘金,成为所有行业,特别是传统行业关注的焦点。
当我们的情感都可以被衡量、预测,大数据就将俘虏一切。
这个夏天,足球,绝对是运用大数据最领先、最成功的领域。
抛开预测比分之类的“业余活动”,对捧回大力神杯的德国队来说,大数据分析犹如被安插上场的“第12人”——据透露,德国队在赛前就“私人定制”了一款名为“比赛洞察力”的足球解决方案,其核心就是大数据分析。
放眼球场之外的世界,大数据正在开启一次重大的时代转型——通过渗透各行各业的核心职能领域,成为社会的重要生产因素。
“就像望远镜能让我们感受宇宙,显微镜能让我们观测微生物一样。大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正在蓄势待发……”
《大数据时代》一书的作者舍恩伯格一再提醒读者:大数据时代不再是追求因果的时代,而更多是追求相关性,我们正在进入一个“有时候是什么比为什么更重要”的时代。这是一场思维的变革。
大数据“正解”
“大数据”这三个字叫错了?!
阿里巴巴首席技术官王坚在《大数据时代》的研讨会上,以一场颠覆性的讲话,抛给大家一个问题:大数据到底是什么?
与会的还有这本书的作者舍恩伯格,可他也从未能给大数据下一个确切的定义。
这正是大数据时代的特征:其本身定义都将随着时代不断被更新。
尽管王坚没有给出明确答案,但他提出一个有意思的观点:今天的数据不是大,真正有意思的是数据变得在线了,这恰恰是互联网的特点。数据分析古已有之,但如果是记录在纸上,记录在磁带上,“与在线就有着天壤之别”。
刚刚结束的世界杯的确让人感受到“在线”的威力,草根战胜博彩公司的案例越来越多。彩票宝网站上大名鼎鼎的“xxiu1121”是个85后女孩,世界杯期间收获颇丰。数据显示,“xxiu1121”猜中61场比赛,准确率接近70%。在博彩行业,这个数字堪称奇迹,连专业人士都很难想象。
这位85后彩迷坦言,“百度大数据”对她帮助很大。
“xxiu1121”所说的“百度大数据”,是指百度推出的世界杯预测产品。据称,这个产品综合了过去5年内全世界987支球队的3.7万场比赛数据以及469家欧赔公司的赔率数据。“xxiu1121”击败专业博彩公司正是借助百度免费、开放、在线的数据分析。
数据免费、开放、在线令以往博彩公司凭借信息不对称占据的优势被迅速抹平。利用大数据帮助投注者“击败庄家”的分析公司正不断涌现。
英国一家名不见经传的Betegy公司称,可以通过一种复杂算法,准确预测90%的英超比赛结果。
Betegy公司称,普通人只要用不到400英镑买下一台存储容量为1Tb的电脑,就有足够能力去建立十分复杂的模型。客户可以装载各种不同的统计数据和已知结果,从而实现类似神经网络这类尖端技术。该软件会根据所有可用数据建立“最佳匹配”模型,结果10次中有9次会击败专家。
摧毁“旧格局”
越来越多的行业因大数据介入开始变得“晃晃悠悠”,在线的数据悄然改变着所有稳固的格局。
如打车软件,通过乘客需求以及出租车空车率等数据,反过来影响承运行业,这远比过去出租车公司对司机的影响更直观。
再比如,预测美国总统当选的盖勒普调查,很可能被Twitter干掉。现在无需派发纸质调查问卷,只要在社交媒体上做调查就可以预测谁会当选总统了。
同时,市场上还出现了基于社交媒体Twitter的对冲基金,Derwent Capital Markets创始人保罗·赫汀认为,用在线数据可以量化贪婪与恐惧,从而作出更理性的决策。
值得一提的是,过去数次科技革命中,中国均是学习者,而这一次,中国与世界最先进水平的差距比以往任何时候都要小,甚至站到了最前沿。
在大数据与人工智能结合的领域,百度暂时将微软、谷歌等大腕甩在身后。在国内,有更多的“百度们”正在演绎一次“中国式抢跑”,公共卫生、文化产业、理财投资等更多传统领域与大数据分析不断融合,打开跨界应用的空间。
未来十年,还有哪个行业可以增长十倍?是汽车、房地产还是服装?答案都是否定的。新希望集团董事长刘永好在搜狐财经夏季峰会上提出问题并回答了问题:基于大数据和云计算的行业完全有可能增长十倍。
这种判断有数据作为支撑。据赛迪顾问统计,以2012年作为大数据技术发展元年,当时国内大数据市场规模为4.5亿元,但到2016年预计将达到百亿以上,从2014年开始年增速几乎每年超过100%。
目前大数据主要涉及10个领域,包括数据处理、分析环节、综合处理、语音识别、视频识别、商业智能软件、数据中心建设与维护、IT咨询、方案实施、信息安全等,而提供平台系统以及数据分析的则更被市场看重。
缔造“新秩序”
大数据不仅会摧毁旧格局,还可以打破几乎一切行业的固有边界。新希望集团董事长刘永好就深谙此道。
虽然无缘做成销售行业的阿里巴巴,但刘永好渴望布局一个大健康产业的平台系统。
“我们投资了一个远程医疗,做硬件也做很多软件,更重要的是,我们跟很多医院达成协议,在远程医疗方面做了相当多的工作,这是未来的方向。”刘永好透露。
仔细梳理刘永好的布局,其远程医疗最早布局始于2013年11月份,他与冯仑等成立了中国医疗健康产业策略联盟(简称“医健联”)。2014年4月份,新希望集团出资1亿元收购了中国香港上市公司华夏医疗19.5%股份;2014年5月份,新希望旗下的厚生投资出资近2亿元,成为浙江好络维医疗技术有限公司的第二大股东。
新希望勇敢的跨界投资,背后潜藏着传统产业搭上大数据分析后,迅速拓展的市场空间。
现在就连新希望这样的“外行”都来抢食,IT尖兵就更加不淡定了。
近日,朗玛信息(300288,股吧)收购39健康网,欲抢占大数据分析市场。朗玛信息看重的正是39健康网1.2亿人次/月的用户群体及广泛的三甲医院、知名医师资源,朗玛通过收购获取了流量入口及海量的数据。
新希望和朗玛信息仅是大数据平台以及大数据分析领域的两个个案,在诸多传统领域更多的大数据故事正在上演。现在百度的合作伙伴不仅有指数基金,也有文化产业公司。如果说传统产业之间的边界是相对分明的,那么大数据则不会过多顾忌这些“界限”,大有无孔不入的趋势。
信达证券分析师边铁城认为:“大数据无论是在政府和军事应用,还是在零售业、制造业以及涉及个人位置服务等领域都有望得到广泛应用,并产生巨大的社会价值和产业空间。”数据显示,目前大数据概念主要涉及平台系统、数据分析、专用设备等领域,有些上市公司甚至涉及多个领域。
目前,几乎所有产业都站在大数据时代的门口,希冀寻求一条另类的升级道路。据外媒报道,近日欧盟正在制定大数据产业政策,采取具体措施发展大数据业务。就连苹果这样以高科技闻名的公司也开始寻求大数据升级方案。
本周二,苹果和IBM宣布,两家公司已经达成一项排他性的合作协议,未来将联合双方的市场领先优势,创造一种新类别的商务应用,将IBM的大数据和分析能力带给iPhone智能手机和iPad平板电脑,从而改造整个企业移动市场。
被“俘虏”的思维
1996年,美国计算机专家尼葛洛庞帝在《数字化生存》一书中预言,互联网将最先改变销售、出版、汽车和医疗事业。现在,大数据分析迅猛发展将预言变为现实。
国际咨询机构的数据显示,近两年产生的数据总量等于人类有史以来产生的数据量总和。
数据不再是静止、陈旧的,而成为一种商业资本,一项重要的经济投入,可以创造新的经济利益。
最近两年,从地产到医疗,从文化到金融,“互联网思维”被反复提及。无论如何应用,互联网思维离不开大数据分析,大数据的价值在于提供了多维度、多来源、多形式的数据,能更完整、全面和客观地描述我们所要研究的对象。
如果这样描述过于抽象,那么近期诞生的“南方新浪财经大数据策略指数”就是这种多维度、多来源的实证。
该指数正是基于投资者在互联网上的互动情况,编制的一项更多维度、多来源、多形式的“恐慌指数”。除了市场变动数据之外,其信息来自新浪股票频道、财经新闻、股吧论坛,尤其是微博相关财经账号。全方位展现投资者与股票间的互动情况,隐含了海量的投资辅助信息。
而此前被市场熟悉的芝加哥期权交易所波动性指数(VIX)仅反映的是市场的波动,对于人的分析是缺位的。
可见,互联网思维颠覆的并不是指数,而是我们对指数的认知。魔鬼往往藏于细节之中,原来被认为是草根论坛的“股吧”、“微博”、“论坛”却成为最新编制指数的依据。
大数据时代不再是追求因果的时代,而更多是追求相关性,我们正在进入一个“有时候是什么比为什么更重要”的时代。这就是一种思维的变革。(文章来源:CDA数据分析师)
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
箱线图(Box Plot)作为数据分布可视化的核心工具,能清晰呈现数据的中位数、四分位数、异常值等关键统计特征,广泛应用于数据分 ...
2026-01-28在回归分析、机器学习建模等数据分析场景中,多重共线性是高频数据问题——当多个自变量间存在较强的线性关联时,会导致模型系数 ...
2026-01-28数据分析的价值落地,离不开科学方法的支撑。六种核心分析方法——描述性分析、诊断性分析、预测性分析、规范性分析、对比分析、 ...
2026-01-28在机器学习与数据分析领域,特征是连接数据与模型的核心载体,而特征重要性分析则是挖掘数据价值、优化模型性能、赋能业务决策的 ...
2026-01-27关联分析是数据挖掘领域中挖掘数据间潜在关联关系的经典方法,广泛应用于零售购物篮分析、电商推荐、用户行为路径挖掘等场景。而 ...
2026-01-27数据分析的基础范式,是支撑数据工作从“零散操作”走向“标准化落地”的核心方法论框架,它定义了数据分析的核心逻辑、流程与目 ...
2026-01-27在数据分析、后端开发、业务运维等工作中,SQL语句是操作数据库的核心工具。面对复杂的表结构、多表关联逻辑及灵活的查询需求, ...
2026-01-26支持向量机(SVM)作为机器学习中经典的分类算法,凭借其在小样本、高维数据场景下的优异泛化能力,被广泛应用于图像识别、文本 ...
2026-01-26在数字化浪潮下,数据分析已成为企业决策的核心支撑,而CDA数据分析师作为标准化、专业化的数据人才代表,正逐步成为连接数据资 ...
2026-01-26数据分析的核心价值在于用数据驱动决策,而指标作为数据的“载体”,其选取的合理性直接决定分析结果的有效性。选对指标能精准定 ...
2026-01-23在MySQL查询编写中,我们习惯按“SELECT → FROM → WHERE → ORDER BY”的语法顺序组织语句,直觉上认为代码顺序即执行顺序。但 ...
2026-01-23数字化转型已从企业“可选项”升级为“必答题”,其核心本质是通过数据驱动业务重构、流程优化与模式创新,实现从传统运营向智能 ...
2026-01-23CDA持证人已遍布在世界范围各行各业,包括世界500强企业、顶尖科技独角兽、大型金融机构、国企事业单位、国家行政机关等等,“CDA数据分析师”人才队伍遵守着CDA职业道德准则,发挥着专业技能,已成为支撑科技发展的核心力量。 ...
2026-01-22在数字化时代,企业积累的海量数据如同散落的珍珠,而数据模型就是串联这些珍珠的线——它并非简单的数据集合,而是对现实业务场 ...
2026-01-22在数字化运营场景中,用户每一次点击、浏览、交互都构成了行为轨迹,这些轨迹交织成海量的用户行为路径。但并非所有路径都具备业 ...
2026-01-22在数字化时代,企业数据资产的价值持续攀升,数据安全已从“合规底线”升级为“生存红线”。企业数据安全管理方法论以“战略引领 ...
2026-01-22在SQL数据分析与业务查询中,日期数据是高频处理对象——订单创建时间、用户注册日期、数据统计周期等场景,都需对日期进行格式 ...
2026-01-21在实际业务数据分析中,单一数据表往往无法满足需求——用户信息存储在用户表、消费记录在订单表、商品详情在商品表,想要挖掘“ ...
2026-01-21在数字化转型浪潮中,企业数据已从“辅助资源”升级为“核心资产”,而高效的数据管理则是释放数据价值的前提。企业数据管理方法 ...
2026-01-21在数字化商业环境中,数据已成为企业优化运营、抢占市场、规避风险的核心资产。但商业数据分析绝非“堆砌数据、生成报表”的简单 ...
2026-01-20