京公网安备 11010802034615号
经营许可证编号:京B2-20210330
为什么我们应该杀死“大数据”?
大数据在今年是很火的一个概念,这个概念不同的人有不同的见解。然而我们对大数据的关注是不是有点偏离了正常的轨道呢?现在许多的讨论都是围绕着“大数据”这个词来展开,人们似乎忘记了大数据是要为我们解决实际问题的,我们更应该讨论贴近实用的方面。
老实说我以前是一个经常滥用大数据这个词的人,似乎每一个新成立的企业都与大数据有关,就连风险投资公司也更愿意投资关于大数据的公司。
为什么我现在越来越不喜欢“大数据”这个词了?因为我认为这个词条本身是落伍的,它的定义由一系列的单词构成,但这些单词并没有正确的反映了目前数据界发生了什么。现在,我们应该考虑的不是“大数据”,而是应该想一想我们能用数据做些什么。这些与运用分层数据创建的应用有关,也与这些应用能体现的深层意义有关。我不是第一个对大数据的夸夸其谈感到厌烦的人,我与大量的投资者、数据专家以及企业家聊过,很多人与我有同样的感受。
根据Vincent Mcburney的说法,“大数据”一词起源于宾夕法尼亚大学的Francis Diebold,他在2000年7月写的一篇关于金融建模的文章中首度提及此词。从那时到现在已经超过了10年的时间,在此期间关于人们该如何运用大数据,发生了太多的事情。
大数据不仅仅只与大企业有关。事实上任何一个公司,从Facebook、Twitter这种巨人公司到Cloudera、Box、Okta这种快速发展的创业公司都是大数据公司,依照大数据的定义来看。每个有着一定用户规模的公司都在搜集大量的数据,也就是“大数据”。在一个数据是产品创新关键的世界,成为一个“大数据”公司并不算什么独特的事,老实说一点都不能说明一个公司的具体状况。
根据IBM,大数据包括四个方面:数量、速度、多样化以及真实性。在这个充满了社交网络、电子商务以及企业数据存储的世界,这些因素在许多领域都有被应用到。大数据真的不能代表全部,既然我们有这么多不同的方法来筛选及使用这些大量数据的话。
这并非是低估在整理、分析大量数据方面创新的重要性。事实上,许多产业的未来,包括电子商务与广告,都要依赖于对数据的处理。像GoodData、Infochimps、Moat等这些创业公司,都在研究让数据能更好的为人所用的方法。
另一点值得指出的是,在大数据这个词发明之前,像IBM、大型零售商、金融巨头等大型企业就已经开始在分析大量数据上面花时间了。所以让我们思考出另外一种方式来描述需要处理大量数据的创业公司吧,或许是和应用的实际功能与数据的对比有关。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
逻辑回归是数据分析、机器学习、统计建模中应用最广泛的二分类预测模型,常用于风险判断、行为预测、归因分析等场景。在SPSS、Py ...
2026-06-02数字经济时代,市场竞争日趋同质化,用户消费需求愈发个性化、多元化,传统依托经验、粗放式、广撒网的营销模式弊端日益凸显。长 ...
2026-06-02 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-06-02在市场竞争日趋饱和、用户需求不断细分的当下,企业创业创新、产品迭代与市场拓展不再依赖经验决策,而是需要系统化、工具化的商 ...
2026-06-01【核心关键词】调度、岗位、数据库、企业、报表、培训、程序、数据分析、数据加工、业务部门、企业数据、调度工具、业务指标、 ...
2026-06-01 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-06-01在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-05-29【核心关键词】大数据、经理、专业、金融、客户、传统、建模、数据产品、互联网金融、产品经理、数据分析、金融行业、数据模型 ...
2026-05-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-05-28随着大数据技术的快速普及,各行各业积累了海量的用户数据、交易数据、生产数据与行为数据。单纯的数据统计与报表分析只能呈现表 ...
2026-05-28在Python网络请求、接口测试、数据爬取、业务对接开发中,Requests库是最简洁、最高效的HTTP请求工具,凭借简洁的语法、完善的适 ...
2026-05-272025 年,零售与服务行业的竞争已从 “经验驱动” 全面转向 “数据驱动”。中小企业门店普遍面临数据零散、分析浅层、决策凭感觉 ...
2026-05-27 很多数据分析师每天都在写SQL,但当被问到“数据查询语言(DQL)的本质是什么”“SELECT语句中各子句的书写顺序与实际执行顺 ...
2026-05-27在统计学分析、实验研究、业务数据复盘过程中,单因素方差分析是检验自变量对因变量是否存在显著影响的核心方法。其中,两个水平 ...
2026-05-26【核心关键词】算法、客户、大数据、互联网、调优、建模、模型优化、机器学习、评分卡模型、模型开发、智能风控、业务场景、数 ...
2026-05-26 很多数据分析师写过无数个 SELECT,但当被问到“新建一张表,该如何定义字段类型来保证数据质量”“创建视图和存储物理表有 ...
2026-05-26在数据清洗、统计分析与数据质量检测工作中,箱型图(又称箱线图、Box Plot)是最直观、最高效的可视化分析工具之一。相较于柱状 ...
2026-05-25在大数据分析、数据清洗、质量管控、风险监测等领域,异常数据识别是保障数据质量、确保分析结论精准、规避业务决策失误的核心基 ...
2026-05-25