京公网安备 11010802034615号
经营许可证编号:京B2-20210330
忘记“大数据”,从“中数据”开始
业界对“大数据”这一概念的质疑声从来就没有停止过,很多人认为它只是一个过度炒作的营销泡沫。确实,单就数据的体量而言,大多数企业并没有Google, Facebook那样的PB级数据。 那么, 大数据究竟有没有意义呢? 数据分析专家Tom Anderson最近给出了一个概念叫“中数据”,根据他的划分, 数据集数据量在10万以下的称为“小数据”, 数据集在1000万以上的称为“大数据”,而在二者之间的称为“中”数据。 Tom Anderson认为, 企业进行数据分析的投资收益率在“中”数据范围内是最高的。 以下是IT经理网编译Tom Anderson的博文:
在我参加了这个星期的美国营销协会的第一届大数据的研讨会后,我更加坚信了我这几年与许多财富1000强企业的营销人员沟通后的一个看法。 那就是:
很少有公司能够分析到所谓“大”数据的量级,而事实上它们也并不需要。 其实, 大部分公司应该开始考虑如何从“中”数据开始。
大数据,大数据, 大数据, 人们到处在谈它, 其实我发现, 真正处理“大”数据的研究者其实很少。 我认为我们应该把“大数据”的概念范围缩小。 引入一个新的更有意义的名词:“中”数据来描述我们目前的大数据热潮。
要了解什么是“中”数据,进而理解大数据, 我们得先知道什么是“小”数据。
“小数据”
上面的图简单地按照数据记录的规模或者说样本的规模对数据的“大”“中”“小”进行了划分
小数据可以包括从定性研究的某个访谈到几千个调查问卷的结果。在这个规模上, 定性分析和定量分析可以从技术上结合起来。 而这两者都不能称之为现在定义的“大数据”。 目前对大数据的定义随着企业对数据的处理水平的不同而不同。通常的的大数据定义指的是用现有普通软件很难分析的数据量。
而这个定义是从IT或者软件提供商的角度来说的。 它描述了企业无法利用现有能力, 必须进行大量硬件软件升级进行有价值的数据分析的情况。
中数据
那么,什么是中数据呢? 进入大数据时代, 有些我们认为是小数据的数据集可能会迅速成长为大数据。 比如 3万到5万条用户满意度调查记录可以用类似IBM的SPSS软件分析。 可是, 如果把这些数据集中加入了用户的评论这样的文本数据, 同样的分析可能就会变得缓慢了。 这同样的数据集现在需要更长的时间来分析,甚至可能导致分析软件崩溃。
如果我们把同样的文本数据用文本挖掘的方式处理的话,新加入数据集的数据将会极大地增加数据量。 这常常就会被认为是大数据, 需要更加强大的软件来处理它。 不过, 我认为, 一个更准确的描述应该是“中”数据, 它其实只是真正大数据的起步阶段(这与IT经理网之前的文章“大数据需大处着眼,小处着手”中的观点不谋而合)。而且对于这个规模的数据量, 其实还是有很多简单的处理手段的。
大数据
好了,我们把大数据的一部分切出来叫做“中”数据。 现在, 我们可以重新定义“大”数据了。
为了理解“大”数据与“中”数据的区别, 我们需要考虑一些不同的维度。 Gartner的分析师Doug Laney曾经对大数据有一个著名的描述, 把大数据分为3个维度:规模(Volume), 种类(Variety)和 速度(Velocity), 通常叫做3V模型。
在理解“中”数据与“大”数据的区别时, 我们只需要考虑两个因素, 成本与价值。
成本(以时间计量或者按照金钱计量)与期望价值构成了所谓的投资收益率(ROI)。 这也可以应用于大数据项目的可行性研究。
我们知道, 有些数据天然的比其他数据具有更高的价值。 (100个客户投诉邮件可能比1000个微博上提到你的产品比起来, 对你的运营分析更有价值。) 当然, 有一点是肯定的: 没有经过分析的数据是没有价值的。
相对于“中”数据来说, “大”数据或者说“真正的大”数据量的分界点在于, 对于分析进行的投入, 相对成本(包括可能从中发现不了什么的风险)来说,并不具有吸引力。 比“中”数据更大的数据量来说, 大数据分析要么并不现实, 要么对企业来说ROI太低。
而“中”数据则是正好在数据分析的最佳范围内, 可以在相对可控的预算前提下进行有价值的分析。
对于很多市场研究人员来说, “中”数据才是一个真正能够提供有价值, 有足够ROI的分析目标。 而真正“大”数据分析, 则会呈现递减的ROI。
在最近我去德国的一次出差中, 我有幸遇到了一位在欧洲核子研究中心从事大型对撞机项目的科学家。 相对于大型核子对撞机来说, 普通的商业企业不需要像那样的软件和硬件来进行那个规模的大数据分析。 对撞机的1亿5千万个传感器每秒钟产生4000万条数据。 而实际上, 即使是欧洲核子研究中心的科学家们, 也不会去分析如此打规模的数据量。 他们在分析前过滤掉来99.999%的粒子对撞数据!
对我们普通企业来说, 对消费者的分析相对简单得多。 对于数据或者文本挖掘, 我们不需要EB或者PB级别的处理能力或者在数以千计的服务器上跑大型并发软件, 目前其实有一些很好的软件能够处理我们一般企业的“中”数据需求。 一提到大数据, 媒体常常提到的是亚马逊, 谷歌或者Facebook。 就算是这些案例中(很多 听上去更像是IT销售鼓吹的科幻小说), 也并没有提到这些公司在数据分析中实际使用的样本的量。
就像欧洲核子研究中心的科学家发现的那样, 相对一股脑处理全部数据的做法, 更重要的是能够正确的分析对研究相关的那部分重要数据。
那么, 读者可能会问“既然‘中’数据比‘大’数据更加具有吸引力, 为什么我们分析‘小’数据不是更好吗?”
这里的关键是, 随着数据量的增加, 我们不但可以对分析结果更加具有信心, 而且可能会发现一些传统的“小”数据所不能发现的现象。 对市场分析来说, 这可能意味着发现了一个新的细分产品市场或者竞争对手的新动向, 对药物研究来说, 可能意味着发现一些小的人群细分与某些癌症的高风险关联 从而拯救生命。
“中”数据应该被更加明确的定义, 而且也需要更多的最佳实践。 不幸的是, 经常有一些企业的CEO或者CIO会要求IT人员“采集所有的数据, 全面分析数据”。 这样的过程, 他们其实在制造真正的“大”数据, 这种数据量常常是超过需要的。 这就产生了我一直在提的ROI的问题。 追求真正的“大”数据常常不能给你带来任何优势。 经验丰富的“小”数据或者“中”数据的分析人员知道, 对于“大”数据的分析常常是没有满意结果的。 而相对投入的成本来说, 从ROI的角度是不值得的。
因此, 对于“大”数据分析而言, “中”数据才应该是我们真正需要瞄准的目标。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16