京公网安备 11010802034615号
经营许可证编号:京B2-20210330
别被忽悠了,6个问题揭露谁是大数据伪砖家
我最近读了一些“大数据”方面的文章,发现了这个最新的科技泡沫中迷惑但是完全可预测的趋势。由于大数据很热门、时髦、并且性感,表面上看很有趣。每个人都加入进来,跃跃欲试,好像他们是专家一样。如果这让你开始觉得像是知识分子在Facebook上关于国际政治的演讲一样,这绝非意外。在大数据的讨论中掺杂的专业知识和经验,与Facebook上关于政治的空话一样。

我想我可能会帮你判断自己的大数据专家到底是不是真正的专家。看看下面的这些言论对你来讲是不是很熟悉呢。
1.他们谈论的都是”大“和”数据“,而不是 “新问题”
看上去好像整个科技行业都沉浸在 “大数据”之中。所有人都在讨论它,刚刚成立的公司如雨后春笋般出现,LinkedIn上99.9%的简历都包括”数据科学家“这个词语,然而人们并不清楚这个词语真正的意义是什么。
确实,大多数的公司在并没有太大的商业价值的硬件和软件上投入了大量的钱。这并不奇怪。”大数据“对于发生在我们身边的变革来讲是个糟糕的名字。这与”大“无关,与”数据“也无关,而是与新问题有关,接触海量的数据的方便性更促使了新问题的产生。去年我听过Klout网站(一个评价影响力的网站)的技术主任做的一个报告。他提到,他们的数据库有1.3万亿行的数据,就像是他们那里有那么多人一样;也智能如此吧。
如果你现在问的问题还是以前-----有没有更多的数据这种老问题,那并不是在做“大数据”,而是在做”大的商务智能”,这个词语本身就是矛盾。
2.他们谈论的是技术,而非商业
有一天有个人问我,“Hadoop 对数据归档有什么影响”。 Hadoop是一种工具,大数据是一个商业现象。很多人认为Hadoop是一种解决方法,大数据仅仅是在档案中蹲坐着的数据。错误的信息和销售宣传使人们迷失其中。
很容易这些人就陷入了速度和容量、特性与功能的讨论中。这项技术是由工程驱动的,没有什么比填的满满的的规格表更能引起我们这些工程师兴奋了。如果你是一个谨慎的CFO;世界上没有比一个招人嫉妒的软件架构师更昂贵的了。
很多企业现在问了在大数据中投入了这么多的资金,也要问了,“价值在哪儿?”好吧,如果你不将自己的项目聚焦到对商业问题的理解和解决上,那么你的项目所研究的出来的结果不大有可能是解决商业问题的方案。
你可能会建成世界上最大的云服务商,但是除了留给自己一点自夸的东西,谁又关心这个呢?从一个商业问题开始,弄清楚怎样将问题数据化,然后利用科技找到解决方法。
3.他们关心大数据更内在的东西,而不是行动
我合作过的很多机构将数据分析作为结果,完全忽视了大数据的重点:行动。你可以构造出世界上最大的云结构,将其填满最干净的数据,用最好的数学模型模拟,产生令人惊奇的见解。如果这些工作做完了之后,你还没有改变公司的行为方式,你的产品和服务可以帮助你的顾客做些什么呢,或者你是怎样关怀周围的世界的呢。终归到底,你会彻底失败。
大数据不能仅仅是新的见解,它必须是新的行动和新的结果。我并不是LHC的痴迷者,这个人类历史上最大的科学实验,最近确认了上帝粒子(Higgs粒子)的存在。然而,如果Higgs的知识没有赋予这个粒子一些意义,我们都将继续质疑在LHC上花费的数十亿美金是否值得。
洞察力很重要,但是行动才是养家挣钱的来源。如果你的“大数据专家”在提出新见解的路上乐此不疲,而不是想法设法创造新的商业成效。那你是在经营一个科学实验了。
4.他们讨论的是结论,而非联系
如果你已经从花费在大数据的努力中得到分析性结果了,你的“大数据科学家”在谈论的是“结论”,这一波的大数据专家很多并不理解联系和诱因之间的细微差别。两者看上去是一样的,然而涉及到行动时,这区别可大了去了。联系意味着在各事物之间有着存在着表面上的关系,预示着某个特定的输入也许会引起某些特定的结果。但是,在“联系”中不存在确定性。诱因就不一样了
只要记住,近似永远都是近似。
这对喜欢绝对的商业人士来说是当头棒喝;至少他们想要看上去是绝对的过程。好吧,在分析学中没有这样的事情。你的数据可能代表着一堆事实,但是分析学和统计学就如同剧院一样。你看到的不一定总是你得到的。确实,许多“数据学家”更倾向于是“数据操作工”。为支持某个议会给出政策上可接受的结果。
联系不能成为诱因。任何告诉你找到诱因的大数据专家应该被马上质疑直到其他方面证明他没有骗人。
5.他们讨论的是数据质量,而不是数据有效性
我看到花费在数据质量问题上的笔墨越来越多。你在用好的数据吗?你怎么知道,你怎样净化数据的呢?这些都是在数据库和业务智能联合论坛上的问题。数据质量是一个问题,在那么多的垃圾流进流出后。但是关注净化数据只是数据库的思维模式中的一部分。除此之外,还有一个价值数百亿美金的行业。他们关注提取-转化-上传这个整体,有这种思维模式的商人挣扎在将数据与现实世界联系起来的路上。
尽管数据质量重要,大数据有效性更重要;我究竟有没有回答我所提出的问题的有效数据呢?通常,答案会是“没有”。除非你问的是一个你们公司已经问了好几十年的老问题,这样的话,又何必问呢?
如果你问的是新数据的新问题,你怎样直到那些数据是好的,哪些又是坏的呢?你又将哪些数据定义为“干净”的,哪些又是“脏”的呢?直到你开始研究这些由新的分析产生的新结果,进而才能发现这些结果是好的还是坏的,你怎么可能在输入数据的时候定义哪些是干净的,哪些是脏的?
再一次,这是老套的跳出数据库/业务智能行业思维的方式,而且与新开发出来的大数据的领域不合适。许多分析都需要有效的数据,但是在判断数据是否有效前就问这数据是不是干净的是无论怎样都没有意义的。
6.他们听上去跟其他讨论大数据的人说的一样
我们被埋没在大数据的噪声中。确实,是需要一些人来研究大数据的真正意义。更多的,我听到的是同一个课题被一再的重复;只是被误解、被引错,要不就是在推动产品或服务的名义下变态发展。
这令人感到羞耻,因为大数据的背后是社会行为,而且将会一直这样。如果你的大数据专家不谈论这些数据背后的社会,行为模式,政治和经济的话,那你就错失良机了。这个技术很有趣,但是也只是一个找到更有意义的结论的方法。
生火这一技术的由来在过去的一百万年间都很有趣,但是黑夜的结束,冬季的温暖以及炖出来的第一罐汤才是真正改变了一切东西!
如果你的“大数据专家”不能明白这个,那他们永远也不能明白了,你也是。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22