京公网安备 11010802034615号
经营许可证编号:京B2-20210330
IT从来是寂寞的,它没有鲜亮的外表和跌宕的故事供人消费。但借着大数据的东风,IT变得火热起来。各行各业都开始用大数据告诉你来造句。顺着所有公司都是IT公司的逻辑,那么,说什么都是在说大数据。
大数据在受到热捧的同时,受到的批评也不少。近日,一篇《大数据、大安利》的文章总结了几点国外对大数据滥用的批评,原文附录如下:
1,无意义的显著性:没有理论的大数据是皮毛,只看到显著相关性,但不经检验,没有理论,这样的相关是没有意义的,或许是虚假。关键是:大数据的data point太多,在计算上找到两个矢量的显著关系极其容易,但正是因为数据量大,控制虚假关系反而更难,这是一个两难。我有一篇文章投出去,匿名评审说:样本很大,当然能找到显著相关,但是看不出意义。
2,采样方法问题:统计学家方凯撒总结了一个现象,谷歌、facebook等网络收集的数据,往往不具有同质性,是在不同的时间用不同的资源收集,随后把整个数据合并起来,结果大数据内部许多部分的数据根本不是用同样的方法收集的,统计抽样的基本假设都被推翻了。而且网络数据和线下数据的内容不一致,比如华尔街邮报的电子版和纸版就不一样,而且用户可以自定义内容。
3,机器语言不稳定:谷歌最开始用关键字预测感冒流行地区,开始说比疾控中心预测的还准,但后来越来越不准。有人认为这是谷歌的搜索算法在不停地改进,所以自动收集数据不稳定了。另外机器语言一旦被误导会越错越离谱,比如谷歌翻译是根据真实的文章总结的,但是有些网络的真实翻译其实是谷歌翻的,于是谷歌会把自己的翻译基于这些真实文章上。
当企业提到大数据的时候,往往希望把全部数据收集起来,加以分析,这也是理想场景下的大数据分析应用。但很多时候,企业会受到技术和成本的掣肘,仍然采用抽样分析。实际抽样中往往需要分层,分层抽样的情况下,后期统计运算都必须一个权重,权重是和该层被选择的概率成反比的。一个分层的权重高,在分析中就不可忽视。大数据的问题是它只能收集到权重低的数据。
现实生活中也是这样,最容易研究的对象往往最无聊,心理学经常上课找大学生做实验,所以现在以大学生为样本的文章很难发表了。因此,有时大数据虽然大,却往往不重要。
无独有偶,《黑天鹅》一书也说到,决定社会变革的大部分是帕累托分布,并不是钟形分布,这表面上看来暗合了数据越大越不重要的观点。但实际上是对大数据的使用者有了更高的要求,怎样在海量的数据里挑选出看似风马牛不相及的变量联系在一起得出结论。
大数据因为概念松散,理论欠缺,被填充进了太多的假象。如何结合具体的应用场景,满足业务需求才是企业内大数据技术落地的正确方向。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
箱线图(Box Plot)作为数据分布可视化的核心工具,能清晰呈现数据的中位数、四分位数、异常值等关键统计特征,广泛应用于数据分 ...
2026-01-28在回归分析、机器学习建模等数据分析场景中,多重共线性是高频数据问题——当多个自变量间存在较强的线性关联时,会导致模型系数 ...
2026-01-28数据分析的价值落地,离不开科学方法的支撑。六种核心分析方法——描述性分析、诊断性分析、预测性分析、规范性分析、对比分析、 ...
2026-01-28在机器学习与数据分析领域,特征是连接数据与模型的核心载体,而特征重要性分析则是挖掘数据价值、优化模型性能、赋能业务决策的 ...
2026-01-27关联分析是数据挖掘领域中挖掘数据间潜在关联关系的经典方法,广泛应用于零售购物篮分析、电商推荐、用户行为路径挖掘等场景。而 ...
2026-01-27数据分析的基础范式,是支撑数据工作从“零散操作”走向“标准化落地”的核心方法论框架,它定义了数据分析的核心逻辑、流程与目 ...
2026-01-27在数据分析、后端开发、业务运维等工作中,SQL语句是操作数据库的核心工具。面对复杂的表结构、多表关联逻辑及灵活的查询需求, ...
2026-01-26支持向量机(SVM)作为机器学习中经典的分类算法,凭借其在小样本、高维数据场景下的优异泛化能力,被广泛应用于图像识别、文本 ...
2026-01-26在数字化浪潮下,数据分析已成为企业决策的核心支撑,而CDA数据分析师作为标准化、专业化的数据人才代表,正逐步成为连接数据资 ...
2026-01-26数据分析的核心价值在于用数据驱动决策,而指标作为数据的“载体”,其选取的合理性直接决定分析结果的有效性。选对指标能精准定 ...
2026-01-23在MySQL查询编写中,我们习惯按“SELECT → FROM → WHERE → ORDER BY”的语法顺序组织语句,直觉上认为代码顺序即执行顺序。但 ...
2026-01-23数字化转型已从企业“可选项”升级为“必答题”,其核心本质是通过数据驱动业务重构、流程优化与模式创新,实现从传统运营向智能 ...
2026-01-23CDA持证人已遍布在世界范围各行各业,包括世界500强企业、顶尖科技独角兽、大型金融机构、国企事业单位、国家行政机关等等,“CDA数据分析师”人才队伍遵守着CDA职业道德准则,发挥着专业技能,已成为支撑科技发展的核心力量。 ...
2026-01-22在数字化时代,企业积累的海量数据如同散落的珍珠,而数据模型就是串联这些珍珠的线——它并非简单的数据集合,而是对现实业务场 ...
2026-01-22在数字化运营场景中,用户每一次点击、浏览、交互都构成了行为轨迹,这些轨迹交织成海量的用户行为路径。但并非所有路径都具备业 ...
2026-01-22在数字化时代,企业数据资产的价值持续攀升,数据安全已从“合规底线”升级为“生存红线”。企业数据安全管理方法论以“战略引领 ...
2026-01-22在SQL数据分析与业务查询中,日期数据是高频处理对象——订单创建时间、用户注册日期、数据统计周期等场景,都需对日期进行格式 ...
2026-01-21在实际业务数据分析中,单一数据表往往无法满足需求——用户信息存储在用户表、消费记录在订单表、商品详情在商品表,想要挖掘“ ...
2026-01-21在数字化转型浪潮中,企业数据已从“辅助资源”升级为“核心资产”,而高效的数据管理则是释放数据价值的前提。企业数据管理方法 ...
2026-01-21在数字化商业环境中,数据已成为企业优化运营、抢占市场、规避风险的核心资产。但商业数据分析绝非“堆砌数据、生成报表”的简单 ...
2026-01-20