
大数据能否破解数据造假难题_数据分析师考试
大数据是近年来的一个热词。什么是大数据分析?通俗地讲,就是运用一些数据分析软件工具,对海量的、混杂的数据进行分析,在融合丰富的实践基础上,运用创造性思维,得出突破性的结论。大数据包括3个特征:一是具有海量的、混杂的基础数据;二是熟练运用Hadoop和Spark等分析软件工具;三是具有开放的、有创造性的思维方式。只有具备了这3项,才能真正做好大数据分析。
大数据和以前的数据分析有3个明显的区别:一是原来的数据分析针对部分样本,大数据是所有的数据都要参与计算;二是大数据中,相关关系重于因果关系;三是大数据允许混杂数据甚至错误数据。
我们得到海量数据后,首先,要对这些数据进行本体分析,即对其本身进行分析,如污染源数据、环境质量数据等。其次,要做扩展分析,如分析清楚污染源数据和环境质量有什么关系。第三,要做延伸分析,即将污染源数据、环境质量数据和经济数据、人口数据、产业结构的数据结合起来进行分析。如果不做这些分析,就不算是大数据分析,或者说做不好大数据分析。
中国环境报:您刚刚谈到,大数据允许混杂数据甚至错误数据,这是为什么?
林宣雄:大数据允许混杂数据甚至错误数据。这是因为,大数据能够通过造假数据的特征将其辨识出来。造假的数据和平常的数据不一样,可以通过环比、同比、类比,发现数据中的异动,判断企业是否存在数据造假行为。
目前,通过线上、线下数据对比,能够迅速发现企业偷排行为。一个真实的案例是,某公司焦炉烟囱二氧化硫自动监控数据长期稳定在20mg/m3。但现场人工监测发现,实际数据为100mg/m3~200mg/m3,检查前后自动监控数据差距较大。经调查证实,企业擅自拔出部分二氧化硫测量探头,使采样孔漏气,稀释排放污染物,人为干扰采样装置、降低测量数据,造成监控数据失真。针对公司的违法行为,环保局依法对企业下达了处罚决定书,对企业存在的超标排放、干扰自动监控数据行为,分别给予6万元、3万元处罚,追缴2015年第一季度焦炉烟囱二氧化硫排污费,启动按日计罚程序,公安局对涉嫌违法的主管人员和其他直接责任人作出了行政拘留10日的行政处罚。
目前,我们正通过分析数据异常波动为环保部门精准执法提供线索。例如,我们每周都要为浙江省嘉兴市环保局提供一份在线数据出现异动的企业名单,环保局可以根据这份名单,有针对性地执法检查,执法效率可大大提高。
中国环境报:据您了解国外有没有通过大数据研究,发现环保数据造假的案例?
林宣雄:目前,国外大数据在环保领域还没有典型案例。这是因为,一些发达国家的环境问题已经得到了较好解决,而大数据的概念是这几年才提出的。但大数据应用在国外有一个经典案例,值得借鉴。2009年,甲型H1N1流感暴发的几周前,谷歌公司通过对运用谷歌软件搜索流感相关信息的人群进行分析,成功地预测了流感在美国境内的传播,其分析结果甚至具体到特定的地区和州,并且非常及时,令公共卫生官员倍感震惊。因为通常来说,美国疾病控制中心要在流感暴发一两周之后才可以做到这些。
大数据拥有如此大的威力,对于环境问题十分严峻的我国来说,其应用意义更加巨大。将大数据应用于环保领域,也将成为我国的一大创新。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
MySQL 执行计划中 rows 数量的准确性解析:原理、影响因素与优化 在 MySQL SQL 调优中,EXPLAIN执行计划是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 对象的 text 与 content:区别、场景与实践指南 在 Python 进行 HTTP 网络请求开发时(如使用requests ...
2025-09-15CDA 数据分析师:激活表格结构数据价值的核心操盘手 表格结构数据(如 Excel 表格、数据库表)是企业最基础、最核心的数据形态 ...
2025-09-15Python HTTP 请求工具对比:urllib.request 与 requests 的核心差异与选择指南 在 Python 处理 HTTP 请求(如接口调用、数据爬取 ...
2025-09-12解决 pd.read_csv 读取长浮点数据的科学计数法问题 为帮助 Python 数据从业者解决pd.read_csv读取长浮点数据时的科学计数法问题 ...
2025-09-12CDA 数据分析师:业务数据分析步骤的落地者与价值优化者 业务数据分析是企业解决日常运营问题、提升执行效率的核心手段,其价值 ...
2025-09-12用 SQL 验证业务逻辑:从规则拆解到数据把关的实战指南 在业务系统落地过程中,“业务逻辑” 是连接 “需求设计” 与 “用户体验 ...
2025-09-11塔吉特百货孕妇营销案例:数据驱动下的精准零售革命与启示 在零售行业 “流量红利见顶” 的当下,精准营销成为企业突围的核心方 ...
2025-09-11CDA 数据分析师与战略 / 业务数据分析:概念辨析与协同价值 在数据驱动决策的体系中,“战略数据分析”“业务数据分析” 是企业 ...
2025-09-11Excel 数据聚类分析:从操作实践到业务价值挖掘 在数据分析场景中,聚类分析作为 “无监督分组” 的核心工具,能从杂乱数据中挖 ...
2025-09-10统计模型的核心目的:从数据解读到决策支撑的价值导向 统计模型作为数据分析的核心工具,并非简单的 “公式堆砌”,而是围绕特定 ...
2025-09-10CDA 数据分析师:商业数据分析实践的落地者与价值创造者 商业数据分析的价值,最终要在 “实践” 中体现 —— 脱离业务场景的分 ...
2025-09-10机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09CDA 数据分析师:驾驭商业数据分析流程的核心力量 在商业决策从 “经验驱动” 向 “数据驱动” 转型的过程中,商业数据分析总体 ...
2025-09-09R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05