京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据处理应遵循的四个原则_数据分析师
信息革命将人类带入一个革命性的“大数据时代”,人们通过电脑网络,利用数据分析、数据集成、数据设计、数据模型、数据决策和数据虚拟化等手段,针对具体的认知对象,对反映其数量、性质、结构、功能、价值、前景等方面的数据,进行全面的收集、整理、分析、综观和萃取,然后作为决策和实践的根据。由此,使人类的认识变得更精确系统、更全面广泛、更快速有效。然而面对各种数据源收集来的海量数据,究竟如何对其进行归类、计算、建模和解释,却需要高超的智慧。因数据本身始终沉默,需要依赖能动的认识主体的赋予。为此,本文想就大数据处理应遵循的几条原则给予阐释。
简约原则
这是牛顿创设的一条“极简主义”的节约规则。在牛顿看来,神奇的自然界在创设过程中选择的简单性和对繁琐的讨厌,使得人类也形成如下观念:“在用很少的东西就能够解决问题的情况下,决不劳力费神和兴师动众”;要始终体现大自然所遵循的简约性、精准性、合理性与有效性。欲达此目的,就需要在云计算或大数据处理中,遵循简约原则,选择有用数据,淘汰无用数据;识别有代表性的本质数据,去除细枝末节或无意义的非本质数据。要能够确识数据之间的巨大差距或差异;要能够鉴别和挑出那些“以一当十”的数据和信息。这种简约原则在大数据的收集、挖掘、算法和实施中的最有效途径,就是对“数据规约”的运用。所谓数据规约就是简化现有的数据集,使得一种小规模的数据就能够产生同样的分析效果。常用的数据规约策略有数据立方体聚集、维规约、数据压缩、数值压缩、离散化和概念分层等,而常用的数据规约方法则主要包含粗糙集、遗传算法、主成分分析、逐步回归分析、公共因素模型分析等。运用这些规约方法,就可以获取可靠数据,减少数据集规模,提高数据抽象程度,提升数据挖掘效率,使之在实际工作中,可以根据需要选用具体的分析数据和合适的处理方法,以达到操作上的简单、简洁、简约和高效。具体地说,当一位认知主体面对收集到的大量数据和一些非结构化的数据对象,如文档、图片、饰品等物件时,不仅需要掌握大数据管理、大数据集成的技术和方法,遵循“简约原则”和“数据集成原则”,学会数据的归档、分析、建模和元数据管理,还需要在大量数据激增的过程中,学会规约、选择、评估和发现某些潜在的本质性变化,包括对新课题、新项目的兴趣和开发。
综观原则
所谓综观,就是对认知对象进行综合性的观察、分析和探索;就是从总体上对认识对象、认识过程和认识结果进行抽象、概括或直觉,并通过具体的信息数据超越那涵盖于总体性中的局部或个别。这种综观既针对构成事物之个体的全部,也针对构成事物的诸要素组成的统一体,以及总体上显现的本质和规律。综观较整体观察更加辩证。它坚持从大处着眼,从总体上去“观其状,求其法,探其道”,以求得解决问题的策略和战略。它坚持整体的具体统一性,凸显认知对象的具体实在性。至于现实中,人们究竟如何对具体的认知对象进行综观,这里需要借助与综观紧密相关的大数据集合的理论与实践。因为大数据集成,既包括对存贮在结构化数据结构中的数据进行移动和集成,也包括对一大部分非结构化数据中的数据进行移动、调节和集成。比如面对复杂的信息和数据,人们就可以将“云架构、实时数据集成、数据虚拟化、数据集成建模”等先进技术用到具体问题的解决中,使用一种根据大数据制作的“可预测模型描述语言”(PMML),为其提供一种快速简便的程序和模型。此时,通过使用标准的XML(可扩展标记语言)解析器对PMML进行解析,应用程序就能够决定模型输入和输出的数据类型,及模型的详细格式,并会按照标准的数据挖掘术语来解释模型的结果。通过对大数据的综观、模型化和虚拟化,可以做到花最小气力,获最大效益。特别是数据虚拟化,不仅可以为数据使用者提供极具真实性、完整性和精准性的“实时集成的数据视图”,还可以将来自不同数源的数据信息整合为一,并转化成使用者所需要的图式和模型。因为有些对象,绝不是仅仅用数字就可以解释和认知的,比如人类复杂多变的面部表情,就很难用单纯的数据给予精确表达,只有通过数据集成、智能技术和虚拟技术将大数据虚拟化,使反映认知或实践对象的海量信息和数据,变成一种实时图像或视频供主体观察研究,他们才可能从中获得相关的认识、结论和决策。
解释原则
尽管数据集成、数据建模、云计算和数据虚拟化是大数据处理的一些主要形式,能够给认知主体以质、量和度等多方面的总体性的形象和认识,但面对“不能言语”的具体的数字、信息、图像和虚拟视频,还是需要认知主体进行能动的和创造性的解读与阐释。这不只因为包括数字、数码、文字和一切符号在内的语言“是存在的故乡”,即要认识客体或对象,总是需要利用语言给予建构、包装、说明和解释,还因为一切语言自身所拥有的价值和意义,也需要使用它和阅读它的主体所“赠予”。换句话说,这些摆在人们面前的大数据,究竟表达什么或意味什么,很大程度上,并不取决于由数据信息自身所标明的“客观实在性”,而是主要取决于认知主体对其解读时所拥有的整体上的解释力、构建力和知解力,取决于由数据构架起来的理论形态和实践目的。因为只有通过人的感悟、觉识、分析、推理、判断和阐释才能够赋予数据和信息以多重的或异乎寻常的结构和意义,才能够由表及里,揭示出深藏于内的隐蔽之物;进而通过各种解释之间的矛盾和冲突,获悉被解释的存在和本质。
智慧原则
尽管信息革命将人类带进大数据的春天,而且使越来越多的人确信“数据多多益善,即数据越多,分析越深入,所得的结论就越全面”,但面对“僵死的数据”,要想点石成金,还需依赖于人的智慧和学识。为此,在大数据处理过程中,真正的智者既要兼具数据分析、机器学习、数据挖掘以及数据统计的能力,也要具备应用算法和编写代码的经验。尤其是面对琳琅满目的大数据,不仅要关注海量数据的多样性、差异性、精确性和实效性,否则缺少其中任何一个性能,都可能使所获数据达不到预期的效果和目标;还要全面深入地挖掘各种类型的数据,并在此基础上运用数据建模和数据算法在不同的数据集成中分析不同的假设情境,建构不同的可视化图像,进而揭示数据集成的变化及其产生的效用。特别是今天,面对激烈的社会竞争,必须不断寻找新的数据处理方法,不断加快数据处理速度。要意识到各种数据都并非生而就有价值,只有通过主体智慧的挖掘,才能将其变为现实。
此外,还要善于从数据集成、数据建模和数据虚拟化中发现和解决问题;提升自己观察、思考、批判和扬弃的能力;锤炼自己的理性思维和逻辑思维;培养自己统筹决策、高瞻远瞩、见微知著的预见力和洞察力。当然,在大数据时代更需要掌握对已有的数据模型进行精练,以及利用新的训练数据对原有内容和规则集进行修改、操作和运行的技艺。在此过程中,要尽可能做到思想活跃,思维清晰,头脑开放,认识深远,能够不失时机地打破陈规旧套,抓住新机遇,尝试新途径,开辟新天地,以多元智能的理念来认知和实践,以便在大数据处理中,既不忽略任何一个未经深度分析的数据,也不丢弃任何一个异常数据。在许多情况下,异常数据往往比常规数据更有价值。这样,也就自然地要求认知主体工作上缜密细心,时时关注事件的每一个细节与数据,真正做到明察秋毫、细心研制,直至收获完美的认识和成功的实践。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11数字化浪潮下,数据已成为企业生存发展的核心资产,而数据思维,正是CDA(Certified Data Analyst)数据分析师解锁数据价值、赋 ...
2026-03-11线性回归是数据分析中最常用的预测与关联分析方法,广泛应用于销售额预测、风险评估、趋势分析等场景(如前文销售额预测中的多元 ...
2026-03-10在SQL Server安装与配置的实操中,“服务名无效”是最令初学者头疼的高频问题之一。无论是在命令行执行net start启动服务、通过S ...
2026-03-10在数据驱动业务的当下,CDA(Certified Data Analyst)数据分析师的核心价值,不仅在于解读数据,更在于搭建一套科学、可落地的 ...
2026-03-10在企业经营决策中,销售额预测是核心环节之一——无论是库存备货、营销预算制定、产能规划,还是战略布局,都需要基于精准的销售 ...
2026-03-09金融数据分析的核心价值,是通过挖掘数据规律、识别风险、捕捉机会,为投资决策、风险控制、业务优化提供精准支撑——而这一切的 ...
2026-03-09在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心工作,是通过数据解读业务、支撑决策,而指标与指标体系 ...
2026-03-09在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05