
主数据与大数据的结合才能提升数据效益
当越来越多的企业采用大数据技术、云计算以及社交媒体来发现客户需求、拓展业务时,他们需要主数据管理(MDM)来追随这些大趋势,从数据中萃取更大的业务价值,进而优化品牌管理,拓展市场新渠道,打造企业核心竞争力。行之有效的主数据管理不仅能够提升企业的数据质量,更可以和大数据技术紧密结合。
主数据是企业核心业务实体
主数据是企业运营中担当着关键角色的核心业务实体,它们是系统间的共享数据(例如客户、产品、供应商、账户和组织部门相关数据),分散地存在于企业的各业务系统中,也是企业内部能够跨业务、跨系统重复使用的高价值数据。需要注意的是,主数据并不是企业内所有的业务数据,而是有必要在各个系统间共享的数据才是主数据。比如大部分的交易数据、账单数据等都不是主数据。涵盖资源、产品、事件、客户、财务、账户、员工、合作伙伴等,用于描述核心业务实体的数据才是主数据。因此,对主数据的识别,要把握主数据作为业务运作核心的本质。
其实,在没有建主数据系统的时候,主数据就早已存在,只是它存在的形式和存在的地点是不合理的。主数据管理可以帮助企业从分散的业务系统中整合最核心的、最需要共享的数据,对这些不同来源、不同格式的数据进行集中清洗和匹配,然后以服务的方式把统一的、完整的、准确的、具有共识性的主数据,分发给全企业范围内需要使用这些数据的系统或应用。
企业做主数据管理最主要的就是要解决主数据在各系统之间的一致性问题,让企业拥有统一的主数据访问接口,拥有集中的且内容丰富和干净的数据中心,能够为各业务部门提供一致、完整的共享信息平台,为业务流程和经营决策提供了一个可靠的支撑载体。当然,主数据管理也可以作为一个企业的数据标准,强化对各业务系统的共性数据实体和模型的管理,避免出现大的业务概念不一致,降低应用孤岛、数据孤岛出现的几率,从根本上保证系统之间能实现数据的较好共享,增强了各系统在企业层面的互动,从而提高企业运营效益,提高数据质量,更好地为企业信息集成做好铺垫。
如果从产品角度来谈主数据,更多是如何去实现产品的创新。我们以制造企业为例,他们会因一个产品从研发、生产到市场销售各个阶段命名不一致,造成整个产品信息的不一致。这时候,从管理角度、从产品快速上市角度都会带来很大的混淆,所以必须确保产品从整个生命周期保持它的信息一致性。同时,也使构建新产品的时候更有针对性,清楚哪些市场空白可以填补,哪些可以衍生出新产品,这对于整个企业的运作都有依据价值。
主数据与大数据相得益彰
主数据和大数据的核心都是数据,但它们的关注角度有所不同:大数据关注于数据的量和数据的类型,而主数据则更关注于数据的质量。主数据和大数据的范畴也不是一成不变的,比如在微博上说的一句话是大数据范畴,这种社交类信息一般不会纳入到主数据中,但也有可能随着时间的推移、技术的进步以及成本的降低,在不久后归入到主数据范畴内。
主数据侧重于数据的组织,而大数据则提供了更多的原材料。举个例子,现在不管是产品销售还是服务推广,都强调的一个前提是以客户为中心,保险公司若要推销一种保单,会关注客户和潜在客户在这个保单群里的言论,这些都是大数据,而具体到究竟是哪个客户发表的言论则属于主数据的范畴。所以说,企业要获得更好数据应用效果和价值,应以主数据为中心、为筋脉,通过主数据把各类散乱的大数据有效串联起来。同时,大数据也是主数据的一个重要补充,两者的结合可以达到很好的效果。
主数据平台就像一个八爪鱼,它以主数据为中心,跟各个内、外部系统建立联系。主数据管理不仅要整合业务系统中高价值数据,还要将外围更广泛的数据整合到主数据周围来。大数据常以非结构化形式存在,甚至不在企业内部,那么如何去结合呢?Informatica大中国区首席产品顾问但彬认为,企业需要一套产品使企业能够利用高效、低成本的计算架构实现:在大数据中快速解决个体识别问题,比如客户识别;在数据集分区不可行的情况下,高效完成大批量数据,避免重复化;以更佳的成本效益方式加强社交媒体分析,并将碎片化的个体拼接为完整的个体,以实现有实际意义的交互分析。
现在,人们不用把照片和视频之类的大数据拿到主数据平台上,通过两个系统的整合依然知道在哪里能找到这个客户相关的视频信息,这种系统集成的需求会越来越广泛。与以往传统的只是集成企业最核心系统不同,会慢慢膨胀得越来越大,内容越来越丰富,而且系统之间整合的形式也趋于多样化,这也是近年来新的发展趋势。提升企业数据的整合和管理能力,将数据集成扩展到社交媒体数据、网络日志、传感器设备数据、文档、电子邮件、其他无编码格式的多结构化或非结构化数据,能够显著减少浪费在垃圾资料的时间,有效降低大数据开发、维护成本。
主数据管理是一个持续建设的过程
虽然企业清楚主数据的价值,但往往不知从何下手,如何实施。经常有客户手中有一笔钱会突然提出要做主数据,希望上线一套主数据管理系统,但却只给一个月的项目实施时间。可以说,这是一个非常不合理的时间安排,一个月可能对客户需求都了解不透彻,更别提设计平台,以及平台与各业务系统的整合问题。
企业采用主数据方案最重要的不是技术准备,而是业务准备,企业在上马主数据项目时,首先要想清楚项目所要达到的目的、目标和愿景,能给企业的业务带来什么好处。在拥有业务驱动力后,企业要做的第二件事就是明确自己的痛点,因为主数据问题很难一次性解决,要有优先级,分期分批地执行。最后,则考虑必须做哪些具体的任务,如何实现主数据管理。
主数据问题很难一次性解决,因而造成项目复杂度高、工期长、耗费大的问题,建设前期对于企业来说感知不明显,容易遭到质疑。因此建议企业采取渐进的方式来建设,先基础、后深化,先局部、后覆盖,这样让企业逐步感受到主数据带来的益处。第一期项目可以从小规模入手(比如选择一个业务领域),一个业务领域成功会带动更多业务领域参与,前期的成功会成为后续实施的推升动力。
为保证企业能够有条不紊地实施项目,建议企业根据规划方法论,分阶段、分步骤开展工作。但彬告诉记者,目前Informatica MDM产品解决方案把主数据生命周期划分为9个阶段:访、发现、建模、清洗、识别、解决、关联、治理以及交付。而且这是一个循环往复的过程,当有新的主数据出现或经过几大阶段治理后的主数据仍未达到质量要求时,主数据管理都会进入下一轮循环。数据治理的过程贯穿于整个生命周期,体现了主数据对于数据质量的管控作用。
越来越多中国企业的CIO们也已经看到了主数据管理平台为企业带来的管理效率的提升、运营风险的降低以及节省IT成本等效益,并将其逐渐提上企业信息化建设的日程。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 SQL Server 数据库操作中,“数据类型转换” 是高频需求 —— 无论是将字符串格式的日期转为datetime用于筛选,还是将数值转 ...
2025-10-10在科研攻关、工业优化、产品开发中,正交试验(Orthogonal Experiment)因 “用少量试验覆盖多因素多水平组合” 的高效性,成为 ...
2025-10-10在企业数据量从 “GB 级” 迈向 “PB 级” 的过程中,“数据混乱” 的痛点逐渐从 “隐性问题” 变为 “显性瓶颈”:各部门数据口 ...
2025-10-10在深度学习中,“模型如何从错误中学习” 是最关键的问题 —— 而损失函数与反向传播正是回答这一问题的核心技术:损失函数负责 ...
2025-10-09本文将从 “检验本质” 切入,拆解两种方法的核心适用条件、场景边界与实战选择逻辑,结合医学、工业、教育领域的案例,让你明确 ...
2025-10-09在 CDA 数据分析师的日常工作中,常会遇到这样的困惑:某电商平台 11 月 GMV 同比增长 20%,但究竟是 “长期趋势自然增长”,还 ...
2025-10-09Pandas 选取特定值所在行:6 类核心方法与实战指南 在使用 pandas 处理结构化数据时,“选取特定值所在的行” 是最高频的操作之 ...
2025-09-30球面卷积神经网络(SCNN) 为解决这一痛点,球面卷积神经网络(Spherical Convolutional Neural Network, SCNN) 应运而生。它通 ...
2025-09-30在企业日常运营中,“未来会怎样” 是决策者最关心的问题 —— 电商平台想知道 “下月销量能否达标”,金融机构想预判 “下周股 ...
2025-09-30Excel 能做聚类分析吗?基础方法、进阶技巧与场景边界 在数据分析领域,聚类分析是 “无监督学习” 的核心技术 —— 无需预设分 ...
2025-09-29XGBoost 决策树:原理、优化与工业级实战指南 在机器学习领域,决策树因 “可解释性强、处理非线性关系能力突出” 成为基础模型 ...
2025-09-29在标签体系的落地链路中,“设计标签逻辑” 只是第一步,真正让标签从 “纸上定义” 变为 “业务可用资产” 的关键,在于标签加 ...
2025-09-29在使用 Excel 数据透视表进行多维度数据汇总时,折叠功能是梳理数据层级的核心工具 —— 通过点击 “+/-” 符号可展开明细数据或 ...
2025-09-28在使用 Pandas 处理 CSV、TSV 等文本文件时,“引号” 是最容易引发格式混乱的 “隐形杀手”—— 比如字段中包含逗号(如 “北京 ...
2025-09-28在 CDA(Certified Data Analyst)数据分析师的技能工具箱中,数据查询语言(尤其是 SQL)是最基础、也最核心的 “武器”。无论 ...
2025-09-28Cox 模型时间依赖性检验:原理、方法与实战应用 在生存分析领域,Cox 比例风险模型(Cox Proportional Hazards Model)是分析 “ ...
2025-09-26检测因子类型的影响程度大小:评估标准、实战案例与管控策略 在检测分析领域(如环境监测、食品质量检测、工业产品合规性测试) ...
2025-09-26CDA 数据分析师:以数据库为基石,筑牢数据驱动的 “源头防线” 在数据驱动业务的链条中,“数据从哪里来” 是 CDA(Certified D ...
2025-09-26线性相关点分布的四种基本类型:特征、识别与实战应用 在数据分析与统计学中,“线性相关” 是描述两个数值变量间关联趋势的核心 ...
2025-09-25深度神经网络神经元个数确定指南:从原理到实战的科学路径 在深度神经网络(DNN)的设计中,“神经元个数” 是决定模型性能的关 ...
2025-09-25