京公网安备 11010802034615号
经营许可证编号:京B2-20210330
数据在四个层面上的价值思考
1、思考一下,数据是什么?
“掌握数据就掌握一切”,已经成为大部分互联网公司的基本认识,你只要有用户数据,行为数据,关系链数据,就可以在此基础上衍生出很多新的玩法,新的服务等等甚至之前不存在的产品。
那么数据是什么呢?
我理解的数据其实就是我们个人和社会活动中所有状态和行动的记录。这种记录可以是连续的,也可以是离散的。可以是单点的,也可以是关联的。
数据可以由数字构成,也可以由简单的标签构成,可以是复杂的图像,也可以仅仅由“YES” or “NO” 两种形态。
关键的是,你如何定义这个数据,以及如何使用这些数据。
如果只是将其存储在物理的计算机存储器中,这些数据就是历史,是对资源的浪费。
2、数据在四个层面上的价值分析
数据价值的分析可以从多个角度进行,应用层面,行业层面,小到个人体重管理,大到国家国际战略决策,都可以阐述数据价值。这篇文章,主要是从数据关系和处理方法角度来看数据有哪些价值,以及为实现这些价值,需要做哪些准备和之前遇到的一些坑。
第一层:孤立数据
孤立数据,也可以看成是一个单点数据,其实就是最基本的表示一个状态或者一个记录。这种数据当然也是有价值的,比如:多个孤立的数据可以刻画一个具体的事物,一个人,一个企业等等,都可以通过单点的数据来进行基本描述。
孤立数据是一切数据分析的前提。对于孤立数据,我想表达的一个思考就是,尽可能的标准化。在数据产品设计的时候,或者在数据表的开发时,就需要讲这些孤立的数据定义青清楚。那个字段,通过哪种标识方式,代表哪个含义。同时这种定义,越广泛的范围采用,孤立数据的价值越大。比如:男/女 这种性别定义就非常简单,估计在全球范围内,都可以通用。
第二层:统计数据
我们在大学时代所学的统计学,概率论基本都是对数据的统计处理方法。统计数据是对一定时间或空间维度的数据进行分布计算,在此基础上,发现一些规律和特征,同时依照这种规律进行未来的预测。
最近有个很有意思的现象,国家在严格控制房产价格,各地政府为了保住乌纱帽,无不在统计数据上做文章,抑制中心地区的高价房出售,同时又大量放出郊区低价房。结果不到一个月,全国房价上涨得到有效控制,有些城市还出现大幅下跌。于是,各地官媒喜大普奔,报道房价下跌,政府有功。
“统计数据会撒谎”也是一个大多数人的认识。我们在应用统计数据的时候,首先需要定义如何统计,统计的目标和价值衡量标准在哪里?
比如:我想看下一个月之内,会员在某一个场景下各个时段的操作频次。这个时候就要问一下自己,一个月的数据是否能真实的反应你所想要的市场规律,是不是要扩大到一个季度或者一年。同时如果你是想分析用户转化,那么是不是多加几个场景纵向比较,以确认在哪个场景去投入更多资源等等。
第三层:关联数据
关联数据就开始深入到多维度上面去了,对一个主体的多维数据进行计算,以发现维度之间的关系,是互相促进的,还是互相抑制的。最优组合点以及价值临近点在哪里?
作为数据挖掘的一个重要方法,关联分析在推进系统里面使用很多。关联数据,可以有效的进行服务打包,商品打包。从海量的销售数据中进行关联数据分析,可以发现很奇特的组合。比如有段时间,我在分析会员来电情况,我们会发现,询问A问题的用户,通常会在电话结束后进行B操作,这种关联性,然我们优化了服务流程,在同类用户中,我们通过对A类来电进行B类服务的推荐,很好的进行了服务推广。达到非常好的效果。
第四层:智能数据
智能数据,就是指通过复杂的机器学习算法进行计算得出的数据,这种数据有时候是无法解释其内在原因的,但是智能化是未来的方向,并且速度越来越快。
我所理解的智能数据,是通过大量的数据训练,来实现内在模式的底层规律建设,在此基础上,对新数据的判断和结果产出。就比如最近很热门的Master 大战人类围棋高手,就是在Master进行了大量围棋基本规则定义,以及无数围棋落子模式训练后,形成的一种具有自我判断和计算意识的围棋模式。它之所以能战胜,更多胜在其计算能力和学习深度上面。比人类有了更多层的预测,并在此基础上判断了每一步的胜率。
智能数据是未来进行决策辅助的重要环节,它将像一个先知一样,协助人类预测未来,警示我们在现有模型下的发展结果。从这个角度上看,恐惧大可不必。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在统计学分析、实验研究、业务数据复盘过程中,单因素方差分析是检验自变量对因变量是否存在显著影响的核心方法。其中,两个水平 ...
2026-05-26【核心关键词】算法、客户、大数据、互联网、调优、建模、模型优化、机器学习、评分卡模型、模型开发、智能风控、业务场景、数 ...
2026-05-26 很多数据分析师写过无数个 SELECT,但当被问到“新建一张表,该如何定义字段类型来保证数据质量”“创建视图和存储物理表有 ...
2026-05-26在数据清洗、统计分析与数据质量检测工作中,箱型图(又称箱线图、Box Plot)是最直观、最高效的可视化分析工具之一。相较于柱状 ...
2026-05-25在大数据分析、数据清洗、质量管控、风险监测等领域,异常数据识别是保障数据质量、确保分析结论精准、规避业务决策失误的核心基 ...
2026-05-25 很多数据分析师精通Excel函数和透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么关系 ...
2026-05-25数字化经营时代,企业的市场竞争早已从经验决策转向数据决策。门店营收、用户转化、产品销量、成本损耗、存量资产等所有经营行为 ...
2026-05-22在MySQL数据库日常运维、业务数据校验、数据迁移与数据清洗场景中,自增主键ID的连续性校验是一项基础且关键的工作。MySQL的Auto ...
2026-05-22 很多企业团队并非缺乏指标,而是陷入“指标失控”:仪表盘上堆满实时跳动的数据,却无法回答“当前瓶颈在哪、下一步该做什么 ...
2026-05-22【核心关键词】大数据、可视化、存储、架构、客户、离线、产品、同步、实时、数据仓库、数据分析、数据可视化、存储数据、离线 ...
2026-05-21在电商流量红利消退、公域获客成本持续走高的当下,存量用户深度挖掘已成为店铺增收增效的核心抓手。相较于付费投放获取的陌生新 ...
2026-05-21 很多数据分析师每天盯着几十个指标,但当被问到“这套指标要支撑什么业务目标”“指标之间是什么逻辑关系”“业务变化时如何 ...
2026-05-21在数据驱动决策的时代,数据质量直接决定分析结果的可靠性与准确性,而异常值作为数据清洗中的核心痛点,往往会扭曲分析结论、误 ...
2026-05-20 很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标在所有行业都适用”“哪些指标只对电商有意义”“二者如何搭 ...
2026-05-20Agent的能力边界,很大程度上取决于其掌握的Skill质量和数量。传统做法是靠人工编写和维护Skill,但这条路很快会遇到瓶颈。业务 ...
2026-05-20在统计分析中,方差分析(ANOVA)是一种常用的假设检验方法,核心用于分析“一个或多个自变量对单个因变量的影响”,广泛应用于 ...
2026-05-19 很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“什么是指标”“指标和维度有什么区别”“如何定义指标值的计算规则和 ...
2026-05-19想高效备考 CDA 一级,拒绝盲目刷题、冗余学习?《CDA 一级教材知识手册》重磅来袭!以官方教材为核心,浓缩 13 章 103 个核心考 ...
2026-05-19在数据统计分析中,卡方检验是一种常用的非参数检验方法,核心用于判断两个或多个分类变量之间是否存在显著关联,广泛应用于市场 ...
2026-05-18在企业数字化转型的浪潮中,很多企业陷入了“技术堆砌”的误区——上线了ERP、CRM、BI等各类系统,积累了海量数据,却依然面临“ ...
2026-05-18