京公网安备 11010802034615号
经营许可证编号:京B2-20210330
进入大数据行业的公司必须了解这六个问题
之前参加了IC咖啡举办的Italk活动,听取的有关大数据公司和产业机构的讲座,因此萌生出一个写文章的冲动,想对目前大数据产业中的一些错误现象进行讨论.
陈宇认为大数据是哲学层面上的问题,属于统计学范畴,部分揭示了大数据产业的本质,但是实际上大数据这个概念自身就有着不同的诠释。利用数据进行军事分析,产品定位,交通管理,风险管理,精准营销等等,其实在几十年前就有了。最早的保险产品就是来源于偶然事件的概率分析,其参考历史数据分析,依据计算出的概率来,来对保险产品进行定价。中国古代的军事学家孙膑在战争中,通过逐步减少行军灶坑来迷惑对手,利用其师弟庞涓对数据信任,制造其带领军队溃败的假象,最后在对方轻敌冒进的前提下,突袭了对手,赢得了战争胜利。因此数据分析其实在很久远的古代就存在了。为什么过去的数据分析换成了时髦的名称大数据了呢?
相对于过去的数据,我们来讨论大数据的含义:
1)过于一些记录是以模拟形式出现的,或者以数据形式出现但是存贮在本地,不是公开数据资源,没有开放给互联网用户,例如音乐、照片、视频、监控录像等影音资料。现在这些数据不但数据量巨大,并且放到了互联网上,开放给整个互联网用户,其数量之大是前所未有了。举个例子Facebook每天有18亿张照片上传或被传播,形成了海量的开放数据。
2)移动互联网出现后,移动设备的很多传感器收集了大量的用户点击行为数据,已知iphone有3个传感器,三星有6个传感器。它们每天产生了大量的点击数据,这些数据被某些公司所有拥有,形成用户大量行为数据。
3)移动地图出现后,例如高德、百度、google地图,其产生了大量的数据流数据,这些数据不同于传统数据,传统数据代表一个属性或一个度量值,但是这些地图产生的流数据代表着一种行为、一种习惯,这些流数据经频率分析后会产生巨大的商业价值。基于地图产生的数据流是一种新型的数据类型,在过去是不存在的。
4)进入了社交网络的年代后,互联网行为主要由用户参与创造,因此有大量的互联网用户创造出大量的社交行为数据。这些数据是过去不曾想像的,是海量的。某些数据代表特定人群的特点和个性。
5)电子商户崛起带来了大量网上交易行为,其产生了大量的交易数据,包含支付行为,查询行为,物流运输、购买行为等等,产生了海量的信息流和资金流数据。
6)传统的互联网入口转向搜索引擎之后,用户的搜索行为和提问行为产生了海量数据。单位存贮价格的下降也为存储这些数据提供了技术上的可能。
现在我们所指的大数据不同与过去传统的数据,其产生方式、存储载体、访问方式、表现形式、来源特点等都同传统的数据不同。简单的讲大数据范围更接近于某个群体行为特点数据,全面的数据。移动互联网和社交网络创造出来了大量的行为数据。
大数据产业是朝阳产业,任何一个想进入此产业的公司和个人向先要思考好以下几个问题。
1数据在哪里?
2哪些是有用的数据?
3如何分析这些数据?(如何将非结构化数据变成结构化数据)
4需要用数据解决的问题是什么?或者是分析后数据后提出的观点是什么?
5如何展现你的数据和推理?(图形、图表、曲线、分值、评价、归类、等级、概率、模型等等,大数据要么解决目前的问题,要么支持你的假设,要们引导出另一个未知观点)
6重新审核数据分析的逻辑和数据来源,是否可以展现一份可以经过推敲的数据分析报告?
如果以上的问题都可以解决,这时你可以进入正产业。中国的大数据产业近几年来逐渐升温,政府有投入了大量的资金。目前正在困扰很多大数据公司的问题是数据在哪里?目前我们了解的大数据来源主要有以下几个方面;
1)电信运行商(由于其提供互联网接入服务,互联网行为记录数据)
2)第三方支付(支付行为产生的资金流和信息流数据)
3)电商平台(阿里为代表,几亿的淘宝用户和2万亿的网络购买行为的数据)
4)社交平台(微信和微博为代表的社区网络产生的互联网行为数据)
5)电子游戏平台(大量用户产生的数据)
6)移动入口产生大量数据(包含移动APP,导航,地图等)
7)搜索引擎上产生的数据
除了这些新兴的大数据来源,其实在传统行业,由于很多数据是不能公开和共享的,还有很多大数据来源没有被重点关注。例如:
1)政府掌握的经济社会的统计数据
2)金融行业内部交易和支付数据
3)医疗行业的病历数据
4)教育行业的考试数据
5)交通运输行业物流数据
6)科学研究方面大量重复的论文、专利、科研实验的数据
7)生物工程、农林牧渔等方面的数据
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10 很多数据分析师每天都在计算指标、制作报表,但当被问到“什么叫指标数据元”“指标数据标准包含哪些核心维度”“指标数据质 ...
2026-06-10在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08 很多数据分析师能熟练写SQL、做透视表,但当被问到“数据是从哪里来的?经过哪些加工才进入数据仓库?ETL具体做了什么?”时 ...
2026-06-08【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04 很多数据分析师拿到数据就开始清洗、建模,但当被问到“这批数据属于什么类型——结构化还是非结构化?分类变量还是数值变量 ...
2026-06-04在问卷调查与社会科学数据分析中,卡方检验是最常用、最基础的非参数检验方法,广泛应用于市场调研、用户分析、行为统计、满意度 ...
2026-06-03【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-03 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-06-03逻辑回归是数据分析、机器学习、统计建模中应用最广泛的二分类预测模型,常用于风险判断、行为预测、归因分析等场景。在SPSS、Py ...
2026-06-02数字经济时代,市场竞争日趋同质化,用户消费需求愈发个性化、多元化,传统依托经验、粗放式、广撒网的营销模式弊端日益凸显。长 ...
2026-06-02