
大数据是怎么产生的 它的商业机会在哪
近些年,大数据已经和云计算一样,成为时代的话题。大数据是怎么产生的,商业机会在哪?研究机会在哪?这个概念孕育着一个怎样的未来?
昨天在车库咖啡参加了一个小型的研讨活动,就这些问题进行了一些讨论,我结合自己的一些理解做一个总结。
首先,大数据是怎么产生的?
1)物理世界的信息大量数字化产生的
例如刘江老师指出的好大夫网,将医生的信息,门诊的信息等数字化。其实还有很多,比如新浪微博将茶馆聊天的行为(弱关系产生信息数字化),朋友聊天的行为数字化(强关系产生信息数字化)。视频监控探头将图像数字化。
2)社交网络产生的
在雅虎时代,大量的都是读操作,只有雅虎的编辑做一些写操作的工作。进入web2.0时代,用户数大量增加,用户主动提交了自己的行为。进入了社交时代,移动时代。大量移动终端设备的出现,用户不仅主动提交自己的行为,还和自己的社交圈进行了实时的互动,因此数据大量的产生出来,并且具有了极其强烈的传播性。
3)数据都要保存所产生的
一位嘉宾指出,旧金山大桥保留了百年的历史数据,在时间跨度上产生了价值,很多网站在早期对数据的重视程度不够,保存数据的代价很大,存储设备的价格昂贵,但是时代变了,存储设备便宜了,用户自己产生的数据得到了重视,数据的价值被重视了。因此越来越多的数据被持续保存
其次,大数据和大规模数据的区别?
big data之前学术界叫very large data,大数据和大规模数据的差距是什么?我认为在英文中large的含义只是体积上的,而big的含义还包含重量上的,价值量上的。因此我认为
1)大数据首先不是数量上的堆砌,而是具有很强的关联性结构性
比如有一种数据,记录了世界上每一颗大树每年长高的程度,这样的数据不具有价值,因为只是简单堆砌。
如果数据变成,每一个大树记录它的,地点,气候条件,树种,树龄,周边动植物生态,每年长高的高度,那么这个数据就具有了结构性。具有结构性的数据首先具有极强的研究价值,其次极强的商业价值。
在比如,淘宝的数据,如果只记录一个交易的买家,卖家,成交物品,价格等信息,那么这个商业价值就很有限。淘宝包含了,买家间的社交关系,购物前后的其他行为,那么这个数据将非常有价值。
因此,只有立体的,结构性强的数据,才能叫大数据,才有价值,否则只能叫大规模数据。
2)大数据的规模一定要大,而且比大规模数据的规模还要大
要做一些预测模型需要很多数据,训练语料,如果数据不够大,很多挖掘工作很难做,比如点击率预测。最直白的例子,如果你能知道一个用户的长期行踪数据,上网的行为,读操作和写操作。那么几乎可以对这个人进行非常精准的预测,各种推荐的工作都能做到很精准。
最后,大数据的机会在哪里?对小公司的机会在哪?
围绕数据的整个产业链上,我认为具有以下机会
1)数据的获得
大量数据的获得,这个机会基本属于新浪微博等这类大企业,大量交易数据的获得,也基本属于京东,淘宝这类企业。小企业基本没机会独立得到这些用户数据。
2)数据的汇集
例如如果你要能把各大厂商,各大微博,政府各个部门的数据汇集全,这个机会将是极大的。
但,这个工作,做大了需要政府行为,做中档了,要企业间合作,做小了,也许就是一个联盟或者一个民间组织,比如中国爬盟。
3)数据的存储
汇集了数据后,立即遇到的问题就是存储,这个代价极大,原始数据不能删除,需要保留。因此提供存储设备的公司,执行存储这个角色的公司,都具有巨大的市场机会,但是这也不属于小公司,或者早期创业者。
4)数据的运算
在存储了数据以后,怎么把数据分发是个大问题,各种API,各种开放平台,都是将这些数据发射出去,提供后续的挖掘和分析工作,这个也需要有大资本投入,也不适合小公司。
5)数据的挖掘和分析
数据需要做增值服务,否则数据就没有价值,big也big不到哪里去,是没有价值的big。因此这种数据分析和挖掘工作具有巨大的价值,这个机会属于小公司,小团体。
6)数据的使用和消费
在数据做到了很好的挖掘和分析后,需要把这些结果应用在一个具体的场合上,来获得回报,做数据挖掘和分析的公司,必须得找到这些金主才行,而这些金主肯定也不是小公司。
大数据未来的形态,或者产业链结构一定是分层的,巨大的,价值的体现发生在各个层次,每个层次都是生态链的重要一环,都孕育着巨大的机遇和挑战,我们能做的唯有努力,做适合自己的工作。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
PowerBI 累计曲线制作指南:从 DAX 度量到可视化落地 在业务数据分析中,“累计趋势” 是衡量业务进展的核心视角 —— 无论是 “ ...
2025-08-15Python 函数 return 多个数据:用法、实例与实战技巧 在 Python 编程中,函数是代码复用与逻辑封装的核心载体。多数场景下,我们 ...
2025-08-15CDA 数据分析师:引领商业数据分析体系构建,筑牢企业数据驱动根基 在数字化转型深化的今天,企业对数据的依赖已从 “零散分析” ...
2025-08-15随机森林中特征重要性(Feature Importance)排名解析 在机器学习领域,随机森林因其出色的预测性能和对高维数据的适应性,被广 ...
2025-08-14t 统计量为负数时的分布计算方法与解析 在统计学假设检验中,t 统计量是常用的重要指标,其分布特征直接影响着检验结果的判断。 ...
2025-08-14CDA 数据分析师与业务数据分析步骤 在当今数据驱动的商业世界中,数据分析已成为企业决策和发展的核心驱动力。CDA 数据分析师作 ...
2025-08-14前台流量与后台流量:数据链路中的双重镜像 在商业数据分析体系中,流量数据是洞察用户行为与系统效能的核心依据。前台流量与 ...
2025-08-13商业数据分析体系构建与 CDA 数据分析师的协同赋能 在企业数字化转型的浪潮中,商业数据分析已从 “可选工具” 升级为 “核 ...
2025-08-13解析 CDA 数据分析师:数据时代的价值挖掘者 在数字经济高速发展的今天,数据已成为企业核心资产,而将数据转化为商业价值的 ...
2025-08-13解析 response.text 与 response.content 的核心区别 在网络数据请求与处理的场景中,开发者经常需要从服务器返回的响应中提取数 ...
2025-08-12MySQL 统计连续每天数据:从业务需求到技术实现 在数据分析场景中,连续日期的数据统计是衡量业务连续性的重要手段 —— 无论是 ...
2025-08-12PyTorch 中 Shuffle 机制:数据打乱的艺术与实践 在深度学习模型训练过程中,数据的呈现顺序往往对模型性能有着微妙却关键的影响 ...
2025-08-12Pandas 多列条件筛选:从基础语法到实战应用 在数据分析工作中,基于多列条件筛选数据是高频需求。无论是提取满足特定业务规则的 ...
2025-08-12人工智能重塑 CDA 数据分析领域:从工具革新到能力重构 在数字经济浪潮与人工智能技术共振的 2025 年,数据分析行业正经历着前所 ...
2025-08-12游戏流水衰退率:计算方法与实践意义 在游戏行业中,流水(即游戏收入)是衡量一款游戏商业表现的核心指标之一。而游戏流水衰退 ...
2025-08-12CDA 一级:数据分析入门的基石 在当今数据驱动的时代,数据分析能力已成为职场中的一项重要技能。CDA(Certified Data Anal ...
2025-08-12破解游戏用户流失困局:从数据洞察到留存策略 在游戏行业竞争白热化的当下,用户流失率已成为衡量产品健康度的核心指标。一款游 ...
2025-08-11数据时代的黄金入场券:CDA 认证解锁职业新蓝海 一、万亿级市场需求下的数据分析人才缺口 在数字化转型浪潮中,数据已成为企业核 ...
2025-08-11DBeaver 实战:实现两个库表结构同步的高效路径 在数据库管理与开发工作中,保持不同环境(如开发库与生产库、主库与从库)的表 ...
2025-08-08t 检验与卡方检验:数据分析中的两大统计利器 在数据分析领域,统计检验是验证假设、挖掘数据规律的重要手段。其中,t 检验和卡 ...
2025-08-08