
大数据是怎么产生的 它的商业机会在哪
近些年,大数据已经和云计算一样,成为时代的话题。大数据是怎么产生的,商业机会在哪?研究机会在哪?这个概念孕育着一个怎样的未来?
昨天在车库咖啡参加了一个小型的研讨活动,就这些问题进行了一些讨论,我结合自己的一些理解做一个总结。
首先,大数据是怎么产生的?
1)物理世界的信息大量数字化产生的
例如刘江老师指出的好大夫网,将医生的信息,门诊的信息等数字化。其实还有很多,比如新浪微博将茶馆聊天的行为(弱关系产生信息数字化),朋友聊天的行为数字化(强关系产生信息数字化)。视频监控探头将图像数字化。
2)社交网络产生的
在雅虎时代,大量的都是读操作,只有雅虎的编辑做一些写操作的工作。进入web2.0时代,用户数大量增加,用户主动提交了自己的行为。进入了社交时代,移动时代。大量移动终端设备的出现,用户不仅主动提交自己的行为,还和自己的社交圈进行了实时的互动,因此数据大量的产生出来,并且具有了极其强烈的传播性。
3)数据都要保存所产生的
一位嘉宾指出,旧金山大桥保留了百年的历史数据,在时间跨度上产生了价值,很多网站在早期对数据的重视程度不够,保存数据的代价很大,存储设备的价格昂贵,但是时代变了,存储设备便宜了,用户自己产生的数据得到了重视,数据的价值被重视了。因此越来越多的数据被持续保存
其次,大数据和大规模数据的区别?
big data之前学术界叫very large data,大数据和大规模数据的差距是什么?我认为在英文中large的含义只是体积上的,而big的含义还包含重量上的,价值量上的。因此我认为
1)大数据首先不是数量上的堆砌,而是具有很强的关联性结构性
比如有一种数据,记录了世界上每一颗大树每年长高的程度,这样的数据不具有价值,因为只是简单堆砌。
如果数据变成,每一个大树记录它的,地点,气候条件,树种,树龄,周边动植物生态,每年长高的高度,那么这个数据就具有了结构性。具有结构性的数据首先具有极强的研究价值,其次极强的商业价值。
在比如,淘宝的数据,如果只记录一个交易的买家,卖家,成交物品,价格等信息,那么这个商业价值就很有限。淘宝包含了,买家间的社交关系,购物前后的其他行为,那么这个数据将非常有价值。
因此,只有立体的,结构性强的数据,才能叫大数据,才有价值,否则只能叫大规模数据。
2)大数据的规模一定要大,而且比大规模数据的规模还要大
要做一些预测模型需要很多数据,训练语料,如果数据不够大,很多挖掘工作很难做,比如点击率预测。最直白的例子,如果你能知道一个用户的长期行踪数据,上网的行为,读操作和写操作。那么几乎可以对这个人进行非常精准的预测,各种推荐的工作都能做到很精准。
最后,大数据的机会在哪里?对小公司的机会在哪?
围绕数据的整个产业链上,我认为具有以下机会
1)数据的获得
大量数据的获得,这个机会基本属于新浪微博等这类大企业,大量交易数据的获得,也基本属于京东,淘宝这类企业。小企业基本没机会独立得到这些用户数据。
2)数据的汇集
例如如果你要能把各大厂商,各大微博,政府各个部门的数据汇集全,这个机会将是极大的。
但,这个工作,做大了需要政府行为,做中档了,要企业间合作,做小了,也许就是一个联盟或者一个民间组织,比如中国爬盟。
3)数据的存储
汇集了数据后,立即遇到的问题就是存储,这个代价极大,原始数据不能删除,需要保留。因此提供存储设备的公司,执行存储这个角色的公司,都具有巨大的市场机会,但是这也不属于小公司,或者早期创业者。
4)数据的运算
在存储了数据以后,怎么把数据分发是个大问题,各种API,各种开放平台,都是将这些数据发射出去,提供后续的挖掘和分析工作,这个也需要有大资本投入,也不适合小公司。
5)数据的挖掘和分析
数据需要做增值服务,否则数据就没有价值,big也big不到哪里去,是没有价值的big。因此这种数据分析和挖掘工作具有巨大的价值,这个机会属于小公司,小团体。
6)数据的使用和消费
在数据做到了很好的挖掘和分析后,需要把这些结果应用在一个具体的场合上,来获得回报,做数据挖掘和分析的公司,必须得找到这些金主才行,而这些金主肯定也不是小公司。
大数据未来的形态,或者产业链结构一定是分层的,巨大的,价值的体现发生在各个层次,每个层次都是生态链的重要一环,都孕育着巨大的机遇和挑战,我们能做的唯有努力,做适合自己的工作。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
把握 CDA 考试时间,开启数据分析职业之路 在数字化转型的时代浪潮下,数据已成为企业决策的核心驱动力。CDA(Certified Da ...
2025-07-02CDA 证书:银行招聘中的 “黄金通行证” 在金融科技飞速发展的当下,银行正加速向数字化、智能化转型,海量数据成为银行精准 ...
2025-07-02探索最优回归方程:数据背后的精准预测密码 在数据分析和统计学的广阔领域中,回归分析是揭示变量之间关系的重要工具,而回 ...
2025-07-02CDA 数据分析师报考条件全解析:开启数据洞察之旅 在当今数字化浪潮席卷全球的时代,数据已成为企业乃至整个社会发展的核心驱 ...
2025-07-01深入解析 SQL 中 CASE 语句条件的执行顺序 在 SQL 编程领域,CASE语句是实现条件逻辑判断、数据转换与分类的重要工 ...
2025-07-01SPSS 中计算三个变量交集的详细指南 在数据分析领域,挖掘变量之间的潜在关系是获取有价值信息的关键步骤。当我们需要探究 ...
2025-07-01CDA 数据分析师:就业前景广阔的新兴职业 在当今数字化时代,数据已成为企业和组织决策的重要依据。数据分析师作为负责收集 ...
2025-06-30探秘卷积层:为何一个卷积层需要两个卷积核 在深度学习的世界里,卷积神经网络(CNN)凭借其强大的特征提取能力 ...
2025-06-30探索 CDA 数据分析师在线课程:开启数据洞察之旅 在数字化浪潮席卷全球的当下,数据已成为企业决策、创新与发展的核心驱 ...
2025-06-303D VLA新范式!CVPR冠军方案BridgeVLA,真机性能提升32% 编辑:LRST 【新智元导读】中科院自动化所提出BridgeVLA模型,通过将 ...
2025-06-30LSTM 为何会产生误差?深入剖析其背后的原因 在深度学习领域,LSTM(Long Short-Term Memory)网络凭借其独特的记忆单元设 ...
2025-06-27LLM进入拖拽时代!只靠Prompt几秒定制大模型,效率飙升12000倍 【新智元导读】最近,来自NUS、UT Austin等机构的研究人员创新 ...
2025-06-27探秘 z-score:数据分析中的标准化利器 在数据的海洋中,面对形态各异、尺度不同的数据,如何找到一个通用的标准来衡量数据 ...
2025-06-26Excel 中为不同柱形设置独立背景(按数据分区)的方法详解 在数据分析与可视化呈现过程中,Excel 柱形图是展示数据的常用工 ...
2025-06-26CDA 数据分析师会被 AI 取代吗? 在当今数字化时代,数据的重要性日益凸显,数据分析师成为了众多企业不可或缺的角色 ...
2025-06-26CDA 数据分析师证书考取全攻略 在数字化浪潮汹涌的当下,数据已成为企业乃至整个社会发展的核心驱动力。数据分析师作 ...
2025-06-25人工智能在数据分析的应用场景 在数字化浪潮席卷全球的当下,数据以前所未有的速度增长,传统的数据分析方法逐渐难以满足海 ...
2025-06-25评估模型预测为正时的准确性 在机器学习与数据科学领域,模型预测的准确性是衡量其性能优劣的核心指标。尤其是当模型预测结 ...
2025-06-25CDA认证:数据时代的职业通行证 当海通证券的交易大厅里闪烁的屏幕实时跳动着市场数据,当苏州银行的数字金融部连夜部署新的风控 ...
2025-06-24金融行业的大数据变革:五大应用案例深度解析 在数字化浪潮中,金融行业正经历着深刻的变革,大数据技术的广泛应用 ...
2025-06-24