京公网安备 11010802034615号
经营许可证编号:京B2-20210330
抢占大数据源头
在信息化的过程中,产生了结构化、半结构化和非结构化的数据,这种用电子化数据记录、传输和表示信息的方式是“智”。当这些数据达到一定的量级,数据的魅力才会显现,可以发挥出“慧”的优势,我们简称这种有价值的数据为大数据。由于人类社会财富的60%是近30年内创造的,90%的数据是近5年内记录的,大数据随着时代的发展越来越引人关注。它已经被运用到很多方面:社会管理、商业智能、军事侦察,医疗诊断等。
大数据在被获取之后,一般会被索引分类。储存在服务器的数据经过挖据、分析和处理,数据才有大作用。这个过程最为关键的是数据源,谁掌握了数据源头谁将掌握未来(但愿不是美国政府的秘密情报监视机构)。
1 直接的大数据源头——大自然
克强指数是一项用于评估中国GDP增长量的经济指标,它包含三个基本要素:工业用电量新增、铁路货运量新增和银行中长期贷款新增。这三个数据是属于人类社会源头的,可以通过统计的方法得到数据。但是,我们可以通过监测空气中二氧化碳等温室气体的含量,来反映工业用电量新增和铁路货运量,甚至可以直接利用温室气体的含量变化计算经济增长率。这就需要在不同的样本地点部署测量节点,由传感网络传递数据到处理中心,同时考虑其他数据的影响,综合历史数据,预算经济指标。
而测量节点需要总体规划,共用基础设施,可以同时测量和传输其他数据:风速、温度、降雨量、湿度、PM2.5、氧气含量,环流数据、地壳数据、森林覆盖率和动物数量、动物迁徙路径等数据。这些数据可能是数字,可能是文本、图片、音频、视频等。未来的部署模式类似现在的电信运营商,手机是节点,基站是小型处理中心。只不过数据源由人变成了大自然的状态、植物和动物。
这就是大自然的物联网。自然世界每天有大量信息产生,如果将这些信息数据化,通过云计算模式加工处理,可以帮助人们做出更好的决策、预测未知的事情。说不定,亚马孙河流域热带雨林中的蝴蝶飞行速度,和太阳表面温度息息相关。只不过人们尚未发现这种联系,已知晓的联系是乌云和下雨。
2 广泛的大数据源头——人类社会
香山衡器集团有这么一个梦想:在传统的体重秤和脂肪秤的基础上,用厨房秤自动识别食材种类(视觉搜索),记录重量;同时,通过便携式一体化的温度计、血氧仪、血压计、血糖仪、心率计等穿戴设备测量并记录身体显性健康数据,智慧地提供有关膳食结构、睡眠、心理和运动等健康解决方案。
想象一下,如果加上医院测量的隐性健康和诊断数据(扁桃体发炎、肝病、遗传病等),那么每个人完全可以拥有一个伴随一生的健康数据库,记录身体的各项指标。从最初的外界风寒或者食物的影响,到身体不适的参数变化,再到后来康复的过程,大量数据都会被记录下来。如果人群样本足够,运用大数据技术,可以分析出病理。那么,有人怀孕时,可穿戴设备能通过脉搏监测功能,提前预知并提醒,老中医的经验将被数据化;大数据处理中心能够提供健康解决方案,让人远离亚健康状态,更不用说生病了。
能够获取这些数据变得尤为重要,这是提供智慧的健康解决方案的基础。这些数据不仅有商业价值,还有社会价值和历史价值,后人将知道我们的膳食结构、生活习惯、身体指标等数据。
3大数据源头——意义非凡
然而,不仅厨房秤可以获得有关食材的数据, Google Glass
2.0或许也能识别并记录即将入口食物的数据。数据的源头是多源的,电影票房可以用电影院的座位传感器监测上座率,得到准确的数字。谷歌也能根据搜索量预测电影票房,准确率达94%。这就需要认识并挖掘大数据的价值,不能挖一口大数据源头的井,就把自己的数据井挖大,发现其中的价值。Linkedin发现雷曼兄弟的来访者忽然多了起来,就可以预见雷曼兄弟的倒闭。
在有形产品和无形产品(服务)的基础上,大数据源的价值将凸显。搜索引擎、媒体监测、点评、比价等互联网业务都是基于大量数据的,这些公司将分散凌乱的“小数据”集中起来,形成大数据,挖掘其中的价值。像Facebook、Twitter这类产品自身产生了大量数据,自然的占领了有关个人动态和社交的大数据源头,这些数据可以用作预测股市、选举结果、赛事比分等,这就是开放平台的作用,允许进行复杂的数据交互。无论是新浪微博开放平台,还是淘宝开放平台,数据是它们的核心竞争力。
这些掌握原始数据源头、分发数据的公司将炙手可热,一些自然界和人类社会尚未发现价值和挖掘的数据暗示着新的商业机会。整个大数据利用的阶段中,存储处理层是技术密集型的,但是,如果丧失了基础源头层,巧妇难为无米之炊。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-04-27在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21