
大数据要经得起三问:从哪来怎么用谁买单
当我们面对一项大数据应用时,只要简单问一问3个问题——数据哪里来、数据怎么用、成果谁买单——就能揭开许多“伪装”。日前由中国管理科学学会大数据管理专委会、国务院发展研究中心产业互联网课题组发布的《大数据应用蓝皮书:中国大数据应用发展报告No.1(2017)》指出,如许多应用并没有可靠的数据来源,或者数据来源不具备可持续性;还有些应用并没有技术或市场支撑,只是借助大数据风口套取政府部门或一些投资者的“傻钱”罢了。当然,如果经得起上述“大数据三问”,也并不一定算得上优秀,但也离优秀的大数据应用不远了。
数据从哪里来?
关于数据来源,普遍认为互联网及物联网是产生并承载大数据的基地。互联网公司是天生的大数据公司,在搜索、社交、媒体、交易等各自核心业务领域,积累并持续产生海量数据。物联网设备每时每刻都在采集数据,设备数量和数据量都与日俱增。这两类数据资源作为大数据金矿,正在不断产生各类应用。国外关于大数据的成功经验介绍,大多是这类数据。
资源应用的经典案例。还有一些企业,在业务中也积累了许多数据,如房地产交易、大宗商品价格、特定群体消费信息,等等。从严格意义上说,这些数据资源还算不上大数据,但对商业应用而言,却是最易获得和比较容易加工处理的数据资源,也是当前在国内比较常见的应用资源。
在国内还有一类是政府部门掌握的数据资源,普遍认为质量好、价值高,但开放程度差。许多官方统计数据通过灰色渠道流通出来,经过加工成为各种数据产品。2015年,国务院印发的《促进大数据行动纲要》把公共数据互联开放共享作为努力方向,认为大数据技术可以实现这个目标。实际上,长期以来政府部门间信息数据相互封闭割裂是治理问题而不是技术问题。面向社会的公共数据开放愿望虽十分美好,但恐怕一段时间内可望而不可即。在数据资源方面,国内“小数据”、“中数据”应用并不充分,试图一步跨入大数据时代,借机一并解决前期信息化过程中没能解决的问题,前景并不乐观。另外,由于中国互联网公司业务主要在国内,其大数据资源也不是全球性的。
蓝皮书分析指出,“数据从哪里来”是我们评价大数据应用的第一个关注点。一是要看这个应用是否真有数据支撑,数据资源是否可持续,来源渠道是否可控,数据安全和隐私保护方面是否有隐患。二是要看这个应用的数据资源质量如何,是“富矿”还是“贫矿”,能否保障这个应用的实效。
数据怎么用?
“数据怎么用”是我们评价大数据应用的第二个关注点。大数据纲要规划了许多大数据应用领域和方向,包括公共部门和产业领域,实际上是提出了许多需要大数据解决的问题或期待大数据完成的任务。如何解决这些问题,如何把数据资源转化为解决方案,实现产品化,这是我们特别关注的问题。大数据只是一种手段,并不能无所不包、无所不用。我们关注大数据能做什么、不能做什么,现在看来,大数据主要有以下几种较为常用的功能。
追踪。互联网和物联网无时无刻不在记录,大数据可以追踪、追溯任何一个记录,形成真实的历史轨迹。追踪是许多大数据应用的起点,包括消费者购买行为、购买偏好、支付手段、搜索和浏览历史、位置信息,等等。
识别。在对各种因素全面追踪的基础上,通过定位、比对、筛选,可以实现精准识别,尤其是对语音、图像、视频进行识别,使可分析内容大大丰富,得到的结果更为精准。
画像。通过对同一主体不同数据源的追踪、识别、匹配,形成更立体的刻画和更全面的认识。对消费者画像,可以精准推送广告和产品;对企业画像,可以准确判断其信用及面临的风险。
提示。在历史轨迹、识别和画像基础上,对未来趋势及重复出现的可能性进行预测,当某些指标出现预期变化或超预期变化时给予提示、预警。以前也有基于统计的预测,大数据大大丰富了预测手段,对建立风险控制模型有深刻意义。
匹配。在海量信息中精准追踪和识别,利用相关性、接近性等进行筛选比对,更有效率地实现产品搭售和供需匹配。大数据匹配功能是互联网约车、租房、金融等共享经济新商业模式的基础。
优化。按距离最短、成本最低等给定的原则,通过各种算法对路径、资源等进行优化配置。对企业而言,提高服务水平、提升内部效率;对公共部门而言,节约公共资源、提升公共服务能力。
上述概括并不一定完备,大数据肯定还有其他更好的功能。当前许多貌似复杂的应用,大都可以细分成以上几种类型。例如,贵州推行的“大数据精准扶贫项目”,从大数据应用角度,通过识别、画像,可以对贫困户实现精准筛选和界定,找对扶贫对象;通过追踪、提示,可以对扶贫资金、扶贫行为和扶贫效果进行监控和评估;通过配对、优化,可以更好发挥扶贫资源的作用。这些功能也并不都是大数据所特有的,只是大数据远远超出以前的技术,可以做得更精准、更快、更好。当然,技术无法左右利益,贵州扶贫目标的完成,并不是有了大数据就万事大吉了。
成果谁买单?
“成果谁买单”是评价大数据应用的第三个也是最后一个关注点。道理很简单,不创造价值的应用不是好应用。能不能创造价值,关键看谁买单。我们不需要那些靡费公帑的“样板”工程、“面子”工程,也不需要那些炫耀神技、制造概念的创富故事。我们关注大数据的应用是否实实在在提升能力、改善绩效。如果大数据用于自身的产品设计、营销推广、资源配置,那就看企业竞争力是不是提升了,看企业最终是不是比以前更赚钱了。如果大数据用于为第三方提供服务,那就看是不是有人愿意付费、愿意持续付费。但如果是用于公共领域,还要看政府或公共部门的付费值不值,不仅仅是从出资方的视角看值不值,还要从老百姓的视角看值不值。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15