京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据真的不需要人为干预吗?
关于“大数据”你一定听滥了,但也没搞明白究竟是怎么回事。尽管你无时无刻不在感受到它带来的“某些”便利:
比如一周前你在某个社交网站上做面试测试题,当你面试完时才知道,那份测试题真正的意图是匹配你与团队性格的契合度有多高。又如,在十一黄金周前你接到某个购票应用推送的信息,上面提示你提前16天通过电话订火车票,要比同日在网上购票成功机率高。当你真的打过去时,发现电话预订系统正处于繁忙状态,而不得不等了2小时后再致电,才订票成功。但好过同一时刻被卡在12306网站上而付不了款。
大数据正在渗透各行各业,甚至能跟你考试能力测试、患上某种疾病的机率等非常生活化的场景应用都发生紧密的联系。今后大数据在我们的生活中就像是水和电一样,让社会整个信息质量更好、让信息利用效率更高效。
在这个系统中,数据的采样与后期分析仍需要靠人为力量去完成。
众包让数据采样更自动化
“今后人工干预会越来越不必要,至少在前端采集数据是这样。”产品经理James向腾讯科技谈到,现在很多数据的采集都来自与用户的交互行为,比如搜索、微博互动、又比如“喜欢”、“赞”、“丢掉废纸篓”这类在应用中小的设计,只要用户主动完成,在后台便可推算出数据质量。
洋葱价格的高涨起落决定了印度通货膨胀率的趋势,一家名为Premise的创业公司,每天通过700多个安装了自己开发应用的用户来实时上传各地区的不同洋葱零售价格。
该公司的联合创始人大卫-斯洛夫(David Soloff)认为,这是一种能够实时感知全球金融动态的有效渠道,因为当地商店一般都会根据经济环境的变化(其中包括批发价格和消费者信心等因素)及时调整商品售价。
“Premise所提出的分析方法已经证明,根据自己所收集的数据在部分经济环境中提前4-6周给出通胀指标预测。大家完全不必再等待此前那种每月一次的‘经济天气预报’了。”斯洛夫强调。
而对零售门店来说,货架上品牌的陈列直接决定着销量,如何让品牌在流动的顾客中一直占据较好的陈列位置,让这项工作既需要耗时耗力,也非常琐碎。
为此一家名为Quri的公司,通过开发一款名为EasyShift的应用,让用户有偿贡献时间去精力去完成这项数据的收集。用户只要领取应用下达的任务,在指定的地点拍指定场所的照片,上传到Quri的服务器上,便可领取相应微薄的报酬。
EasyShift的理念不难理解:现在大多数用户都随身携带智能手机。品牌商想要了解自己的商品在大型零售店的展示情况、评估竞争对手的动态、报告断货的产品和定价信息、监测促销和产品发布情况。EasyShift向消费者付费,让他们在购物时顺手收集这些信息。
在日本大地震中,意外地运用了某汽车品牌车载导航实时的可视化数据,打通“绿色生命通道”的项目“连接生命线”。
该项目负责人菅野熏是日本电通创意设计中心高级总监,在日本大地震前他接受了某汽车品牌的合作项目。该项目为在某路段行驶了哪一辆车,什么时间行驶,位于哪个经纬度,以多快的速度朝哪个方向行驶等,每分钟大约有十万条的动态数据都会记录在一个车载导航数据库中,菅野熏将这些数据集成一个程序内,并以日本地图的形式展现出来。
在日本发生地震时,这些导航数据都能临时派上用场。
“地震时,通讯信号都不太畅通,人们只能够通过网络确认亲人朋友是否平安,我们所面临的挑战就是如何将救援队去送往灾区。”菅野熏说道。
导航数据本来用于交通拥堵情况而搜集车辆的行驶数据。“从另一个角度来说,有车辆行驶的数据说明,道路是可通过的。”菅野熏谈到,地震后一旦有车辆行驶,就用绿色去进行标注,形成一条通行轨迹。
与此同时,团队还在Twitter上实时组织用户去发布目前全日本各地路况与路标信息,综合两类信息后,将绿色生命通道数据于地震发生20个小时后发布在网上公开下载。除了网页端外,编程人员也快速开发了移动端。在当时的危机之下,信息扩散的力度是极快的,很快在在网站和手机应用中,多条绿色的线路都逐一呈现,为救援队快速到达提供了参考。
大数据时代人工干预仍有必要
机器学习在大数据中确实占据主导作用,但真的不需要人为干预吗?例如,你已经习惯泛滥在身边网络营销,但你真的认可靠单纯的数学模型与规模数据分析的营销推荐吗?
ZestFinance是一个利用机器学习加大数据分析为payday loan行业(发薪日贷款,类似高利贷的短期高利息借款)提供客户品质分析的平台。
与传统的分析方式不同,ZestFinance可同时运营多个模型对海量数据进行分析来判断各种可能性,再加上越来越多的数据来源和种类,然后这些信息被转化为几万个可对借贷者行为做出测量的指标,如诈骗几率、长期和短期内的信用风险和他的偿还能力。最后各模型的结果被整合成最终结果。这个平台可在几秒间为用户提供最可靠的结果。创始人Merrill说:“我们更倾向于通过把机器学习机制和人工干预结合到一起。”
例如在医疗领域,机器学习基础上的数据分析就远远不够。“因为机器学习能推算出一定比例的概率,但无法达到精确、精准。”春雨掌上医生CTO曾柏毅向腾讯科技举例,如对于某种疾病模型的设计,是通过调取现有数据库中所有相似度90%以上提问,将问题结果分析汇总,制作疾病发生概率模型,并将每个问题医生的建议,总结出“无大碍”和“去医院“比例,为患者提供直观的数据参考。
“但这也是取一定比例的概率,是用于用户自查。可是否能精确到病人真的符合这种病症,还是需要人为分析(医生诊断),我们这些在后台的数据分析员也要去再排查、甄别数据的准确度。”上述人士谈到。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、用户运营与业务增长的工作体系中,漏斗拆解是最基础也最高频的问题定位方法。很多业务场景下,我们只能看到最终的转 ...
2026-06-17在数据库开发、数据清洗与报表统计场景中,数值类型转换为日期是高频刚需操作。业务系统常以 Unix 时间戳、整型日期(如20240617 ...
2026-06-17 数据分析师八成以上的时间在和数据表格打交道,但许多人拿到Excel后习惯性地先算、先分析,结果回头发现漏了一列关键数据, ...
2026-06-17【核心关键词】数据库、电商、知识、产品、数据产品、监管业务、产品经理、业务系统、用户行为分析、用户分析、数据分析、电商 ...
2026-06-16在 Python 动态类型与面向对象的编程体系中,变量定义与类实例化是构建代码逻辑的两大核心基石。变量是数据存储、传递与运算的基 ...
2026-06-16 很多数据分析师每天与Excel打交道,但当被问到“表格结构数据和表结构数据有什么区别”“数据类型误判会引发哪些分析错误” ...
2026-06-16在 MySQL 查询性能优化体系中,索引是降低查询耗时、提升数据库吞吐的核心手段。其中联合索引与覆盖索引是实际开发中最高频的两 ...
2026-06-15在数据仓库建设与商业智能分析体系中,维度建模是应用最广泛的建模方法论,而事实表与维度表是维度建模的两大核心构件,共同构成 ...
2026-06-15 很多数据分析师能熟练计算指标,但当被问到“这家企业的核心业务目标是什么”“如何把模糊的战略目标拆解为可量化的指标”“ ...
2026-06-15在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10 很多数据分析师每天都在计算指标、制作报表,但当被问到“什么叫指标数据元”“指标数据标准包含哪些核心维度”“指标数据质 ...
2026-06-10在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09