京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据真的不需要人为干预吗?
关于“大数据”你一定听滥了,但也没搞明白究竟是怎么回事。尽管你无时无刻不在感受到它带来的“某些”便利:
比如一周前你在某个社交网站上做面试测试题,当你面试完时才知道,那份测试题真正的意图是匹配你与团队性格的契合度有多高。又如,在十一黄金周前你接到某个购票应用推送的信息,上面提示你提前16天通过电话订火车票,要比同日在网上购票成功机率高。当你真的打过去时,发现电话预订系统正处于繁忙状态,而不得不等了2小时后再致电,才订票成功。但好过同一时刻被卡在12306网站上而付不了款。
大数据正在渗透各行各业,甚至能跟你考试能力测试、患上某种疾病的机率等非常生活化的场景应用都发生紧密的联系。今后大数据在我们的生活中就像是水和电一样,让社会整个信息质量更好、让信息利用效率更高效。
在这个系统中,数据的采样与后期分析仍需要靠人为力量去完成。
众包让数据采样更自动化
“今后人工干预会越来越不必要,至少在前端采集数据是这样。”产品经理James向腾讯科技谈到,现在很多数据的采集都来自与用户的交互行为,比如搜索、微博互动、又比如“喜欢”、“赞”、“丢掉废纸篓”这类在应用中小的设计,只要用户主动完成,在后台便可推算出数据质量。
洋葱价格的高涨起落决定了印度通货膨胀率的趋势,一家名为Premise的创业公司,每天通过700多个安装了自己开发应用的用户来实时上传各地区的不同洋葱零售价格。
该公司的联合创始人大卫-斯洛夫(David Soloff)认为,这是一种能够实时感知全球金融动态的有效渠道,因为当地商店一般都会根据经济环境的变化(其中包括批发价格和消费者信心等因素)及时调整商品售价。
“Premise所提出的分析方法已经证明,根据自己所收集的数据在部分经济环境中提前4-6周给出通胀指标预测。大家完全不必再等待此前那种每月一次的‘经济天气预报’了。”斯洛夫强调。
而对零售门店来说,货架上品牌的陈列直接决定着销量,如何让品牌在流动的顾客中一直占据较好的陈列位置,让这项工作既需要耗时耗力,也非常琐碎。
为此一家名为Quri的公司,通过开发一款名为EasyShift的应用,让用户有偿贡献时间去精力去完成这项数据的收集。用户只要领取应用下达的任务,在指定的地点拍指定场所的照片,上传到Quri的服务器上,便可领取相应微薄的报酬。
EasyShift的理念不难理解:现在大多数用户都随身携带智能手机。品牌商想要了解自己的商品在大型零售店的展示情况、评估竞争对手的动态、报告断货的产品和定价信息、监测促销和产品发布情况。EasyShift向消费者付费,让他们在购物时顺手收集这些信息。
在日本大地震中,意外地运用了某汽车品牌车载导航实时的可视化数据,打通“绿色生命通道”的项目“连接生命线”。
该项目负责人菅野熏是日本电通创意设计中心高级总监,在日本大地震前他接受了某汽车品牌的合作项目。该项目为在某路段行驶了哪一辆车,什么时间行驶,位于哪个经纬度,以多快的速度朝哪个方向行驶等,每分钟大约有十万条的动态数据都会记录在一个车载导航数据库中,菅野熏将这些数据集成一个程序内,并以日本地图的形式展现出来。
在日本发生地震时,这些导航数据都能临时派上用场。
“地震时,通讯信号都不太畅通,人们只能够通过网络确认亲人朋友是否平安,我们所面临的挑战就是如何将救援队去送往灾区。”菅野熏说道。
导航数据本来用于交通拥堵情况而搜集车辆的行驶数据。“从另一个角度来说,有车辆行驶的数据说明,道路是可通过的。”菅野熏谈到,地震后一旦有车辆行驶,就用绿色去进行标注,形成一条通行轨迹。
与此同时,团队还在Twitter上实时组织用户去发布目前全日本各地路况与路标信息,综合两类信息后,将绿色生命通道数据于地震发生20个小时后发布在网上公开下载。除了网页端外,编程人员也快速开发了移动端。在当时的危机之下,信息扩散的力度是极快的,很快在在网站和手机应用中,多条绿色的线路都逐一呈现,为救援队快速到达提供了参考。
大数据时代人工干预仍有必要
机器学习在大数据中确实占据主导作用,但真的不需要人为干预吗?例如,你已经习惯泛滥在身边网络营销,但你真的认可靠单纯的数学模型与规模数据分析的营销推荐吗?
ZestFinance是一个利用机器学习加大数据分析为payday loan行业(发薪日贷款,类似高利贷的短期高利息借款)提供客户品质分析的平台。
与传统的分析方式不同,ZestFinance可同时运营多个模型对海量数据进行分析来判断各种可能性,再加上越来越多的数据来源和种类,然后这些信息被转化为几万个可对借贷者行为做出测量的指标,如诈骗几率、长期和短期内的信用风险和他的偿还能力。最后各模型的结果被整合成最终结果。这个平台可在几秒间为用户提供最可靠的结果。创始人Merrill说:“我们更倾向于通过把机器学习机制和人工干预结合到一起。”
例如在医疗领域,机器学习基础上的数据分析就远远不够。“因为机器学习能推算出一定比例的概率,但无法达到精确、精准。”春雨掌上医生CTO曾柏毅向腾讯科技举例,如对于某种疾病模型的设计,是通过调取现有数据库中所有相似度90%以上提问,将问题结果分析汇总,制作疾病发生概率模型,并将每个问题医生的建议,总结出“无大碍”和“去医院“比例,为患者提供直观的数据参考。
“但这也是取一定比例的概率,是用于用户自查。可是否能精确到病人真的符合这种病症,还是需要人为分析(医生诊断),我们这些在后台的数据分析员也要去再排查、甄别数据的准确度。”上述人士谈到。
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Excel数据分析中,数据透视表是汇总、整理海量数据的高效工具,而公式则是实现数据二次计算、逻辑判断的核心功能。实际操作中 ...
2026-04-30Excel透视图是数据分析中不可或缺的工具,它能将透视表中的数据快速可视化,帮助我们直观捕捉数据规律、呈现分析结果。但在实际 ...
2026-04-30 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-04-30在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-04-27在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22