京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据真的不需要人为干预吗?
关于“大数据”你一定听滥了,但也没搞明白究竟是怎么回事。尽管你无时无刻不在感受到它带来的“某些”便利:
比如一周前你在某个社交网站上做面试测试题,当你面试完时才知道,那份测试题真正的意图是匹配你与团队性格的契合度有多高。又如,在十一黄金周前你接到某个购票应用推送的信息,上面提示你提前16天通过电话订火车票,要比同日在网上购票成功机率高。当你真的打过去时,发现电话预订系统正处于繁忙状态,而不得不等了2小时后再致电,才订票成功。但好过同一时刻被卡在12306网站上而付不了款。
大数据正在渗透各行各业,甚至能跟你考试能力测试、患上某种疾病的机率等非常生活化的场景应用都发生紧密的联系。今后大数据在我们的生活中就像是水和电一样,让社会整个信息质量更好、让信息利用效率更高效。
在这个系统中,数据的采样与后期分析仍需要靠人为力量去完成。
众包让数据采样更自动化
“今后人工干预会越来越不必要,至少在前端采集数据是这样。”产品经理James向腾讯科技谈到,现在很多数据的采集都来自与用户的交互行为,比如搜索、微博互动、又比如“喜欢”、“赞”、“丢掉废纸篓”这类在应用中小的设计,只要用户主动完成,在后台便可推算出数据质量。
洋葱价格的高涨起落决定了印度通货膨胀率的趋势,一家名为Premise的创业公司,每天通过700多个安装了自己开发应用的用户来实时上传各地区的不同洋葱零售价格。
该公司的联合创始人大卫-斯洛夫(David Soloff)认为,这是一种能够实时感知全球金融动态的有效渠道,因为当地商店一般都会根据经济环境的变化(其中包括批发价格和消费者信心等因素)及时调整商品售价。
“Premise所提出的分析方法已经证明,根据自己所收集的数据在部分经济环境中提前4-6周给出通胀指标预测。大家完全不必再等待此前那种每月一次的‘经济天气预报’了。”斯洛夫强调。
而对零售门店来说,货架上品牌的陈列直接决定着销量,如何让品牌在流动的顾客中一直占据较好的陈列位置,让这项工作既需要耗时耗力,也非常琐碎。
为此一家名为Quri的公司,通过开发一款名为EasyShift的应用,让用户有偿贡献时间去精力去完成这项数据的收集。用户只要领取应用下达的任务,在指定的地点拍指定场所的照片,上传到Quri的服务器上,便可领取相应微薄的报酬。
EasyShift的理念不难理解:现在大多数用户都随身携带智能手机。品牌商想要了解自己的商品在大型零售店的展示情况、评估竞争对手的动态、报告断货的产品和定价信息、监测促销和产品发布情况。EasyShift向消费者付费,让他们在购物时顺手收集这些信息。
在日本大地震中,意外地运用了某汽车品牌车载导航实时的可视化数据,打通“绿色生命通道”的项目“连接生命线”。
该项目负责人菅野熏是日本电通创意设计中心高级总监,在日本大地震前他接受了某汽车品牌的合作项目。该项目为在某路段行驶了哪一辆车,什么时间行驶,位于哪个经纬度,以多快的速度朝哪个方向行驶等,每分钟大约有十万条的动态数据都会记录在一个车载导航数据库中,菅野熏将这些数据集成一个程序内,并以日本地图的形式展现出来。
在日本发生地震时,这些导航数据都能临时派上用场。
“地震时,通讯信号都不太畅通,人们只能够通过网络确认亲人朋友是否平安,我们所面临的挑战就是如何将救援队去送往灾区。”菅野熏说道。
导航数据本来用于交通拥堵情况而搜集车辆的行驶数据。“从另一个角度来说,有车辆行驶的数据说明,道路是可通过的。”菅野熏谈到,地震后一旦有车辆行驶,就用绿色去进行标注,形成一条通行轨迹。
与此同时,团队还在Twitter上实时组织用户去发布目前全日本各地路况与路标信息,综合两类信息后,将绿色生命通道数据于地震发生20个小时后发布在网上公开下载。除了网页端外,编程人员也快速开发了移动端。在当时的危机之下,信息扩散的力度是极快的,很快在在网站和手机应用中,多条绿色的线路都逐一呈现,为救援队快速到达提供了参考。
大数据时代人工干预仍有必要
机器学习在大数据中确实占据主导作用,但真的不需要人为干预吗?例如,你已经习惯泛滥在身边网络营销,但你真的认可靠单纯的数学模型与规模数据分析的营销推荐吗?
ZestFinance是一个利用机器学习加大数据分析为payday loan行业(发薪日贷款,类似高利贷的短期高利息借款)提供客户品质分析的平台。
与传统的分析方式不同,ZestFinance可同时运营多个模型对海量数据进行分析来判断各种可能性,再加上越来越多的数据来源和种类,然后这些信息被转化为几万个可对借贷者行为做出测量的指标,如诈骗几率、长期和短期内的信用风险和他的偿还能力。最后各模型的结果被整合成最终结果。这个平台可在几秒间为用户提供最可靠的结果。创始人Merrill说:“我们更倾向于通过把机器学习机制和人工干预结合到一起。”
例如在医疗领域,机器学习基础上的数据分析就远远不够。“因为机器学习能推算出一定比例的概率,但无法达到精确、精准。”春雨掌上医生CTO曾柏毅向腾讯科技举例,如对于某种疾病模型的设计,是通过调取现有数据库中所有相似度90%以上提问,将问题结果分析汇总,制作疾病发生概率模型,并将每个问题医生的建议,总结出“无大碍”和“去医院“比例,为患者提供直观的数据参考。
“但这也是取一定比例的概率,是用于用户自查。可是否能精确到病人真的符合这种病症,还是需要人为分析(医生诊断),我们这些在后台的数据分析员也要去再排查、甄别数据的准确度。”上述人士谈到。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在MySQL数据库优化中,分区表是处理海量数据的核心手段——通过将大表按分区键(如时间、地域、ID范围)分割为多个独立的小分区 ...
2026-03-19在商业智能与数据可视化领域,同比、环比增长率是分析数据变化趋势的核心指标——同比(YoY)聚焦“长期趋势”,通过当前周期与 ...
2026-03-19在数据分析与建模领域,流传着一句行业共识:“数据决定上限,特征决定下限”。对CDA(Certified Data Analyst)数据分析师而言 ...
2026-03-19机器学习算法工程的核心价值,在于将理论算法转化为可落地、可复用、高可靠的工程化解决方案,解决实际业务中的痛点问题。不同于 ...
2026-03-18在动态系统状态估计与目标跟踪领域,高精度、高鲁棒性的状态感知是机器人导航、自动驾驶、工业控制、目标检测等场景的核心需求。 ...
2026-03-18“垃圾数据进,垃圾结果出”,这是数据分析领域的黄金法则,更是CDA(Certified Data Analyst)数据分析师日常工作中时刻恪守的 ...
2026-03-18在机器学习建模中,决策树模型因其结构直观、易于理解、无需复杂数据预处理等优势,成为分类与回归任务的首选工具之一。而变量重 ...
2026-03-17在数据分析中,卡方检验是一类基于卡方分布的假设检验方法,核心用于分析分类变量之间的关联关系或实际观测分布与理论期望分布的 ...
2026-03-17在数字化转型的浪潮中,企业积累的数据日益庞大且分散——用户数据散落在注册系统、APP日志、客服记录中,订单数据分散在交易平 ...
2026-03-17在数字化时代,数据分析已成为企业决策、业务优化、增长突破的核心支撑,从数据仓库搭建(如维度表与事实表的设计)、数据采集清 ...
2026-03-16在数据仓库建设、数据分析(尤其是用户行为分析、业务指标分析)的实践中,维度表与事实表是两大核心组件,二者相互依存、缺一不 ...
2026-03-16数据是CDA(Certified Data Analyst)数据分析师开展一切工作的核心载体,而数据读取作为数据生命周期的关键环节,是连接原始数 ...
2026-03-16在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11