京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据背后,不可忽视的“人”
当下中国,大数据是个热词。无人汽车、人工智能、生物医疗,各种新科技中,大数据的身影无处不在,它像一把万能钥匙,开启了很多不为人知的空间。
但在人们热捧大数据的同时,却往往就数据论数据,甚至陷入数据膜拜,而忽视了大数据背后的人的因素。大数据是怎样发挥价值的?那些不会说话的数据又是怎样讲述鲜活的故事的?关注到腾讯近日发布的大数据报告《95后迷之隐私观大揭秘》,记者走进位于深圳的腾讯总部,走进那些让数据“活”起来的人。
大数据给不出解释
搞大数据研发,不就是坐在实验室、电脑前,整天对着数字噼里啪啦地运算?可腾讯公司用户与市场研究中心调研员韩娜,更多地是奔波在见调研对象的路上。
韩娜讲了一个对于她来说“家常”的故事。
一年冬天,她从南方的深圳赶到北方的沈阳,约了一个孩子做用户调研。本来知情的父母临时有事不在,孩子的姑姑不让韩娜进门。韩娜拿出身份证、工作证、介绍信,反复解释,但所有证明一概无用,对方就是不肯相信。
最终,韩娜被“砰”的一声拒之门外。
类似的经历,韩娜所在的团队几乎人人都遇到过。
很多人不理解,一个互联网公司怎么还用上门调研这种“老土”的方式?
的确,拥有7.62亿月活跃微信账户、8.77亿月活跃QQ账户的腾讯,并不缺乏用户社交的大数据,但光有数字就行了吗?
“大数据给出了结论,但给不了解释。”用户与市场研究中心总监谭池举了一个他自己的亲身经历。
多年前,他曾经参与过早期苹果手机一代的调研。当时,老外们通过大数据惊讶地发现一个现象:苹果的几种输入法中,中国人特别偏爱某一种。可是老外想不通,这是为什么?
谭池说,“为什么”往往是大数据的盲点,而产品改进的关键,有时候恰恰就在于这个“为什么”。想要找到答案,目前,还只能依靠传统的人对人询问。
当时,经过传统调研,谭池找到了原因:中国抽烟人口比西方国家多,许多公共场合更是想抽就能抽,人们一只手拿烟时,只好单手握着手机打字,因此中国的苹果一代用户,特别偏爱单手型、单指型的输入法。知道这个“为什么”以后,相关产品的开发,开始更多考虑单手模式了。
数据会抛出许多令人惊讶的结果。但结果意味着什么,人们仍然一无所知。可以说,人与人交流的传统模式,不仅没有被掩埋,反而在大数据时代,被一个个数据又激发出来。
大数据读不出场景
“滴”“滴”——访谈室里充满此起彼伏的电子音。研究员们有些震惊。
事情缘起于产品经理想做一个无障碍功能的设计。研究员朱丹招募了6位盲人进行访谈。起初,大家做好充分准备,以为盲人们可能不会使用智能手机,不会用APP,需要先教一下。
但没想到,这群盲人使用互联网产品相当熟练。他们利用智能手机的读屏功能,并且每个人都把声音调到最快档,只听见手机发出“滴”“滴”这样短促的电子音,常人的耳朵根本听不懂是什么,但6位盲人却在怪诞的声音中,熟练地使用互联网,让在场的“小伙伴都惊呆了”。
“原来网络对他们的帮助比我想象中大很多。”朱丹感慨。有位盲人告诉她,比如移动支付,对正常人来说只是多了一种支付手段,但对他们而言是一种颠覆式的设计,大大方便了盲人消费。
大数据往往会这样,提供了一个结果,但它并不知道用户在使用产品时,身处什么样的场景,怀揣怎样的心情,有着怎样的需求。这一切,唯有人与人面对面,才能知晓。
还有一次,谭池找到了成都的一名用户,兴高采烈跑到对方家里。目的是为了知道,用户使用产品时,真实的生活场景什么样。一番交流和观察后,他忽然觉得不太对劲:这户人家冰箱里只有6罐可乐,没有多余的食物,房间里也找不到水壶或饮水机。谭池发短信给同行的同事:留意一下,这是不是他真的家。
等到双方聊得很开心以后,对方果然露出了口风,原来他确实不住在这儿,这间屋子的主人是他父母,目前租给别人,这次为了接受调研,临时借用了一下。
“这样一来,我观察他的生活场景,有一半信息就没用了,比如小区、邻里关系等。”谭池遗憾地说。
进一步说,比起直接的数据,如何解读数据背后的意义,才是把大数据用“活”的重头戏。用户真正的使用情景,他们的担忧、开心、困惑与不爽,目前的大数据读不出来。数据再大也是死的,只有人能激活它。
大数据不知道怎么做
多年前,有一位调研员曾经接过一个项目,对方要求调研某产品在用户心中是多少分,如果得分在80分以下,整个相关团队就要被撤销。“其实,给79分还是80分,有很大区别吗?”谭池反问,“不谈评分机制,就算根据数据得分,判了一个团队的生死又怎样?问题还是在那儿,依然没有得到解决。”
大数据本身,并不能给出一个既定做法。面对数据运算的结果,之后的步骤可能更加重要。
调研员小迪同时负责1-3个调研项目,一般9点半从公司出发,去深圳市里与用户一对一访谈。中午回公司,下午另外一个项目的招募和策划会议又开始了,当中偶有空隙,他就回到座位写一些访谈总结。这就是一名调研员每天的工作日常。
每一年,研究中心负责调研的项目数以百计,这些课题并非调研员自己“拍脑袋”想的,大部分来自产品策划的需求方,比如产品经理,改进一个产品功能时可能会冒出一个问题,希望通过调研来解答。
韩娜说,刚入这一行,自己与产品经理交流时,经常需要磨合。比如一位产品经理很纠结,关于“签到”有两种改进方案,究竟95后用户更喜欢哪一种呢?他不知道。他可能先去找数据师,去调相关的大数据。大数据显示,95后更热衷于每天上网“签到”。但是他们“签到”究竟是出于什么心理,获得了什么满足,数据并不懂。
于是,产品经理接着找韩娜,请她进行用户研究。结果显示,95后乐意“签到”,更多是为了满足自己的情感需求,尤其是“刷存在感”。可是知道了这一点后,产品经理依然无法抉择,究竟哪个方案更好。
时间久了,韩娜渐渐明白,自己做完调研,不能仅仅解答“为什么”,“用户怎么想”,还要给出“怎么做”的建议。
当然,再细致的调研,最终也不一定能找到产品经理想要的答案。有时候,答案是有了,但考虑到成本营收、缺乏供应商、缺乏可操作性等因素,改进方案依然不了了之。大数据和访谈就都白做了。
另一位调研员马建说,自己工作最开心的那刻,就是调研的建议被采纳,最终体现到产品中。
今天的企业、政府,乃至整个社会,很容易通过大数据对市场一目了然,但一目了然之后怎么做?漠视它、改正它、还是适应它?
大数据未必懂得价值
罗英、何文是“数据挖掘师”。但这份工作想做得好,单纯依靠算数据并不够,其实还要动用“情商”。
比如,QQ音乐有一个功能叫“猜你喜欢”。根据用户的数据,软件会自动推荐一些陌生歌曲,它们往往符合你的音乐品位。这种推荐,显然是基于大数据平台。一般我们以为,只要提供一些算法,大数据平台照此运算就成,但事实没那么简单。
首当其冲的是准确率。“猜你喜欢”究竟能猜对多少首歌?不同的数据师,可能会设计不同的算法,有的人效果明显比较好,他把“年龄”的数据用起来,而另外一个人没用,就会导致两者准确率差很大。
究竟需要考虑哪些数据维度,荐歌才会最符合心意呢?没有标准答案,不同数据师有自己的判断。同样的大数据库,一个运算下来比较准确,一个不准,其中唯一的变化就是人。
第二个问题是,为什么有人能想到“年龄”,而有人却想不到?凭借的也是个人经验。或者说,凭借的是人对事物的理解,考验的正是数据师的“情商”。
“在我们行内有一个不等式:业务知识>数据>算法。”罗英解释,“而业务知识就是你的理解能力。”用同行的话来说,就是“你的架构是否合理。”
没什么课题的时候,数据师的常规工作十分枯燥。
每天上班第一件事,就是低头看手机。手机上,已经装有数据展示的平台,到点就会自动发布一些基本情况,比如当天登录用户数多少,这些已经无需太多人工干预。
然而一旦看出今天的数据有异常波动,数据师就要马上查找原因,比如去各个相关部门询问,是不是因为今天有大型活动?如果有,那算是幸运的。比较棘手的情况是,今天更新了一个新版本,而用户在新版本上,上传照片的完成率很低,那也是一种异常,需要赶紧找原因。
如果产品经理提出一个课题,需要与小伙伴们凑在一起开会讨论,那数据师的工作会稍微有趣些。
比如最近,产品经理提出:能不能根据大数据,观察每座城市的人口迁移,随后做一份《城市年轻指数》报告?
策划会上,数据师们给出了这样一些数据:用户的登录地,再比对他们的年龄信息等。最后给出来的数据,大家一看都觉得有价值,《城市年轻指数》报告就这样出炉了。
当然,更多时候,理想很完美,但运算出来的数据却没什么变化,被判定“数据价值不大”,议题便会不了了之。
“大数据就好像是一杯水,我们需要去厨房煮菜,水只是材料之一。我们不能直接把水卖给客户,我们需要煮好一碗菜,才能端给客户。”罗英形容。
何文则说,他工作的成就感,不在于运算大数据,而在于最终“能给出有价值的数据”。
大数据还能做什么
第一张与家人的合影、第一张旅行的照片、第一张宝宝的笑容……
已经活跃了11年的社交平台QQ空间有着丰富的用户数据,最近,腾讯运用这些数据,为个人生成一份“社交回顾互动”H5,比如显现出你第一次注册空间的时间,跳出第一张上传的家人合照。
“其实也捏了一把汗,这对图片的数据解读要求非常高。”从事QQ空间运营的琪琪说,“试想,第一张与家人的合影,万一大数据判断错误,跳出来的照片是与男同事的合影,岂不是很尴尬?”怎么抽取数据,让数据判断准确很重要。
小迪做调研时遇到一名初中男孩,对方很有倾诉欲。男孩告诉他,自己有5个QQ号,4个已经被妈妈“破解”了,可能是因为密码太简单,都是生日之类,妈妈太容易猜到。于是他想出了第5个QQ密码,复杂到连自己也记不住。他把密码放在带锁的储钱罐里,再把储钱罐藏在床底下,每次用这个账号登录QQ时,他都要先从床底下把密码翻出来才行。即便如此,为了屏蔽父母,他还准备再注册一个账号。
这个故事,后来被小迪写进了《95后迷之隐私观大揭秘》报告中。该报告揭示,95后是一群非常注重隐私的群体,近4成95后认为,自己的隐私遭到过侵犯,他们为了保护隐私采取过各种小手段。
然而隐私报告诞生后,也让一些媒体和学者产生了危机感。报告既有大数据的样本分析,这点比高校科研的取样还大;又有案例故事,这点又与媒体的角度重合。长此以往,是不是一家互联网公司就能自己完成科研报告了?大数据会不会让一些科研机构被取代呢?
除了活动、推荐、科研,大数据目前已经用来进行精准的广告投放。比如一个平台,经大数据分析,把1000万流量分成两半,一半是对汽车感兴趣的人,一半是对奶粉感兴趣的人。只需要把500万流量给车商打广告,它的转化率就非常高。
而最让人期待的是,大数据在某个领域正发挥着超乎想象的作用——城市公共空间的实时数据检测。
类似功能,其实微信上已经有了。打开微信个人钱包,选择城市服务,右下方有一条“城市热力图”。点击进入,热力图能实时显现你所在的位置附近,有多少人流,它意味着交通是否拥挤。当然,扩大使用的话,它还能实时监测某块区域,是否短时间内人流密度过高,及时提出预警。
也是基于相同的原理,近几年腾讯发布了春运迁徙报告,实时监测每年春运的迁徙情况。
以上这些,都是已经使用大数据的方面,而未来,很多人都对大数据赋予了想象空间——
当每个人的身体信息都能被实时收集,形成个人的大数据时,人会怎样?当整个社会被大数据连接起来,形成一个庞大的系统,不仅交通、运输,整座城市管理,都可以用大数据运算出一个“最佳方案”时,城市又会怎样?
我们已经迈入一个大数据的时代。有人说,终究有一天,数据的价值将超过土地的价值。但是也有人说,世界就是一个“黑盒子”,永远无法窥探内部的秘密。
远古时代,宇宙对于人类就是一个巨大的黑盒子。如今,科学技术正在解开一个又一个黑盒子,可是大数据的终解会通往哪里?目前依然没人说得清楚。
“技术是有局限性的。”当我们一直在展望科技的无限可能时,反倒是这些一直与大数据打交道的人,不断强调着这一点。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22