京公网安备 11010802034615号
经营许可证编号:京B2-20210330
从传统研究模式穿越到大数据“星际”
大数据,不再只是通过传统的研究方式影响世界,它所擅长的预测和探索未来趋势的能力,成为其当下最受热议的话题。
大数据(Big Data)本世纪初最早作为技术术语出现于海量信息检索领域,后续在IT领域逐步传播,并在2009年后随着云计算应用逐步受到更多关注。IBM首先对其进行商业化定义,并于2011年率先推出业务解决方案。此后,大数据更多作为业务概念迅速应用到社会各领域,并在近两年引发无限的价值遐想和业务热潮。
相对层出不穷的各种商业化包装和定义,4V(Volume-规模体量大,Variety-格式多样,Velocity-高速处理,Value-巨大价值) 理论通过4个核心特征朴素而准确地来描述了大数据。由于相关的介绍颇多,这里不再赘述,我们主要从价值开始对大数据的讨论。
1 大数据下,价值法则并没有变化
如果根据大数据的4V特性进行畅想,当我们以Velocity能力达到了Volume和Variety的处理需求,Value 是否就水到渠成了呢,答案并不是这样。因为数据的价值法则并没有变:数据只有分析后才有价值,而价值的多少取决于分析的深度和能力。
市场研究行业作为一个通过深入分析数据产生价值的行业,更有希望在大数据环境下获得广阔的发挥空间。但实际上,相对于技术性驱动的新兴的跨界竞争对手(互联网平台性企业/技术性数据服务企业等)的活跃,传统市场研究公司反应相对迟缓而被动。
针对这个问题,技术决定论认为是研究公司技术能力短板问题;而代替论则认为传统研究方式不适用于大数据,大数据下的研究方式(如个性化/预测)将彻底代替传统研究方法。
笔者在大数据相关技术领域有深入的背景,近几年又在市场研究行业工作,对研究业务特性相对比较熟悉。因此更适合从一种综合的角度看待这些问题。下文中,笔者将做相关的讨论。
2 传统市场研究与大数据研究的方法论
针对前面技术决定论的观点,笔者作为资深IT人员,实际也不敢苟同。大数据业态下,技术对市场研究的推动力是大了很多,但不是包打天下:它更多提升了分析的能力,并不是深度和专业性。而研究方法替代论的观点,则是把传统研究和大数据的研究方法论置于一种对立的角度来看问题。
正如天体物理学是我们离开地球遨游新星际的理论基础,研究方法论也是研究公司遨游数据空间的基本依据。如何从传统数据空间快速进入大数据空间,首先我们要从研究方法论角度进行辩证的分析
传统研究方法论和大数据下的新方法论,是不是真的对立或者替代的呢?我们不妨从更高的角度(以数据为统一点,把传统数据与大数据纳入一个数据时空)来看两者的特点与关系(如下图)
从上图可以看到:
(1) 市场研究公司的传统方法论,其关注是全局/群体的特性,力求发掘现象原因(Why),从而去做改进或者变化。而大数据的新方法论则更关注个体性/局部,更擅长对未来的预测(Future)。也就是说,两者适合各自适合解决不同研究目的的问题。
(2) 传统方法论与大数据方法论在数据空间可并行应用,并不割裂。尤其是前者的分析思路仍然可以适用于大数据环境,而后者是在更大数据空间下对分析方式的扩展。
所以,两种研究方法论,类似于物理学中牛顿经典力学(适合宏观低速)与狭义相对论(适合微观高速)的辩证关系,各自更适合不同的业务场景,在大数据空间下是可以互相借鉴和补充,并不是对立或者替代。
理解了这种关系后,我们进一步从大数据产品的角度,来深入讨论市场研究与大数据的关系。
大数据产品的模式
近两年来,各种企业(尤以技术驱动企业为代表)推出的大数据产品/服务层出不穷。但如果从研究产品核心的三个要素(数据特性、分析方法论和产品类型)来看,无非以下几种模式。
模式1:大数据+传统研究方法。这类大数据产品,是当前众多大数据研究产品的重要形态。比如各种基于大数据的市场份额、移动app分析、电商交易分析和用户分组等。实际上,这是一种“旧瓶加新酒”的模式,本质只是把数据从小规模替换为更大规模的数据源,分析方法论(甚至包括思路/指标)仍是传统研究所采用的那一套体系。这个也证明了之前的观点:传统研究方法论同样适用于大数据分析(只要选择合适的应用场景)。在这种模式中,研究公司的劣势是在数据源,并不在分析方法论上。
模式2:行为类大数据+行为大数据方法论。这种模式关注的是人/消费者(这也是市场研究的重要目标),数据源是人的行为性(如浏览、交易、评论和位置等)历史。这是纯大数据的产品模式,相关的产品服务将会是近几年大数据应用的重点。其研究方法论与传统模式不同,主要聚焦在如何进行个体特征(如标签分析)+精准定位+预测/推荐的思路。就当前相关产品的深入分析来看,各家(无论传统研究还是技术驱动企业,甚至包括学术机构)相关的方法论和分析建模思路都还处于比较浅的阶段,并未出现成熟而优秀的方法体系。而消费者行为研究原本就是市场研究企业的传统业务,相对纯技术驱动性企业,研究公司在新方法论相关的深度研究建模上应该具有更大的先发优势。
模式3:状态类大数据+行业性大数据方法论。这也是当前大数据业务的一种重要模式,实际业务距离市场研究当前业务较远,这里只是作为介绍,供大家开阔思路。数据来自分析目标的状态信息,分析方法更加多样并与行业特性紧密相关,分析目的集中于监控、智能管理和优化。所有的物联网类(包括车联网)、智能家居服务以及可穿戴设备(记录人的状态)行业的大数据应用,大多是此类。其他更多应用模式(如生物大数据的寻找分析),这里不再一一介绍了
大数据业务的问题
虽然大数据业务有着无限的未来空间,但从研究领域的角度看,有几个基础性问题仍然需要注意。
(1)数据分布的缺陷仍然存在
大数据仍然存在着传统的数据分布缺陷,只是表现形式不同。虽然其极大了扩展了数据的空间,但大数据仍然不是全数据。传统数据存在的抽样性的缺陷是降低了,但并没有完全解决。更重要的是,数据覆盖的提升更多是在垂直维度,而水平化的缺陷仍然存在,并且难以弥补。当前的大数据都只是数据在某个应用场景的深度上不断增加。以消费者的互联网行为为例,特定场景的行为数据(百度的搜索数据、阿里的电商数据、腾讯的社交数据)被极大化,但所有行为场景的横向数据的融合,实际更有价值,由于商业利益等原因,却更难以做到了。阿里系通过投资各类互联网服务(高德、新浪微博、优酷、陌陌、神马…),在为打通消费者全场景行为大数据做布局,也实际无法解决这个问题。从这点讲,未来垂直类场景的大数据的交换服务会成为一个新的巨大的空间。
(2)大数据的基础方法论模型仍然存在不足
相比传统研究的方法论,大数据主要优势是在个性化和预测方面,但相关的理论模型,还在迅速发展和变化,并未达到成熟期。而且大数据环境下,数据规模和数据有效期的不同,使得传统研究中相对容易的模型验证也变得困难许多。这导致了很多大数据预测出现问题。远的不说美国大选的两周预测结果,就是近期百度电影《黄金时代》票房预测的失败就是最好的例子。这说明相关分析模型还有很多的改进空间,也意味着市场研究企业未来能够在相关领域有更多的专业发挥空间。
(3)特定群体的研究仍然存在困难
研究业务中,大量任务是需要对特定群体的行为进行研究。传统研究中,当目标群体比较小或者特殊时,研究困难会比较大。在大数据下这些是否迎刃而解呢?根据HCR实际经验发现并不是这样。首先,由于大数据分布的缺陷问题仍然存在,在大数据中寻找这个群体往往也很不容易。其次,对这个群体的行为记录数据,也未必更有效的能够表征其特征。最后,如何基于这些数据量化描述群体,也缺乏令客户信服的解释理论。此时,传统的方式(比如定性座谈会),往往比大数据方法更快,效果也更好。
市场研究行业如何拥抱大数据
进入大数据时代,市场研究企业面临更多跨界型对手的竞争,表面上看好像毫无优势。实际上,就大数据应用的核心竞争力—分析能力方面,从前面的分析可以知道,研究公司无论是传统研究方法,还是大数据分析方法,都具有相应能力或者潜在优势。关键是如何扬长避短,构建自己的大数据竞争优势。以下是几个建议:
(1)传统企业的大数据研究是最重要的目标战场。
当前的大数据产品更多基于线上/互联网用户产生的数据引发相关分析。实际上,研究公司所服务的大量传统/线下企业,其自身业务大数据(尤其业务环节积累产生的内部大数据)的分析和价值挖掘,对企业价值更大,是企业更为关注和迫切需要解决的。而大部分的企业受条件所限,不可能构建大数据分析的专业资源和团队,需要专业的第三方服务型企业来完成。所以,面向企业内外业务大数据的相关研究分析,将是研究公司未来大数据服务的重要领域。
(2)坚持研究的深度。
针对市面上各种纯技术驱动竞争对手的大数据研究产品,如果仔细分析后会发现,这些产品往往受企业基因的影响,其研究的深度和角度都不能令人满意,传统企业研究的客户常会反馈其业务价值并不大。而研究洞察的深度和专业性,是企业客户对研究服务首要关注的能力,这是当前技术驱动类企业的不足,却正是市场研究公司所擅长的重要竞争优势。
(3)聚焦消费者研究
大数据应用领域众多,基于消费者行为类大数据的研究,是市场研究公司具有背景优势且能够在未来产生巨大价值的主要领域(不限于快消行业)。市场研究公司应该积极学习掌握现有的大数据研究的思想,并从消费者研究角度提出更好的分析方法论模型,树立相对于竞争对手的分析优势。同时,由于人性的复杂和大数据的分布覆盖仍存在缺陷,研究公司擅长的一些传统研究方法(如调研和定性座谈会),仍是一种快速、有效的方式。
(4)注意数据源的构建
数据是研究分析的基础和首要环节。在大数据环境下,数据源的重要性迅速提升成为业务链条中基础一环。从产品模式1可以发现,当前市场研究公司由于数据源相关资源的缺乏,导致产品方面受到很大限制。如何构建数据源资源,是研究公司需要考虑的重要问题。
(5)建立适合大数据业务的业务流程和支持体系
大数据环境下,在实际业务处理流程和操作过程中,具体实现方法和模式与传统方式有了较大的变化。如果不能够积极改变和适应这些变化,将无法有效完成大数据的相关产品业务。有关市场研究在大数据下业务流程变化的相关分析,后续将另外撰文进行说明。
(6)重视和加强大数据相关的技术能力
如今,研究公司普遍认识到大数据处理技术体系(技术人员与平台)的缺乏,是其与跨界竞争对手的最大短板,需要后续亟待加强。但同时要注意到另一个问题:很多研究公司中IT人员(如DP)常被定位为研究业务的辅助支持。但在大数据时代,技术人员将与研究人员具有同样的重要性(甚至有些环节要超过),如果还是之前的定位和配合方式,那难以有效发挥他们在大数据研究业务中的作用。
面对新的大数据星际,市场研究公司并非只能踯躅不前,数据价值法则说明大数据价值所需的分析深度正是其最大的优势。只要在传统的研究模式上,积极学习和拓展新的大数据方法论,以专业研究优势结合技术能力作为自身的动力,一样能自如穿越广阔的大数据星际,发现更多的迷人宝藏。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16