
从传统研究模式穿越到大数据“星际”
大数据,不再只是通过传统的研究方式影响世界,它所擅长的预测和探索未来趋势的能力,成为其当下最受热议的话题。
大数据(Big Data)本世纪初最早作为技术术语出现于海量信息检索领域,后续在IT领域逐步传播,并在2009年后随着云计算应用逐步受到更多关注。IBM首先对其进行商业化定义,并于2011年率先推出业务解决方案。此后,大数据更多作为业务概念迅速应用到社会各领域,并在近两年引发无限的价值遐想和业务热潮。
相对层出不穷的各种商业化包装和定义,4V(Volume-规模体量大,Variety-格式多样,Velocity-高速处理,Value-巨大价值) 理论通过4个核心特征朴素而准确地来描述了大数据。由于相关的介绍颇多,这里不再赘述,我们主要从价值开始对大数据的讨论。
1 大数据下,价值法则并没有变化
如果根据大数据的4V特性进行畅想,当我们以Velocity能力达到了Volume和Variety的处理需求,Value 是否就水到渠成了呢,答案并不是这样。因为数据的价值法则并没有变:数据只有分析后才有价值,而价值的多少取决于分析的深度和能力。
市场研究行业作为一个通过深入分析数据产生价值的行业,更有希望在大数据环境下获得广阔的发挥空间。但实际上,相对于技术性驱动的新兴的跨界竞争对手(互联网平台性企业/技术性数据服务企业等)的活跃,传统市场研究公司反应相对迟缓而被动。
针对这个问题,技术决定论认为是研究公司技术能力短板问题;而代替论则认为传统研究方式不适用于大数据,大数据下的研究方式(如个性化/预测)将彻底代替传统研究方法。
笔者在大数据相关技术领域有深入的背景,近几年又在市场研究行业工作,对研究业务特性相对比较熟悉。因此更适合从一种综合的角度看待这些问题。下文中,笔者将做相关的讨论。
2 传统市场研究与大数据研究的方法论
针对前面技术决定论的观点,笔者作为资深IT人员,实际也不敢苟同。大数据业态下,技术对市场研究的推动力是大了很多,但不是包打天下:它更多提升了分析的能力,并不是深度和专业性。而研究方法替代论的观点,则是把传统研究和大数据的研究方法论置于一种对立的角度来看问题。
正如天体物理学是我们离开地球遨游新星际的理论基础,研究方法论也是研究公司遨游数据空间的基本依据。如何从传统数据空间快速进入大数据空间,首先我们要从研究方法论角度进行辩证的分析
传统研究方法论和大数据下的新方法论,是不是真的对立或者替代的呢?我们不妨从更高的角度(以数据为统一点,把传统数据与大数据纳入一个数据时空)来看两者的特点与关系(如下图)
从上图可以看到:
(1) 市场研究公司的传统方法论,其关注是全局/群体的特性,力求发掘现象原因(Why),从而去做改进或者变化。而大数据的新方法论则更关注个体性/局部,更擅长对未来的预测(Future)。也就是说,两者适合各自适合解决不同研究目的的问题。
(2) 传统方法论与大数据方法论在数据空间可并行应用,并不割裂。尤其是前者的分析思路仍然可以适用于大数据环境,而后者是在更大数据空间下对分析方式的扩展。
所以,两种研究方法论,类似于物理学中牛顿经典力学(适合宏观低速)与狭义相对论(适合微观高速)的辩证关系,各自更适合不同的业务场景,在大数据空间下是可以互相借鉴和补充,并不是对立或者替代。
理解了这种关系后,我们进一步从大数据产品的角度,来深入讨论市场研究与大数据的关系。
大数据产品的模式
近两年来,各种企业(尤以技术驱动企业为代表)推出的大数据产品/服务层出不穷。但如果从研究产品核心的三个要素(数据特性、分析方法论和产品类型)来看,无非以下几种模式。
模式1:大数据+传统研究方法。这类大数据产品,是当前众多大数据研究产品的重要形态。比如各种基于大数据的市场份额、移动app分析、电商交易分析和用户分组等。实际上,这是一种“旧瓶加新酒”的模式,本质只是把数据从小规模替换为更大规模的数据源,分析方法论(甚至包括思路/指标)仍是传统研究所采用的那一套体系。这个也证明了之前的观点:传统研究方法论同样适用于大数据分析(只要选择合适的应用场景)。在这种模式中,研究公司的劣势是在数据源,并不在分析方法论上。
模式2:行为类大数据+行为大数据方法论。这种模式关注的是人/消费者(这也是市场研究的重要目标),数据源是人的行为性(如浏览、交易、评论和位置等)历史。这是纯大数据的产品模式,相关的产品服务将会是近几年大数据应用的重点。其研究方法论与传统模式不同,主要聚焦在如何进行个体特征(如标签分析)+精准定位+预测/推荐的思路。就当前相关产品的深入分析来看,各家(无论传统研究还是技术驱动企业,甚至包括学术机构)相关的方法论和分析建模思路都还处于比较浅的阶段,并未出现成熟而优秀的方法体系。而消费者行为研究原本就是市场研究企业的传统业务,相对纯技术驱动性企业,研究公司在新方法论相关的深度研究建模上应该具有更大的先发优势。
模式3:状态类大数据+行业性大数据方法论。这也是当前大数据业务的一种重要模式,实际业务距离市场研究当前业务较远,这里只是作为介绍,供大家开阔思路。数据来自分析目标的状态信息,分析方法更加多样并与行业特性紧密相关,分析目的集中于监控、智能管理和优化。所有的物联网类(包括车联网)、智能家居服务以及可穿戴设备(记录人的状态)行业的大数据应用,大多是此类。其他更多应用模式(如生物大数据的寻找分析),这里不再一一介绍了
大数据业务的问题
虽然大数据业务有着无限的未来空间,但从研究领域的角度看,有几个基础性问题仍然需要注意。
(1)数据分布的缺陷仍然存在
大数据仍然存在着传统的数据分布缺陷,只是表现形式不同。虽然其极大了扩展了数据的空间,但大数据仍然不是全数据。传统数据存在的抽样性的缺陷是降低了,但并没有完全解决。更重要的是,数据覆盖的提升更多是在垂直维度,而水平化的缺陷仍然存在,并且难以弥补。当前的大数据都只是数据在某个应用场景的深度上不断增加。以消费者的互联网行为为例,特定场景的行为数据(百度的搜索数据、阿里的电商数据、腾讯的社交数据)被极大化,但所有行为场景的横向数据的融合,实际更有价值,由于商业利益等原因,却更难以做到了。阿里系通过投资各类互联网服务(高德、新浪微博、优酷、陌陌、神马…),在为打通消费者全场景行为大数据做布局,也实际无法解决这个问题。从这点讲,未来垂直类场景的大数据的交换服务会成为一个新的巨大的空间。
(2)大数据的基础方法论模型仍然存在不足
相比传统研究的方法论,大数据主要优势是在个性化和预测方面,但相关的理论模型,还在迅速发展和变化,并未达到成熟期。而且大数据环境下,数据规模和数据有效期的不同,使得传统研究中相对容易的模型验证也变得困难许多。这导致了很多大数据预测出现问题。远的不说美国大选的两周预测结果,就是近期百度电影《黄金时代》票房预测的失败就是最好的例子。这说明相关分析模型还有很多的改进空间,也意味着市场研究企业未来能够在相关领域有更多的专业发挥空间。
(3)特定群体的研究仍然存在困难
研究业务中,大量任务是需要对特定群体的行为进行研究。传统研究中,当目标群体比较小或者特殊时,研究困难会比较大。在大数据下这些是否迎刃而解呢?根据HCR实际经验发现并不是这样。首先,由于大数据分布的缺陷问题仍然存在,在大数据中寻找这个群体往往也很不容易。其次,对这个群体的行为记录数据,也未必更有效的能够表征其特征。最后,如何基于这些数据量化描述群体,也缺乏令客户信服的解释理论。此时,传统的方式(比如定性座谈会),往往比大数据方法更快,效果也更好。
市场研究行业如何拥抱大数据
进入大数据时代,市场研究企业面临更多跨界型对手的竞争,表面上看好像毫无优势。实际上,就大数据应用的核心竞争力—分析能力方面,从前面的分析可以知道,研究公司无论是传统研究方法,还是大数据分析方法,都具有相应能力或者潜在优势。关键是如何扬长避短,构建自己的大数据竞争优势。以下是几个建议:
(1)传统企业的大数据研究是最重要的目标战场。
当前的大数据产品更多基于线上/互联网用户产生的数据引发相关分析。实际上,研究公司所服务的大量传统/线下企业,其自身业务大数据(尤其业务环节积累产生的内部大数据)的分析和价值挖掘,对企业价值更大,是企业更为关注和迫切需要解决的。而大部分的企业受条件所限,不可能构建大数据分析的专业资源和团队,需要专业的第三方服务型企业来完成。所以,面向企业内外业务大数据的相关研究分析,将是研究公司未来大数据服务的重要领域。
(2)坚持研究的深度。
针对市面上各种纯技术驱动竞争对手的大数据研究产品,如果仔细分析后会发现,这些产品往往受企业基因的影响,其研究的深度和角度都不能令人满意,传统企业研究的客户常会反馈其业务价值并不大。而研究洞察的深度和专业性,是企业客户对研究服务首要关注的能力,这是当前技术驱动类企业的不足,却正是市场研究公司所擅长的重要竞争优势。
(3)聚焦消费者研究
大数据应用领域众多,基于消费者行为类大数据的研究,是市场研究公司具有背景优势且能够在未来产生巨大价值的主要领域(不限于快消行业)。市场研究公司应该积极学习掌握现有的大数据研究的思想,并从消费者研究角度提出更好的分析方法论模型,树立相对于竞争对手的分析优势。同时,由于人性的复杂和大数据的分布覆盖仍存在缺陷,研究公司擅长的一些传统研究方法(如调研和定性座谈会),仍是一种快速、有效的方式。
(4)注意数据源的构建
数据是研究分析的基础和首要环节。在大数据环境下,数据源的重要性迅速提升成为业务链条中基础一环。从产品模式1可以发现,当前市场研究公司由于数据源相关资源的缺乏,导致产品方面受到很大限制。如何构建数据源资源,是研究公司需要考虑的重要问题。
(5)建立适合大数据业务的业务流程和支持体系
大数据环境下,在实际业务处理流程和操作过程中,具体实现方法和模式与传统方式有了较大的变化。如果不能够积极改变和适应这些变化,将无法有效完成大数据的相关产品业务。有关市场研究在大数据下业务流程变化的相关分析,后续将另外撰文进行说明。
(6)重视和加强大数据相关的技术能力
如今,研究公司普遍认识到大数据处理技术体系(技术人员与平台)的缺乏,是其与跨界竞争对手的最大短板,需要后续亟待加强。但同时要注意到另一个问题:很多研究公司中IT人员(如DP)常被定位为研究业务的辅助支持。但在大数据时代,技术人员将与研究人员具有同样的重要性(甚至有些环节要超过),如果还是之前的定位和配合方式,那难以有效发挥他们在大数据研究业务中的作用。
面对新的大数据星际,市场研究公司并非只能踯躅不前,数据价值法则说明大数据价值所需的分析深度正是其最大的优势。只要在传统的研究模式上,积极学习和拓展新的大数据方法论,以专业研究优势结合技术能力作为自身的动力,一样能自如穿越广阔的大数据星际,发现更多的迷人宝藏。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09CDA 数据分析师:驾驭商业数据分析流程的核心力量 在商业决策从 “经验驱动” 向 “数据驱动” 转型的过程中,商业数据分析总体 ...
2025-09-09R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01