
大数据技术与移动互联技术和云计算技术一样,都属于颠覆性的信息技术。但是, “数据分析师说”大数据并非是高纯度的石油而是含金量非常低的矿石,数据量大、种类繁杂、价值密度低、以及时时刻刻都在瞬息万变的特点,使得存储、统计、分类以及调用都困难异常,而其中隐藏的发展规律和社会经验则价值巨大。
幸运的是,人工智能领域的一些理论和比较实用的方法,已经开始用于大数据分析方面,并显现出初步令人振奋的结果。至此大数据的价值变现潜能开始逐步被"数据分析师"人工智能释放。同时,大数据技术的发展也将在为人工智能提供用武之地的同时,唤醒人工智能巨大的潜力,从而使 这两个领域的技术和应用出现加速发展的趋势。
在2015年新华社新闻学术年会新华网“信息技术与媒体生态”分论坛上,英特尔中国研究院院长、首席工程师吴甘沙将大数据的可能价值变现方式划分为六种:一是 见微,从小处看到细微的洞察;二是 知著,能看到宏观的变化规律。正如《一代宗师》里的台词“见自己、见众生、见天地”,吴甘沙把见微是叫做见自己,知著称为见众生、见天地。第三第四种是 当下和 皆明,当下是此时此刻的感受,皆明是知前后做到万物皆明,是在时间点上在不同的万物上获得洞察。五六是 辨讹和 晓意,辨讹是去伪存真、查漏补缺,晓意则由于传统上机器只能处理数据,对于有深刻内涵的内容无法真正理解显得异常重要。
知著见微:大数据的“大弹性”
1、知著
随着大数据、人工智能的发展,机器能进一步窥探到人类的思想境界。知著就是“见天地、见众生”,正如天文望远镜。那么,大数据如何帮助人们知著呢?具体可以分为两方面:
一是传统采样和定性,采样更多的是了解平均,作为牺牲,采样会把黑天鹅的信号当做噪声过滤掉;
二是传统定量的研究,尤其是在社会科学领域,大数据为之后的进一步定量研究做了好铺垫。社会学里面有一个社会计算学分支,广告中也有计算广告学分支,所有这些都是通过定量的方法更好地了解这个社会、了解个体。无论是群体的理性还是个体的非理性,都可以通过定量的分析获得洞察。
国外专家曾在Twitter上面进行过情感分析试验,他们发现Twitter上面的情感变化和FacebookIPO当天股价的变化有高度相关性,而情感变化是股价变化的先行因素,这是一个很有趣的研究。这种研究使得人们能够更好地看到社会上的一些行为、媒体内容中的一些变化和经济行为变化的关系。
2、见微
如果说知著是天文望远镜,那么见微就是显微镜。传统观点认为,市场经济的“市场”是所有人行为的总合,由于对数据和行为理解的局限,人们看到的市场亦是打马赛克的块状分布。而随着掌握的数据的增加,这个市场逐渐变成一个高清的纵深的图。
传统上的营销行为讲究的是对客户群体进行细分,随着大数据发展的深入,客户群体从细分到微分、微分到个人,实现从个性化到个体化的转变。
从前,商家只能关注花钱买单的客户,大数据则可以实现用户的体验反馈,并且从点到面逐渐覆盖。仅仅覆盖到线上的面却是不够的,随着移动互联网以及位置信息的丰富,线下位置信息可以揭露更多的洞察——原来他到了一个线下的商场做了一次体验。
网络信息透露该用户在体验之前是获得了基于位置信息的推荐,或者是因为社交网络上朋友的一次推荐。体验结束不仅仅有交易,也会到网上吐槽,而吐槽会进一步形成病毒式的传播,他的朋友可能是点赞或者进一步转发。所有这些就形成了网状或者是图状的数据,这个数据使得我们对这个行为有了更好的洞察。
当下皆明:快思考也要深分析
1、当下
对于普通用户来说,从浏览一个网页或者看一部电影开始,一旦发起了浏览的动作,作为发行商或者是爱奇艺这样的电影的流媒体网站就会到供应方平台发起请求,发起的请求会将这个广告商的画像描绘出来。
接下来,供应方平台会到广告交易平台进一步获取广告,而交易平台又会将需求传输到代表广告主的需求方平台,需求方平台下面有一个数据管理平台,详细分析了每个个体的偏好,根据传送的个体偏好的分析返回,推荐合适的广告。
通过实竞价,获得竞价的一方就会把需求发到程序化的创意平台,该平台再根据广告主以及个体画像产生一次实时的创意,把真正的广告给推到个体那边。
而所有这些的发生可能在100毫秒发生,发生了从数据的采集到广告主获取广告的候选进行实时竞价和程序化的创意,最后形成这个广告。在整个过程中,大数据起到了无可比拟的作用,这就是见微,而呈现到每一个个体前面的都是非常精准的广告营销。
同时,在100毫秒里面完成的一次精准广告推荐涉及到当下。在传统意义上,人们对于知识的理解,对于整个社会的理解基本上都有一个滞后期,吴甘沙把它称为刻舟求剑,在人们真正获得洞察的时候,整个这个世界已经变化了。正如建国以来已经进行过的6次人口普查,无论如何精准都是滞后的。而现在随着大数据的普及,我们现在有可能更实时地理解我们这个社会。
当然,当下快思考风行,几秒钟得到的洞察可能一下子传播到世界各地,犯的错误却是覆水难收。
2、皆明
对应于当下的叫做皆明,皆明是深度报告,涉及三种分析。
第一,描述性分析,即过去发生了什么,为什么会发生,而现在又在发生什么,简言之就是通晓古今。2005年伦敦发生暴乱后,《卫报》对几百万条Twitter进行了分析。分析的过程中发现,暴乱和贫穷确有很大的相关性,政府应该解决贫穷的问题;而Twitter虽然在早期传播了谣言,但后期Twitter可以把更多的信息聚拢过来,让人们看到真正的真相,这与政府当初的快思考,对贫穷的忽视和对Twitter的偏见大相径庭。这是描述性分析的一个非常典型的案例。
第二,预测性分析。大数据的核心价值是对于未来的可见性,预测性分析就是能够预测未来发生什么,三国时期诸葛亮的巧借东风属于预测性分析(数据分析)。
预测性分析在当下最常见的应用是谷歌预测票房的分析。《蜘蛛侠3》引发了对同系列的两部电影的票房分析,也带出了季节性的因素分析。透过预测,制片方和影院可以提前一个月对电影的票房做出高准确度的预测,这一个月的价值则可以直接与票房收益挂钩。
第三,处方性分析。分析方能够利用大数据运筹帷幄,希望未来发生什么,明白为了要让目标实现现在要做一些什么。同样是诸葛孔明的计谋,草船借箭就是处方性分析,纸牌屋也是在处方性数据分析中诞生的。通过受众分析,制作方发现美国受众都喜欢政治性电影,再经过进一步的研究,确定每个人物的角色定位和性格特点,包括国内的互联网综艺节目《美食美课》都是根据网上搜索的结果设计的一个节目。
在人工智能领域,经过长期的研究,已经积累了很多研究方法和应用技术。例如,自然语言语义分析、信息提取、知识表现、自动化推理、机器学习等。这些技术目前正在逐步地应用于大数据技术的前沿领域,结合预测性分析和处方性分析,{数据分析师}挖掘大数据蕴含的规律和价值,从而为人类决策提供支撑。
例如,Netflix的影片推荐系统、Facebook的社交图谱、Amazon的购物推荐系统等,已经依靠深度学习和其它人工智能方法,实现了大数据之上的巨大商业价值。
Google还对大数据的机器深度学习和建立知识树KnowledgeGraph投入巨大的研究资源,期望能够回答并帮助解决人类日常生活中普遍关心的问题。
辨讹晓意:从真相窥探思想
纵观全局,虽然随着整个IT行业计算能力、存储能力、通讯能力的发展,以及人工智能研究的长期积累,人工智能在一些领域里获得了一定的突破,其研究成果也已经在数据挖掘、工业机器人、物流、语音识别、银行业软件、医疗软件等方面被广泛的应用。
但是,目前的人工智能方法都只能处理已预先定义好的问题,实现既定的目标。一旦遇到未定义的情况,人工智能便束手无策。因此,现阶段的人工智能技术并不能使机器具有真正的自主学习和研究的能力,更无法奢谈拥有创造能力。而使机器获得学习能力、研究能力和创造能力,恰恰是人工智能技术发展的目标。
1、辨讹
变讹是大数据价值变现的第五种方式,也就是看到真相。比如新华网上发的31省前三季度GDP之和超过全国约1.9万亿,从不同的数据来源可以发现这个数据是对不上的。
美国德克萨斯州的数据新闻报道说,能够把这个州的很多政府雇员的工资都做到数据库里面供人们查询。对于普通人来说任何感兴趣的人名都可以输进去,看他的工资和其他行为,看到他们想要了解的真相。
2、晓意
第六是晓意,机器是不能晓意的,只有人能晓意,但是随着人工智能的发展,机器能够逐步窥探到人的思想境界。《魔球》电影讲述美国奥克兰运动家棒球队总经理比利·比恩(Billy Beane)的经营哲学,描写了他如何以小搏大、力抗其它薪资总额比他们多上数倍的大球队的方法。《魔球》背后不为人知的一面是,比利花了更多的钱去请球探分析球员,因为球员的心理抗压能力、意志力等等是无法用数据衡量的,所以要花更多的钱。
随着大数据的发展,通过技术可以对人进行情感分析、价值观分析,甚至在一个题材还没有开始传播的时候,可以对它进行“病毒传播性”的分析,这些应用都使得大数据达到了晓意的能力。
晓意一方面是文本的晓意,另一方面是通过视听觉获得的晓意,机器可以具有情商,亦可以根据短视频判断对象处于何种情绪当中。
寒武纪大爆发的钙
寒武纪为什么生命形态会大爆发呢?经过研究发现是海里面地壳运动更多的钙元素进入到生命里面,不能适应钙元素的就被毒死了,更能适应钙元素的生物慢慢长出了脊椎,慢慢变成了脊椎动物,而脊椎动物促进了更多的生命的爆发。现如今,大数据就承担了这样的作用。
1、数据新闻
建立一个什么样的数据的技术站才能使得数据新闻更好地服务受众呢?
数据新闻分类两类,一类是需要实时处理的,另外一类是需要批量处理。实时处理能够更好地处理突发新闻和当下,而批量分析可以更好地融合更系统的数据做到前后皆明。
在数据分析和机器学习方面,以下三种技术在吴甘沙看来对于数据新闻非常重要。 一个是Sentiment或者是情感分析,二是Literacy就是数据分析如何更好地理解内容,三是视听觉的理解,四是对Audience的洞察。结合具体的应用,比如Trendspotting可以找到更多的趋势,Content Creation可以创造更多的内容,Acquisition Retention是维护用户的黏性,Offer/Ad targeting是如何给用户Offer更多的广告和推送。
2、大数据打通六大产业
在2013年吴甘沙的演讲中,他认为6大产业是通过大数据打通的,大数据为体,西学为用。大数据是根本,云计算是工具,智慧城市是纲,同时深度融合个性化制造、第三次工业革命、移动互联网以及物联网,综合在一起就形成“ 移大三、智云物”。
建立具有真正意义的人工智能系统,是人类一直以来的梦想。面向大数据和人工智能的研究近来呈现出螺旋上升式发展态势,但是大数据的潜能仍然未被全部激发。例如在智慧城市建设方面,目前建立在以由传感器及电子摄像头等设备收集数据基础上的第一代智慧城市,其实处于神经系统发达而智慧能力不足的尴尬境地。随着各类传感器数据的不断增加,传统方法不能很好地处理这些海量数据,使得许多花大价钱购置的硬件设备成为摆设。面对拥堵的城市、雾霾的天气、已有的海量数据,城市“智商”的建立迫切需要借助于人工智能技术的发展成果。
3、未来电影与未来市场
未来如果通过虚拟眼镜来观看电影,电影的发行体系会被极大地变革,门票都不再重要,广告变成主要的赢利模式。 广告可以完全无缝地嵌入在电影情节当中,观众完全是沉浸式的体验。在这个过程中,观众可以和电影的人物和情节进行互动,就像穿行在情节当中一样。从另一个角度看,观众会改变情节的走向,其角色可能是一种偷窥者或者是带入者,甚至可以把自己变成故事的主人公。
微软中国研究院正在做一项技术,通过3D摄像头把人脸的模型建立后可以实时渲染出另外一张脸,电影里面的某个人物可以完全是观众自己的脸,在电影中把任何一个观看者的3D模型建立进去,就能把人物的长相变得和观众一模一样。
未来的商场若也许存在以下现实和虚拟糅合在一起的技术增强:当消费者走在万达广场里面,突然发现眼睛里面出现了一些有趣的东西,它吸引消费者去打怪,指引路线,这个路线事实上是一个眼镜引导消费者对这个商场进行浏览的过程。在浏览的过程中,消费者不停地与实际商品产生交互和触点,这个虚拟空间和实体空间会随意进行组合。
在未来,任何一个表面都可以是一个屏幕,用户戴的眼镜可以把内容投射在任何的表面,无论是弧形还是空气,都可以把新的信息呈现出来,在运动的过程中每一次相遇都是计算的结果。因为这个计算需要用户走到特定的位置,在这个位置用户和某一个商品或某一个人产生相遇,所有的这些会极大地改变我们现在商业的生态。
区块链、虚拟现实、人工智能和机器人也融入口诀中就是 “快蓄人气移大三智云物”,这些技术会给我们未来的社会带来无限创意与玩法。
人工智能的发展,正如人本身一样,需要学习大量的知识和经验,这些知识和经验需要海量的数据作为支持。 大数据技术的发展,为分析和储存海量的数据提供了技术支持,使得机器得到的数据量和机器拥有的数据处理能力,与形成人工智能所需要的数据量和数据处理能力相匹配的矛盾得到了缓解。在这种情况下,人工智能的理论、方法和技术的巨大潜力才有可能被真正的逐步释放出来,实现人工智能的发展目标,并反过来进一步推动大数据技术的发展,形成有效的相互推动。数据分析师培训
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09CDA 数据分析师:驾驭商业数据分析流程的核心力量 在商业决策从 “经验驱动” 向 “数据驱动” 转型的过程中,商业数据分析总体 ...
2025-09-09R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01