京公网安备 11010802034615号
经营许可证编号:京B2-20210330
网络数据挖掘应用与限制
我们的社会,有两个舆论场——即官方和民间。意思就是说官方舆论场是铁板一块,民间舆论场对于官方的舆论场,又是铁板一块,我对这个很好奇。难道民间舆论场都是一样的吗?这个舆论场里面有没有差异?关于舆论场上的网民是怎么样分类的,我们尽管有各种各样的说法,但是没有一个让人信服的说法,所以我想探讨这个问题。
所以我就想来探讨这么一个问题,就是说我们的网民类型是如何分布的。社交舆论整个是一个结构,但是,它是不是我们所想象的这么一个结构。这是我想探讨的这么一个最早我最初的一个命题,是一周前我根据参考数据做出来的。
第二个问题,我想做的是我们现在都在说谣言,媒介内容里有很多的谣言。社交媒体上有很多的谣言,那么这个谣言究竟是怎么样的、哪一种、是不是所有的民众对所有的信息都能完全一样的相信,还是对不同类型的信息有不同的判断力。这个就涉及到一个概念,就是说媒介素养。简单说,就是民众面对媒介内容的选择、质疑、理解、评估的能力。
我提出这么一个问题,就是说网民的媒介素养的信息的辨别力,究竟是什么样的;此外,我想研究第二个问题,就是说网民的媒介素养和信息的辨别力,是怎么样来辨别的,人们对于不同的类型谣言的辨别力有多高。
我想探讨的第三个问题是,不同类型的网民的信息辨别力。刚才我讲的第一个问题是,网民有不同的类型,不同的类型的网民对信息的辨别力的水平是怎么样的,是哪一种类型的网民的信息辨别力更高。
这里我想知道我们传统媒体,电视广播和是一面理,在微博里面我们经常捕捉到不同的信息,那是两面理。这样来说,网民接触的不同的媒介,对他的信息的辨别力是怎么样的。
我想探讨四个问题。对此,我用一个全景的调研助手,做了一个网络流量的截取的样本,我采集的北京、上海、广州、四川地区共3696份样本,来探讨以下问题。
第一个是网民的类型。我们做了这么一个二维划分。我用信任度和活跃度把网民分为两类。活跃度是指网民在社交媒体如论坛、微博、QQ、微信的活跃情况。我的纵坐标是信任度,这是指对政府的信任程度。这样的话我们把整个的网民切分为四类。
在第一象限和第四象限的网民就是活跃者,即活跃的拥政者和批政者。很信任政府、又很活跃的用户就是活跃的拥政者;很活跃、又不相信政府就是活跃的批评者。第二象限和第三象限均是沉默的拥政者,另外是我不相信政府我不表达,沉默的批评者。这四个维度我来测量,考虑用户们在网络上发微博,写评论,然后发朋友圈,然后微信中发言,发QQ空间,QQ群发言,论坛发帖,博客。所有的网民,主要能够在网上表达语言的渠道,我们把这个测量体系作为一个指标进行合总。我们从刻度来看,从高到低,网民是怎么样的来分布的。
第一个我做了一个横坐标是网民的活跃度。第二个是对政府的信任度。那么关于政府的信任度我就做了两个指标,第一个是对政府的信任,第二个是对政府官员的信任。因为我们对政府的信任和对政府官员的信任往往是不一样的。我们曾经在区伯长沙嫖娼的时候,做过有关于网民对政府的信任度的调查,发现大家对中央和地方的政府的信任度不一样,对政府官员的信任度也是不一样的。所以,我们就是两个维度,一个是对政府的信任度,对政府官员的信任度,把两个指标合在一起,作为我们的纵坐标,这样以后得到这么一个数据。
活跃的拥政者是17.4%,活跃的批评者23.4%,就是说明批评者比拥政者更多。我们沉默的大多数是60%,不管是批评还是说支持政府,沉默的人是60%,我们有40%是活跃的,这是我们整个的网民的结构。总的来说40%里面批评政府的更多一点,更活跃一点,这是我们第一个数据。
我们看看四个地区的比较,在四川、北京、广东、上海怎么样?我们发现四川和北京批评的比较高的,是30%,上海最低,24%。这是有很多的解释,文化、政治、经济学等不同的学者都来解释,而我们做的,只是提出来这个现象。
这是第一个问题,我们可以把网民划分为四个维度,这四个维度的结构是怎么样。而我想研究的第二个问题,即是网民对于信息的辨别力。
我们用了十个谣言作为选题,比如说马航M370找到了,淘宝衣服来自于藏尸间等等,这样真真假假的新闻来让网民做判断,你认为哪一个是真的,哪一个是假的,你答对一道题得一分,答错了零分,我们把这四道题合起来是十分,最低是零分,我们连起来测量信息的辨别力多高。测完了以后我们发现这样一个现象:就是说环境的相关问题,比如说雾霾。雾霾多半是因为污染,网民在环境的问题上的辨别力是最高的。但是对于”马航M370被找到”信息的辨别力是最低的,只有15.2%;还有对“淘宝衣服”的辨别力都是很低的。
就是说的信息辨别力并不是铁板一块,也是有高有低的。我们也会做信息对称的分别,我们会关注哪一种类型是高的,哪一种类型是低的。
在总的得分上,受访者对于十道题的平均分是4.5分。就是说整个网民的信息的辨别力不是很高。
这里还有一个问题,区域的差异。我们来看看北京和上海,大城市的信息辨别力是较高的,而四川和广东最低。北京和上海是平均4.96,四川和广东是4.68和4.65。
第三个问题我想探讨的是不同类型的网民的信息辨别力。我们把这个沉默这部分人做了一个亚变量,我们把批评者作为一个虚拟变量来测量。我们发现这两个之间是有显著的,都是辨别力的变量是显著的负关系,也就是说越是活跃的批评者,越是活跃的拥政者,他们对信息的辨别力都是低的。那么低到什么程度,我们来看,你看沉默者,两个沉默者都是明显的高的,沉默的批评者是最高的,达到4.94;对信息的判断力,沉默的拥政者是4.98,活跃的拥政者对信息的判断力是最低的,这要引起我们的注意。活跃者总体是低的,而沉默者在互联网里边是高的,这是整个的信息的判断。这是一个有趣的问题。
我想探讨的是第三个问题,如果我们把沉默者和拥政者的类型控制住以后,我们来看媒体的使用会怎么样,是不是会影响它的判断。我们来看媒介的使用。
于是把报纸、电视、博客、微博、微信、QQ空间和论坛,新闻论坛,翻墙等变量拉进去以后,我们发现微博对于信息的判断和辨别力有明显的正影响。而我们的QQ空间是负影响,翻墙是负影响,负关系。换句话说,我们报纸、电视传统媒体对我们信息的辨别力没有显著性的帮助,微信也没有帮助,微信也不显著,论坛、新闻网站都不显著。所以这里特别有趣的是微博和我们QQ空间和翻墙,一个是正相关的,两个是负相关。还有文化程度我们是显著性的相关,很简单,文化程度越高对信息的辨别力就越高,这个和收入也没有关系。这是我们这样一个结果。微博是有显著性的关系,而论坛和翻墙我们是负相关,这样的一个结果。这里是我们的一个研究的这么一个发现,我们发现有这么一件事,这里边我想特别来看看这个结论。
结果讨论,第一社交媒体的网民,不是一个恐惧的整体,活跃的不是政府的,是近四分之一的,活跃的政府的比例也有近两成,近十七点几。这是一个相对均衡的点。
第二点我们想说的是网民对信息的辨别力的差异是很大的,我们想做的可能是对我们的环境污染等等的信息我们的辨别力很高,但是对于国际新闻,或者是说离我们距离远的新闻我们辨别力很弱,这个方面的地理位置的接近性在生物学里面以前有很多的文献,在英文里面也做过信息的辨别力的影响,这一块里面也是一样的,这是差不多的。
第三个问题我想探讨的是活跃的网民总体上比不活跃的网民辨别力低,我不知道是什么原因,也就是说网民越活跃,活跃的网民比沉默的网民对信息的辨别力是低的,这个原因是什么,在我们研究里面没有解释,下一步我们会探讨为什么会这样。
第四个问题是文化程度是网络信息辨别力一个重要的正影响的变量,这个是非常好理解的,文化程度越高的人,对信息的辨别力是越高的。我们经常看到微信的朋友圈里,很多的谣言,对此传得最厉害的是我的表哥和表弟,他们在老家,小学毕业文化,我总是批评他们,他们就说这都是真的。这就是一个信息辨别力的问题。
这里还有一个QQ空间和境外网站的解除对辨别力是负影响,但是两者背后的原因是不一样的,我觉得这是我在这里抛砖引玉,也是一个命题,怎么会不一样。QQ空间可能是年轻人的,为什么它的使用和境外的网站都是负影响,但是背后的原因是不一样的。特别我想提出下面一个问题,微博的借助对信息的辨别力存在显著性的正影响。
一定意义上讲,微博是谣言的粉碎机。也就是说我们的微博有自清功能和手电功能。就是说微博的使用对谣言有验证机制的。关于解释,我们可以做更多的验证,而且我们数据里面非常有显著性的。
我想思考的最后一点,是微信对于网民的信息辨别力没有影响。也就是说微信是一个封闭的群体。这个群体里面信者恒信,不信者恒不信。这是按照现实的交往关系结成的关系。我们去年做过微信的社会资本研究。我们提出,微信朋友圈显示的是社会关系的一种搬迁,其实并没有更多的实现我们虚拟空间的社会关系的建构。这种搬迁将我们的现实,物以类聚,人以群分。我们用的最多的是同事圈,朋友,同学圈,我们家庭圈应付一下,很多年发一个红包或者是发一个照片:“我很安好”。这样的事情,我们交流的时候还是现实里面的人群结构转移到上面去的,他们没有真正的是一种很重要的虚拟的社会责任。
这就提出一个问题,微信圈里面低学历者,他们对信息的判断和辨别力,反而有一种群体效应,每个人在发假信息的时候,反而互相都信任,互相形成一个气场
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21在数据分析领域,当研究涉及多个自变量与多个因变量之间的复杂关联时,多变量一般线性分析(Multivariate General Linear Analys ...
2026-04-21很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度”“这 ...
2026-04-21在数据处理与分析的全流程中,日期数据是贯穿业务场景的核心维度之一——无论是业务报表统计、用户行为追踪,还是风控规则落地、 ...
2026-04-20在机器学习建模全流程中,特征工程是连接原始数据与模型效果的关键环节,而特征重要性分析则是特征工程的“灵魂”——它不仅能帮 ...
2026-04-20很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问题, ...
2026-04-20在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16在机器学习无监督学习领域,Kmeans聚类因其原理简洁、计算高效、可扩展性强的优势,成为数据聚类任务中的主流算法,广泛应用于用 ...
2026-04-16在机器学习建模实践中,特征工程是决定模型性能的核心环节之一。面对高维数据集,冗余特征、无关特征不仅会增加模型训练成本、延 ...
2026-04-16在数字化时代,用户是产品的核心资产,用户运营的本质的是通过科学的指标监测、分析与优化,实现“拉新、促活、留存、转化、复购 ...
2026-04-15