大数据热词科普（八）-CDA数据分析师官网

热线电话：13121318867

大数据热词科普（八）

2019-02-11

我们在前面的文章中给大家介绍了很多的大数据热词的知识，大数据中涉及到了不少的技术以及很多的理论，所以我们在进行大数据学习或者大数据使用的时候如果了解这些词的话那么就能够很好地运用大数据，下面我们我们就给大家介绍一下大数据的热词。

首先我们说一下辛普森悖论辛普森悖论亦有人译为辛普森诡论，为英国统计学家E.H.辛普森（E.H.Simpson）于1951年提出的悖论，即在某个条件下的两组数据，分别讨论时都会满足某种性质，可是一旦合并考虑，却可能导致相反的结论，当人们尝试探究两种变量是否具有相关性的时候，比如新生录取率与性别，报酬与性别等，会分别对之进行分组研究。辛普森悖论是在这种研究中，在某些前提下有时会产生的一种现象。即在分组比较中都占优势的一方，会在总评中反而是失势的一方。这种现象听起来不可思议，但是确实存在。该现象于20世纪初就有人讨论，但一直到1951年E.H.辛普森在他发表的论文中，该现象才算正式被描述解释。后来就以他的名字命名该悖论。为了避免辛普森悖论的出现，就需要斟酌各分组的权重，并乘以一定的系数去消除以分组数据基数差异而造成的影响。同时必需了解清楚情况，是否存在潜在因素，综合考虑。而在数据分析中我们必须要考虑到这个现象，这样我们才能够做好大数据的工作。

下面我们给大家说一下朴素贝叶斯模型，朴素贝叶斯模型的英文就是Naive Bayesian Model，简称NBM。贝叶斯分类是一系列分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。朴素贝叶斯算法是其中应用最为广泛的分类算法之一。朴素贝叶斯分类器基于一个简单的假定：给定目标值时属性之间相互条件独立。而朴素贝叶斯是大数据和数据分析中经常使用的模型，在大数据和数据分析中起到十分重要的作用。

在这篇文章中我们给大家介绍了朴素贝叶斯模型和辛普森悖论的知识，这两个知识在数据分析和大数据中经常被人们提到，由此可见其重要性，我们在进行学习大数据的时候一定要注意这些知识的掌握，只有掌握了这些知识我们就能够做好大数据工作。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；