数据科学专业问答社区，好文章，一字千金--CDA答疑社区

如何用python进行双因素方差分析？

双因素方差分析首先，导入数据：在Two-Way ANOVA ，有两个变量需要考虑。问题是我们的变量（齿长len ）是否与其他两个变量相关，并且由等式计算：

詹惠儿

2018-11-20

62.1152 1 3

如何用python进行单因素方差分析？

单因素方差分析也叫单因子方差分析，Analysis of Variance Test或ANOVA是对多于2组的t检验的推广。我们的零假设表明，在数据组中采样的人群中存在相同的均值。写作： n维数据组。我们的另一种假设是，上述等式中的任何一个等价都无法满足。在这个ANOVA测试中，我们处理的是F-Statistic而不是p-value 。他们的联系是不可或缺的，因为他们是表达同一

詹惠儿

2018-11-20

62.1152 1 0

如何用python进行频数分析？

导入相关库：导入数据：从具有Weibull Distribution的Weibull Distribution生成一维数据集其中U来自Uniform Distribution 。直方图通过使用直方图，我们可以将1D数据集正确地划分为具有特定大小或宽度的区间，从而形成离散的概率分布

詹惠儿

2018-11-20

0.0000 0 3

如何用python进行双样本T检验？

双样本T测试如果我们有两个独立采样的数据集（方差相等），并且有兴趣探索真实意味着 mu1 mu1和 mu2 mu2是否相同的问题，也就是说，如果数据是从同一群体中抽样的，那么我们将使用Two Sample T-Test 。通常，当一个领域的研究人员对两个群体之间给定测试变量的影响感兴趣时，他们将从每个群体中取一个样本并将其记录为实验组和对照组。实验组是将接收被测变量的样本，而对照组则不会。

詹惠儿

2018-11-20

62.1152 1 2

如何用python进行单样本T检验

首先导入相关的库：生成数据让我们从Normal Distriubtion生成一些随机数据。我们将从正态分布中抽取50个点，平均 mu=0 mu=0和方差 sigma2=1 sigma2=1，另一个用平均值 mu=2 mu=2和方差 sigma2=1 sigma2=1。堆叠在彼此顶部的两个正态概率分布函数（pdf）如下所示：单样本T测试 One Sample

詹惠儿

2018-11-20

0.0000 0 1

python的其他统计指标

首先导入一份2010年全国酒精消费情况数据：输出：然后计算其他统计数据，例如数据的median，maximum 和 minimum 可视化统计我们可以通过制作Plotly框或Violin图来可视化这些统计数据。

詹惠儿

2018-11-20

0.0000 0 2

python中的统计指标

首先导入一个数据集来进行我们的统计。这是一份2010年各国的酒精消费情况数据。 data = pd . read_csv （ 'https://raw.githubusercontent.com/plotly/datasets/master/2010_alcohol_consumption_by_country.csv' ）#此为这份数据储存目录 df = 数据 [ 0:10 ] ta

詹惠儿

2018-11-20

0.0000 0 1

文本挖掘主要涉及哪些步骤？

假设您有一个包含产品描述的数据集。并且，要求您从给定描述中提取特征。你会如何开始理解它？原始文本数据（描述）将通过几个清理阶段进行过滤，以转换为表格格式进行分析。我们来看看一些步骤：语料库创建 - 它涉及创建包含文档和术语（或标记）的矩阵。文档可以被理解为每行具有产品描述并且每列具有术语。术语是指说明中的每个单词。通常，语料库中的文档数等于给定数据中的行数。文本清理 - 它涉及以

詹惠儿

2018-11-19

0.0000 0 2

文本挖掘中使用的特征工程技术是什么？

你知道你正在阅读的这一行的每个单词都可以转换成一个函数吗？是的，你听错了。文本数据提供了广泛的可能性来生成新函数。但有时候，我们最终会产生很多功能，在某种程度上处理它们会变成一项痛苦的任务。因此，我们应该仔细分析提取的特征。别担心！下面解释的方法也有助于减少结果数据集的维度。以下是使用的常用功能工程方法列表： 1. n-gram ：在文档语料库中，1

詹惠儿

2018-11-19

0.0000 0 4

关于正则表达式的练习示例（二）

6.从一行文本中删除标点符号 going <- "a1~!@#$%^

詹惠儿

2018-11-19

0.0000 0 2

关于正则表达式的练习示例（一）

1.从一串字符中提取数字 #extract digits - all 4 works string <- "My roll number is 1006781" gsub(pattern = "[^0-9]",replacement = "",x = string) stringi::stri_extract_all_regex(str = string,pattern = "\\d ")

詹惠儿

2018-11-19

0.0000 0 0

R中可用POSIX字符类

在R中，POSIX字符类可以被标识为包含在双方括号内[（[]]）。表达式之前的插入符号限定了表达式的值。我发现这些类比其他类更直观，因此更容易学习。以下是R中可用的posix字符类：

詹惠儿

2018-11-19

0.0000 0 2

基本正则表达式函数

R在解析文本数据方面同样强大，在正则表达式中，有多种方法可以完成某项任务。但是，在学习的过程中，坚持特定方法以避免混淆是至关重要的。因此，下面整理了一些专门用于处理正则表达式（又名正则表达式）的基本函数。对于使用正则表达式，可用的基本正则表达式函数是grep（），grepl（），regexpr（），gregexpr（），regexec（）和regmatches（）。以下

詹惠儿

2018-11-19

0.0000 0 2

修改字符串的R函数有哪些？

下表整理归纳了一些常用的基本R函数（在stringr中也可用）来修改字符串：

詹惠儿

2018-11-19

0.0000 0 2

常见的字符串操作函数列表

在R中，字符串是用引号（“”）括起来的任何值。是的，您甚至可以将数字作为字符串。 R通知类character下的字符串。让我们来看看！ text <- "san francisco" typeof(text) [1] "character" num <- c("24","34","36") typeof(num) [1] "character" R的基本paste功能用于组合（

詹惠儿

2018-11-19

0.0000 0 1

什么是字符串操作？

字符串操作的定义顾名思义，字符串操作包含一系列用于从文本变量中提取信息的函数。在机器学习中，这些功能被广泛用于进行特征工程，即从现有的字符串特征创建新特征。在R中，我们有像stringr and stringi这样的包，它们都加载了所有的字符串操作函数。此外，R还包括几个用于字符串操作的基本函数。这些函数旨在补充正则表达式。字符串操作函数和正则表达式之间的实际差异是

詹惠儿

2018-11-19

0.0000 0 2

正则表达式是什么？

正则表达式的定义正则表达式（又名正则表达式）是一组模式匹配命令，用于检测大型文本数据中的字符串序列。这些命令旨在匹配文本的族（字母数字，数字，单词），这使得它具有足够的通用性来处理任何文本/字符串类。简而言之，使用正则表达式可以在编写较短代码时获得更多文本数据。例如，假设您从网上抓取了一些数据。数据包含用户的日志时间。您想要提取日志时间。但是，数据很混乱

詹惠儿

2018-11-19

0.0000 0 3

简述什么是离散随机变量？

离散随机变量离散随机变量被定义为将样本空间映射到一组离散实数值的函数。其中X是随机变量，S是样本空间， rmR是实数集。就像任何其他函数一样，X接受一个值并根据为其定义的规则计算结果。更详细地说明，如果X是为具有样本空间S的特定随机实验定义的随机变量，则X=c表示包含所有可能结果的事件E 在ei\在S中那个注意：随机变量也可以采用非样本中的值。不在示例空间中的所有值都映射到

詹惠儿

2018-11-16

0.0000 0 4

贝叶斯及条件规则

条件概率顾名思义的条件概率在特定事件的发生概率在满足一个或多个条件时变化时发挥作用（这些条件再次是事件）。用技术术语来说，如果X和Y是两个事件，那么X wrt Y的条件概率用表示。因此，当我们以条件概率的方式进行讨论时，仅作为一个例子，我们做出一个声明，如“给定Y已经发生的事件X的概率”。如果X和Y是独立事件怎么办？根据独立事件的定义，事件X的发生不依赖于事件Y.因此，

詹惠儿

2018-11-16

0.0000 0 3

基本概率规则和模型

概率提供有关事件发生可能性的信息。深入研究概率的术语：试验或实验：导致某种可能性结果的行为。样本空间：实验的所有可能结果的集合。事件：样本空间的非空子集称为事件。因此，在技术术语中，概率是衡量事件进行实验的可能性的指标。基本概率计算根据定义，如果A是实验的事件并且它包含n个结果而S是样本空间那么，因此，概率值介于0和1之间。由于样本空间是整个可

詹惠儿

2018-11-16

0.0000 0 4