詹惠儿

如何用python求百分比和累积密度函数?

求百分比 求累积密度函数

0.0000 0 4
  • 关注作者
  • 收藏
詹惠儿

如何用python进行离散数据的频率分析

导入相关库: 导入数据我们将导入数据集以执行我们的离散频率分析。 我们将在2010年看看各国的酒精消费情况。 概率分布我们可以生成数据的直方图,其中y轴表示数据的概率分布。 频率计数

0.0000 0 5
  • 关注作者
  • 收藏
詹惠儿

如何用python进行双因素方差分析?

双因素方差分析首先,导入数据: 在Two-Way ANOVA ,有两个变量需要考虑。 问题是我们的变量(齿长len )是否与其他两个变量相关,并且由等式计算:

62.1152 1 3
  • 关注作者
  • 收藏
詹惠儿

如何用python进行单因素方差分析?

单因素方差分析也叫单因子方差分析,Analysis of Variance Test或ANOVA是对多于2组的t检验的推广。 我们的零假设表明,在数据组中采样的人群中存在相同的均值。 写作: n维数据组。我们的另一种假设是,上述等式中的任何一个等价都无法满足。 在这个ANOVA测试中,我们处理的是F-Statistic而不是p-value 。 他们的联系是不可或缺的,因为他们是表达同一

62.1152 1 0
  • 关注作者
  • 收藏
詹惠儿

如何用python进行频数分析?

导入相关库: 导入数据:从具有Weibull Distribution的Weibull Distribution生成一维数据集 其中U来自Uniform Distribution 。 直方图通过使用直方图,我们可以将1D数据集正确地划分为具有特定大小或宽度的区间,从而形成离散的概率分布

0.0000 0 3
  • 关注作者
  • 收藏
詹惠儿

如何用python进行双样本T检验?

双样本T测试如果我们有两个独立采样的数据集(方差相等),并且有兴趣探索真实意味着 mu1 mu1和 mu2 mu2是否相同的问题,也就是说,如果数据是从同一群体中抽样的,那么我们将使用Two Sample T-Test 。通常,当一个领域的研究人员对两个群体之间给定测试变量的影响感兴趣时,他们将从每个群体中取一个样本并将其记录为实验组和对照组。 实验组是将接收被测变量的样本,而对照组则不会。

62.1152 1 2
  • 关注作者
  • 收藏
詹惠儿

如何用python进行单样本T检验

首先导入相关的库: 生成数据让我们从Normal Distriubtion生成一些随机数据。 我们将从正态分布中抽取50个点,平均 mu=0 mu=0和方差 sigma2=1 sigma2=1,另一个用平均值 mu=2 mu=2和方差 sigma2=1 sigma2=1。 堆叠在彼此顶部的两个正态概率分布函数(pdf)如下所示: 单样本T测试One Sample

0.0000 0 1
  • 关注作者
  • 收藏
詹惠儿

python的其他统计指标

首先导入一份2010年全国酒精消费情况数据: 输出: 然后计算其他统计数据,例如数据的median,maximum 和 minimum 可视化统计我们可以通过制作Plotly框或Violin图来可视化这些统计数据。

0.0000 0 2
  • 关注作者
  • 收藏
zxq997

多维尺度分析

多维尺度分析(Multidimensional Scaling)的概念,最早产生于心理学,是用于衡量样本间相异性(距离)或相似性程度。当变量比较多的时候,我们没有办法直接进行观测,所以需要通过一种更加可视化的方式来进行分析。多维尺度分析应需而生。事物之间的相似程度,我们可以用实际距离来表示,也可以是一种主观的判断,也就是名义上的距离。因此当我们希望通过一些核心的变量来解释失误之间的相似性时,我们就

0.0000 0 5
  • 关注作者
  • 收藏
詹惠儿

python中的统计指标

首先导入一个数据集来进行我们的统计。 这是一份2010年各国的酒精消费情况数据。 data = pd . read_csv ( 'https://raw.githubusercontent.com/plotly/datasets/master/2010_alcohol_consumption_by_country.csv' )#此为这份数据储存目录 df = 数据 [ 0:10 ] ta

0.0000 0 1
  • 关注作者
  • 收藏
zxq997

对应分析

对应分析(Correspondence Analysis)是一种在主成分分析基础上发展而来的多元统计分析方法,主要用于两个或多个分类变量间各分类水平相关性的比较。在分析分类变量时常常使用列联表,可以应用卡方检验来分析变量之间的相关性,但当变量分类水平较多时,或者有一些变量存在压倒性优势的时候,很难从列联表中直观发现规律,因此需要应用对应分析。 对应分析的实质是通过降维投射,把列联表中的信息

0.0000 0 5
  • 关注作者
  • 收藏
zxq997

数据清洗

在整个预处理过程中,一个非常重要的核心就是数据清洗,也就是把数据变成我们可以用来分析和建模的样子。数据清洗一般包括以下几个部分:① 填补遗漏的数据值在数据收集的过程中,我们难免会遇到数据缺失的情况。对于缺失的数据,一般不建议直接删除,通常会采用常数、中位数/众数、随机数或者模型的方法进行填补。常数法,最简单,但是相对来说也比较主观,可能带来无效信息。因此使用较少,通常用于标记缺失值。中位数

0.0000 0 2
  • 关注作者
  • 收藏
zxq997

数据归约

在实际项目中,我们遇到的数据集可能比较大,这个时候除非应用大数据挖掘技术,在做一般的分析和建模时,我们都需要对数据进行归约,也就是简化。当然,简化的前提是尽可能少地减少信息损失和保证最终效果。另一种需要用到数据归约的情况是,数据集的变量数较多,而对应的样本数相对比较少。这个时候,样本的数量不足以支持这么多变量的研究,过多的变量数也会使得一些模型不再适用。那么这个时候,我们也需要对变量进行归约。

0.0000 0 0
  • 关注作者
  • 收藏
zxq997

常用的数据标准化

常用的数据标准化方法有三种:Z-score标准化Z-score,又称为标准分数,可以用公式 来计算。其中x逐一带入变量中的数据,μ为变量的平均数,σ为变量的标准差。Z-score可以理解为,数据落在平均值几倍的标准差范围内。变换后,变量的取值范围仍然是(-∞, ∞)。新生成的变量均值为0,方差为1。在不确定最大最小值,或者存在极端离群点的情况下,用Z-score标准化是比较好的选择。

62.1152 1 1
  • 关注作者
  • 收藏
zxq997

几种抽样方法的选择

如图: 简单随机抽样最简单,需要考虑的问题最少。但是往往由于人难以保持完全的客观,因此需要辅助以随机数等形式进行,以保证每个个体被抽中的可能性尽量相同。系统抽样在考虑到人力和时间成本的基础上,对简单随机抽样进行了调整,通过编号后等距离选择的方式进行。但是对于某些具有一定特征的群体,这样的方式和简单随机抽样一样,可能会造成样本特征过于集中或者缺失,不能很好地代表总体。分层抽样,可以很好地解

0.0000 0 3
  • 关注作者
  • 收藏
zxq997

数据中的概率抽样与非概率抽样

当我们需要获取一手数据的时候,一种常用的方式就是抽样调查。抽样调查不止在传统行业中比较常用,在现在互联网企业中也时常会用到。比如一些优惠活动或者特定客群营销等方案的测试,就需要用到抽样的方式选择测试群体。在做抽样调查时,我们都希望尽可能地减少误差,让抽样的样本能够充分代表整体的特征。那么误差和哪些因素相关呢?抽样误差(Sampling Error)的大小,主要由样本容量的大小和抽样方式来决定。

0.0000 0 0
  • 关注作者
  • 收藏
zxq997

数据分析中的数据

一般来说,我们是基于数据使用者的角度,来讨论数据是一手还是二手。一手数据(Primary data):也称为原始数据。顾名思义,是指直接获取,没有经过加工或者第三方传递获得的数据。比如传统调研中的问卷测评、小组访谈、面对面沟通等形式获得的数据,或者是互联网时代用户直接填写的个人信息数据以及平台抓取的行为数据等等。二手数据(Secondary data):主要是相对于一手数据而言,指的是通过第三

0.0000 0 1
  • 关注作者
  • 收藏
zxq997

数据库日期及时间函数

日期及时间函数:用来处理日期时间型数据

0.0000 0 2
  • 关注作者
  • 收藏
zxq997

数据库常用的字符串函数

常用的字符串函数:主要用于处理字符串值。常用的ASCII(char):返回字符的ASCII码值BIT_LENGTH(str):返回字符串的比特长度CONCAT(s1,s2...,sn):将s1,s2...,sn连接成字符串CONCAT_WS(sep,s1,s2...,sn):将s1,s2...,sn连接成字符串,并用sep字符间隔INSERT(str,x,y,instr):将字符串str

0.0000 0 3
  • 关注作者
  • 收藏
wangjuju123

replace

方法replace将指定子串都替换为另一个字符串,并返回替换后的结果。 >>> 'This is a test'.replace('is', 'eez') 'Theez eez a test' 如果你使用过字处理程序的“查找并替换”功能,一定知道这个方法很有用。

0.0000 0 2
  • 关注作者
  • 收藏

热门用户 换一批

本月PGC排行 总奖励

暂无数据