小概率事件发生的概率 α和弃真错误的概率 α两者不是一个概念。弃真错误就是指原本是对的,你判断错的概率,这个是弃真事件发生的概率。小概率事件,是指在一次事件中几乎不可能发生的事件。一般称之为“显著性水平”,用α表示。显著性水平一般取值为5%只能说弃真错误的概率α是小概率事件发生的概率。
百分比和百分点百分比:是相对数中的一种,它表示一个数是另一个数的百分之几,也称为百分率或百分数。百分比的分母是100,也就是用1%作为度量单位,因此便于比较。百分点:是指不同时期以百分数的形式表示的相对指标的变动幅度,1%等于1个百分点。
顾客细分&画像(Customer Segmentation & Profiling)根据现有的顾客数据,将特征、行为相似的顾客归类分组。描述和比较各组。
近似误差其实可以理解为模型估计值与实际值之间的差距。估计误差其实可以理解为模型的估计系数与实际系数之间的差距。
近似误差:可以理解为对现有训练集的训练误差。 估计误差:可以理解为对测试集的测试误差。近似误差关注训练集,如果近似误差小了会出现过拟合的现象,对现有的训练集能有很好的预测,但是对未知的测试样本将会出现较大偏差的预测。模型本身不是最接近最佳模型。估计误差关注测试集,估计误差小了说明对未知数据的预测能力好。模型本身最接近最佳模型。
1.RMS:均方根误差2.RMSE:均方根误差它是观测值与真值偏差的平方和观测次数n比值的平方根,在实际测量中,观测次数n总是有限的,真值只能用最可信赖(最佳)值来代替.方根误差对一组测量中的特大或特小误差反映非常敏感,所以,均方根误差能够很好地反映出测量的精密度。3.标准差(Standard Deviation)标准差是方差的算术平方根,也称均方差(mean square error),是各数据
白噪声检验(Ljung – Box 检验)即原假设为: 滞后m阶序列值相互独立,自相关函数均为零备择假设为:之后m期的序列之间存在相关性若p>=α,则不能拒绝原假设,序列为白噪声若p
置信水平:一般用1-alpha表示,它是一个接近于1的概率值,表明你得到的置信区间包含真参数的概率。一般常取为95%或者90%或者99%。是预先取定的值。显著性水平:一个预先取定的值,一般用alpha表示。跟置信水平恰好方向相反(加起来是1),在假设检验中表示在零假设成立下拒绝它所犯的一类错误的上界。在用p值检验时,如果p值比显著性水平小,就可以放心拒绝原假设。反之,不拒绝。置信区间:在一个给定置
这要看原假设是怎么个问法,本质上就是考虑问题的角度;比如问平均体重是不是50Kg,这就是双边的,它是个不等号;如果问是否小于50Kg,那就是右侧检验;如果问是否大于50K个,那就是左侧检验.总之,原假设的反面是怎么样,就怎么叫.
将矩阵做初等行变换后,非零行的个数叫行秩将其进行初等列变换后,非零列的个数叫列秩矩阵的秩是方阵经过初等行变换或者列变换后的行秩或列秩矩阵的秩一般有2种方式定义1. 用向量组的秩定义矩阵的秩 = 行向量组的秩 = 列向量组的秩2. 用非零子式定义矩阵的秩等于矩阵的最高阶非零子式的阶单纯计算矩阵的秩时, 可用初等行变换把矩阵化成梯形梯矩阵中非零行数就是矩阵的秩
对于两个独立事件 A 与 B 有P(A|B) = P(A)以及P(B|A) = P(B)换句话说,如果 A 与 B 是相互独立的,那么 A 在 B 这个前提下的条件概率就是 A 自身的概率;同样,B 在 A 的前提下的条件概率就是 B 自身的概率。那么只需要简单的举个反例就好了P(X=-1,Y=-1) =1/8,P(X=-1)=3/8;P(Y=-1)=3/8那么P(X=-1|Y=-1)=P(X=-
统计学假设与检验中的用上述的第二个说法。概率是一个在0到1之间的实数,是对随机事件发生的可能性的度量。把握用在假设与检验这个地方,如“我们有95%的把握拒绝原假设”,是对程度的度量,二者意思相近,不必深究。
想问一下这一题的计算过程
不是一样的,SSA是组间平方和,主要指系统误差,反应自变量对因变量的影响,SSE则是组内平方和,指其他的误差(抽样误差,测量误差等)对因变量的影响SSE例如,每个样本内部的数据平方和加在一起就是组内平方和, 它反映了每个样本内各观测值的离散状况。反映组间误差大小的平方和称为组间平方和,也称为因素平方和,记为SSA。例如,四个行业被投诉次数之间的误差平方和就是组间平方和,它反映了样本均值之间的差异程
不仅仅是标准差已知,总体服从正态分布也是需要的,这是小样本检验的假设条件
卡方分布要求n个变量独立同分布于标准正态分布,所以这里是n个样本,并且来自同一个正态总体(样本框)
梯度下降法的优化思想:用当前位置负梯度方向作为搜索方向,因为该方向为当前位置的最快下降方向,所以也被称为是”最速下降法“。最速下降法越接近目标值,步长越小,前进越慢。缺点:靠近极小值时收敛速度减慢,求解需要很多次的迭代;直线搜索时可能会产生一些问题;可能会“之字形”地下降。牛顿法牛顿法最大的特点就在于它的收敛速度很快。优点:二阶收敛,收敛速度快;缺点:牛顿法是一种迭代算法,每一步都需要求解目标函数
β不是系数吗 为啥要加i?因为有多个自变量,每个自变量对应一个系数,其中β0是常数项
想请问一下这题怎么算的
“轮廓系数的值越大,表示该样本点距离其他簇的距离越大"请问这句话为什么错误呢?
关注