数据科学专业问答社区，好文章，一字千金--CDA答疑社区

F1分数python sklearn包实现注意

python通过加载sklearn包，方便的使用f1_score函数。函数原型：sklearn.metrics.f1_score(y_true, y_pred, labels=None, pos_label=1, average=’binary’, sample_weight=None) 参数： y_true : 1d array-like, or label indicator arra

wenlongg

2019-02-21

0.0000 0 3

统计学中的bootstrapping

所谓的Bootstrapping法就是利用有限的样本资料经由多次重复抽样，重新建立起足以代表母体样本分布之新样本。统计学中，bootstrapping可以指依赖于重置随机抽样的一切试验。bootstrapping可以用于计算样本估计的准确性。对于一个采样，我们只能计算出某个统计量(例如均值)的一个取值，无法知道均值统计量的分布情况。但是通过自助法(自举法)我们可以模拟出均值统计量的近似分布。

wenlongg

2019-02-21

0.0000 0 2

交叉验证(CrossValidation)方法思想简介

以下简称交叉验证(Cross Validation)为CV.CV是用来验证分类器的性能一种统计分析方法,基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set),首先用训练集对分类器进行训练,在利用验证集来测试训练得到的模型(model),以此来做为评价分类器的性能指标.常见CV的方法如下: 1).H

wenlongg

2019-02-21

0.0000 0 3

bias和variance是什么？

一、偏差（bias）和方差（variance）的含义（1）泛化误差可以分解成偏差的平方加上方差加上噪声。偏差度量了学习算法的期望预测和真实结果的偏离程度,刻画了学习算法本身的拟合能力,方差度量了同样大小的训练集的变动所导致的学习性能的变化,刻画了数据扰动所造成的影响,噪声表达了当前任务上任何学习算法所能达到的期望泛化误差下界,刻画了问题本身的难度；（2）偏差和方差一般称为bias和varian

wenlongg

2019-02-21

0.0000 0 0

什么是正则化、如何理解正则化以及正则化的作用？

————————————【什么是正则化、如何理解正则化、以及正则化的作用？】 ————————————提到正则化，最好的切入点就是“过拟合”，简单地理解过拟合就是模型过分学习并拟合数据导致模型泛化性能较差。通过正则化的方法，可以尽量避免过拟合的发生。一、正则化的概念 What 正则化-Regularization（也称为惩罚项或范数）就是通过对模型的参数在“数量”和“大小”方面做相应的调整，从

wenlongg

2019-02-21

0.0000 0 3