数据科学专业问答社区，好文章，一字千金--CDA答疑社区

CDA数据科学研究院 CDA考试中心 CDA网校企业服务

CDA社区

CDA竞赛 CDA技术答疑 CDA俱乐部

关于CDA APP下载

免密码登录

提交首次登录验证后自动注册

展开 +

while 循环

为避免前述示例所示的繁琐代码，能够像下面这样做很有帮助： x = 1 while x

0.0000 0 3

代码块嵌套

下面穿插点额外的内容。你可将if语句放在其他if语句块中，如下所示： name = input('What is your name? ') if name.endswith('Gumby'): if name.startswith('Mr.'): print('Hello, Mr. Gumby') elif name.startswith('Mrs.'):

0.0000 0 1

elif 子句

要检查多个条件，可使用elif。elif是else if的缩写，由一个if子句和一个else子句组合而成，也就是包含条件的else子句。 num = int(input('Enter a number: ')) if num > 0: print('The number is positive') elif num < 0: print('The number is

0.0000 0 3

else 子句

在前一节的示例中，如果你输入以Gumby结尾的名字，方法name.endswith将返回True，导致后续代码块执行——打印问候语。如果你愿意，可使用else子句增加一种选择（之所以叫子句是因为else不是独立的语句，而是if语句的一部分）。 name = input('What is your name?') if name.endswith('Gumby'): print('Hel

0.0000 0 3

有条件地执行和 if 语句

真值可合并，至于如何合并稍后再讲，先来看看真值可用来做什么。请尝试运行下面的脚本： name = input('What is your name? ') if name.endswith('Gumby'): print('Hello, Mr. Gumby') 这就是if语句，让你能够有条件地执行代码。这意味着如果条件（if和冒号之间的表达式）为前面定义的真，就执行后续代码块（这

0.0000 0 2

这正是布尔值的用武之地

用作布尔表达式（如用作if语句中的条件）时，下面的值都将被解释器视为假： False None 0 "" () [] {} 换而言之，标准值False和None、各种类型（包括浮点数、复数等）的数值0、空序列（如空字符串、空元组和空列表）以及空映射（如空字典）都被视为假，而其他各种值都被视为真①，包括特殊值True②。明白了吗？这意味着任何Python值都可解释为真值

0.0000 0 1

代码块：缩进的乐趣

代码块其实并不是一种语句，但要理解接下来两节的内容，你必须熟悉代码块。代码块是一组语句，可在满足条件时执行（if语句），可执行多次（循环），等等。代码块是通过缩进代码（即在前面加空格）来创建的。注意也可使用制表符来缩进代码块。Python将制表符解释为移到下一个制表位（相邻制表位相距8个空格），但标准（也是更佳的）做法是只使用空格（而不使用制表符）来缩进，且每级缩进4个空格。在同

0.0000 0 1

sklearn中随机森林有哪些重要的参数

使模型预测效果更好的特征：n_estimators：随机森林里子树的数量，通常数量越大，效果越好，但是计算时间也会随之增加。此外要注意，当树的数量超过一个临界值之后，算法的效果并不会很显著地变好。max_features：分割节点时考虑的特征的随机子集的大小。这个值越低，方差减小得越多，但是偏差的增大也越多。根据经验，回归问题中使用 max_features = n_features，分类问

0.0000 0 3

sklearn最近邻算法leaf_size的影响

构造时间leaf_size越大，树的构建时间越快查询时间不同的 leaf_size 大小会改变查询成本的优次，当 leaf_size 接近 1 时，遍历节点所涉及的开销大大减慢了查询时间。当 leaf_size 接近训练集的大小，查询本质上变成了暴力搜索（brute force）。在这之间的一个很好的妥协是 leaf_size = 30，这是该参数的默认值。内存随着 leaf_siz

0.0000 0 4

啊啊啊啊啊吖

相关性和因果性

你很可能听说过这样一句话：“相关不是因果。”这样的说辞大致出自一位遇到了一堆威胁着他不可动摇的世界观的数据的人之口。然而，这是个重要的论断——如果 x 和 y 强相关，那么意味着可能 x 引起了 y，或 y 引起了 x，或者两者相互引起了对方，或者存在第三方因素同时引起了 x 和 y，或者什么都不是。回想一下 num_friends 和 daily_minutes 之间的关系。如果

600.0000 1 2

啊啊啊啊啊吖

Python里面怎么做标准化呀

所有中心倾向的度量都是同一单位。极差的单位也与此相同。但是，方差的单位是原数据单位的平方（即“平方朋友”）。然而，用方差很难给出直观的比较，所以我们更常使用标准差（standard deviation）：def standard_deviation(x):return math.sqrt(variance(x))standard_deviation(num_friends) # 9

0.0000 0 2

啊啊啊啊啊吖

怎么用Python计算方差

def de_mean(x):"""translate x by subtracting its mean (so the result has mean 0)"""x_bar = mean(x)return [x_i - x_bar for x_i in x]def variance(x):"""assumes x has at least two elements"""n = le

0.0000 0 1

啊啊啊啊啊吖

中位数

中位数的一个泛化概念是分位数（quantile），它表示少于数据中特定百分比的一个值。（中位数表示少于 50% 的数据的一个值。 )def quantile(x, p):"""returns the pth-percentile value in x"""p_index = int(p * len(x))return sorted(x)[p_index]quantile(num_fr

0.0000 0 2

最近邻算法的选择

对于给定数据集，K近邻的最优算法选择（algorithm）取决于多个因素：样本数量N 和维度D：brute force 查询时间以O[DN]增长。ball tree 查询时间大约以O[Dlog(N)]增长。k-d tree 的查询时间变化是很难精确描述的，对于较小的D(小于20)的成本大约是O[Dlog(N)]，并且 k-d tree 更加有效。对于较大的D成本的增加接近O[DN]，由于

0.0000 0 3

啊啊啊啊啊吖

Python实现描述性统计-均值

常用的方法是使用均值（mean 或average），即用数据和除以数据个数：# 如果没有从__future__导入division，那就是不对的def mean(x):return sum(x) / len(x)mean(num_friends) # 7.333333如果你有两个数据点，均值就意味着两点的中间点。随着数据集中点数的增加，均值点会移动，但它始终取决于每个点的取值。我

0.0000 0 1

啊啊啊啊啊吖

怎么用Python画散点图

散点图是显示成对数据集的可视化关系的好选择。比如显示了你的用户们已有的朋友数和他们每天花在网站上的分钟数之间的关系：friends = [ 70, 65, 72, 63, 71, 64, 60, 64, 67]minutes = [175, 170, 205, 120, 220, 130, 105, 145, 190]labels = ['a', 'b', 'c', 'd', 'e', '

0.0000 0 4

简述什么是离散随机变量？

离散随机变量离散随机变量被定义为将样本空间映射到一组离散实数值的函数。其中X是随机变量，S是样本空间， rmR是实数集。就像任何其他函数一样，X接受一个值并根据为其定义的规则计算结果。更详细地说明，如果X是为具有样本空间S的特定随机实验定义的随机变量，则X=c表示包含所有可能结果的事件E 在ei\在S中那个注意：随机变量也可以采用非样本中的值。不在示例空间中的所有值都映射到

0.0000 0 4

贝叶斯及条件规则

条件概率顾名思义的条件概率在特定事件的发生概率在满足一个或多个条件时变化时发挥作用（这些条件再次是事件）。用技术术语来说，如果X和Y是两个事件，那么X wrt Y的条件概率用表示。因此，当我们以条件概率的方式进行讨论时，仅作为一个例子，我们做出一个声明，如“给定Y已经发生的事件X的概率”。如果X和Y是独立事件怎么办？根据独立事件的定义，事件X的发生不依赖于事件Y.因此，

0.0000 0 3

啊啊啊啊啊吖

算法里特征提取和选择

如果数据没有足够的特征，模型很可能就会欠拟合。但如果数据有太多的特征，模型又容易过拟合。那什么是特征呢，它们又从何而来？特征（feature）是指提供给模型的任何输入。在最简单的情况下，特征是直接提供给你的。如果你想基于某人的工作年限来预测其薪水，那工作年限就是你所拥有的唯一的特征。当数据变得更复杂时，事情变得有趣起来。设想我们尝试建立一个垃圾邮件过滤器来预测一封邮件是否是垃圾邮

0.0000 0 0

sklearn的KNN最近邻算法中algorithm参数是啥

Nearest Neighbor Algorithms最近邻算法的选择可通过关键字‘algorithm’来控制，其参数有[‘auto’，‘brute’，‘kd_tree’，‘ball_tree’]，默认使用‘auto’时算法尝试从训练数据中确定最佳方法。Brute Forcebrute forse也称暴力计算，是最简单的近邻搜索的实现，即数据集中所有成对点之间距离的暴力计算，对于D维度中的

0.0000 0 6

<1…114611471148…1215>

快速发帖我要提问

数据分析师求职、备考、笔试
刷题神器！

社区福利马上领

热门用户换一批

: 詹惠儿

: 赵娜0418

: shauna570392

: 啊啊啊啊啊吖

: liting李

: 读童话的狼

本月PGC排行

总奖励

暂无数据