数据科学专业问答社区，好文章，一字千金--CDA答疑社区

广告竞价系统，属于搜索还是推荐？信息流广告呢？

百度或者搜狗的广告属于搜索竞价，不属于推荐。这个是基于用户的搜索关键字显示对应的广告。信息流广告比如抖音广告，头条的广告会进行精准营销，根据用户的喜好进行精准的推荐。包括淘宝，亚马逊等一些购物网站的推荐也是精准营销。

shauna570392

2020-02-20

0.9994 1 4

为什么两个文件放在一起才能运行

一、问题描述为什么有时候必须把需要导入的文件和ipynb文件放在同个文件夹下才能运行？二、问题解答是因为在填写导入文件的代码时，只写了文件名，在这种情况下，python会在同一文件夹下找文件，如果文件不在该文件夹所以会报错。如果需导入的文件在其他路径，则需要在写代码时写完整的路径。

shauna570392

2020-02-20

0.9994 1 2

啤酒和尿布的案例属于关联规则吗

一、概念什么是关联规则（Association Rules）？答：关联规则是数据挖掘中的概念，通过分析数据，找到数据之间的关联。电商中经常用来分析购买物品之间的相关性，例如，“购买尿布的用户，有大概率购买啤酒”，这就是一个关联规则。画外音：如果把买尿布记作A，买啤酒记作B。 “买尿布的用户有较大概率买啤酒”这个关联规则记作A -> B。什么是关联规则推荐（Association Rul

shauna570392

2020-02-20

0.9994 1 2

有监督学习和无监督学习的区别

有监督学习：对具有标记的训练样本进行学习，以尽可能对训练样本集外的数据进行分类预测（LR、SVM、RF、GBDT）无监督学习：对未标记的样本进行训练学习，已发现这些样本中的知识结构（Kmeans，DL）

shauna570392

2020-02-19

0.9994 1 1

什么是AUC曲线,如何计算?

AUC指的是ROC曲线下的面积大小，该值能够量化地反映基于 ROC曲线衡量出的模型性能。计算AUC值只需要沿着ROC横轴做积分就可以了。由于ROC曲线一般都处于y=x这条直线的上方（如果不是的话，只要把模型预测的概率反转成1−p就可以得到一个更好的分类器），所以AUC的取值一般在0.5～1之间。AUC越大，说明分类器越可能把真正的正样本排在前面，分类性能越好。

shauna570392

2020-02-19

0.0000 0 1

ROC曲线的原理是什么

ROC曲线是真正率和假正率在不同的阀值下之间的图形表示关系。通常用作权衡模型的敏感度与模型对一个错误分类报警的概率。真正率：表示正的样本被预测为正占所有正样本的比例。假正率：表示负的样本被预测为正占所有负样本的比例。（0，0）点表示所有样本都被预测为负，此时阀值很大。（1，1）点表示所有样本都被预测为正，此时阀值很小。

shauna570392

2020-02-19

0.9994 1 2

模型评估阶段,过拟合和欠拟合具体是指什么现象

过拟合是指模型对于训练数据拟合呈过当的情况，反映到评估指标上，就是模型在训练集上的表现很好，但在测试集和新数据上的表现较差。欠拟合指的是模型在训练和预测时表现都不好的情况。

shauna570392

2020-02-19

0.0000 0 3

如何进行A/B测试

进行A/B测试的主要手段是进行用户分组，即将用户分成实验组和对照组，对实验组的用户施以新模型，对对照组的用户施以旧模型。在分组的过程中，要注意样本的独立性和采样方式的无偏性，确保同一个用户每次只能分到同一组。

shauna570392

2020-02-19

0.0000 0 2

什么是多项式回归

线性回归的局限性是只能应⽤于存在线性关系的数据中，但是在实际⽣活中，很多数据之间是⾮线性关系，虽然也可以⽤线性回归拟合⾮线性回归，但是效果将会很差，这时候就需要对线性回归模型进⾏改进，使之能够拟合⾮线性数据。研究一个因变量与一个或多个自变量间多项式的回归分析方法，称为多项式回归。

shauna570392

2020-02-19

0.9994 1 2

R方的意义

R方越接近1，表明回归平⽅和占总平⽅和的⽐例越⼤，回归直线与各观测点越接近，⽤ x的变化来解释 y值变化的部分就越多，回归直线的拟合程度就越好；反之R方越接近0，回归直线的拟合程度就越差。

shauna570392

2020-02-19

0.9994 1 2

R2 的取值范围

判定系数R2 测度了回归直线对观测数据的拟合程度。 • 若所有观测点都落在直线上，残差平⽅和为 SSE = 0，则R2 = 1，拟合是完全的； • 如果 y的变化与 x⽆关， x完全⽆助于解释 y的变化，ŷ= y¯ ，则 R2=0。可⻅ R2 的取值范围是[0,1]

shauna570392

2020-02-19

0.0000 0 3

为什么我们要选择⾃然对数函数来作为成本函数？

逻辑回归模型的预测函数是Sigmoid函数，⽽Sigmoid函数⾥有e的n次⽅运算，⾃然对数刚好是其逆运算。选择⾃然对数，最终会推导出形式优美的逻辑回归模型参数的迭代函数，⽽不需要去涉及对数运算和指数函数运算。这就是我们选择⾃然对数函数来作为成本函数的原因

shauna570392

2020-02-19

0.9994 1 2

分类和回归问题的区别

一、问题我们可以将机器学习任务分为分类任务和回归任务那么具体二者有什么区别？二、解答输出变量为连续变量的预测问题是回归问题，输出变量是有限个离散变量的预测问题是分类问题。举个例⼦：预测房价，这是⼀个回归任务；预测性别，就是⼀个分类任务。

shauna570392

2020-02-19

0.0000 0 0

写下sql的执行顺序

查询语句中select from where group by having order by limit的执行顺序 1.查询中用到的关键词主要包含六个，并且他们的顺序依次为 select--from--where--group by--having--order by--limit 其中select和from是必须的，其他关键词是可选的，这六个关键词的执行顺序与sql语句的书写顺序并不

shauna570392

2020-02-19

0.0000 0 2

解释一下*args和**kwargs有什么区别

传递多个参数给函数 *args和*kwargs允许你给一个参数传递多个参数或者keyword参数。 kwargs工作原理和*args有点类似，但不是接收位置参数，而是接收关键字(keyword)参数(也叫被命名的参数)。

shauna570392

2020-02-19

0.0000 0 2

Python中可变数据类型和不可变数据类型

不可变数据类型：当该数据类型的对应变量的值发生了改变，那么它对应的内存地址也会发生改变，对于这种数据类型，就称不可变数据类型。可变数据类型：当该数据类型的对应变量的值发生了改变，那么它对应的内存地址不发生改变，对于这种数据类型，就称可变数据类型。总结：不可变数据类型更改后地址发生改变，可变数据类型更改地址不发生改变数据类型可变/不可变整型不可变

shauna570392

2020-02-19

0.0000 0 8

5个常用Python标准库

os：提供了不少与操作系统相关联的函数 sys: 通常用于命令行参数 re: 正则匹配 math: 数学运算 datetime:处理日期时间要注意pandas，numpy等外部开源的包不属于python自带的标准库。

shauna570392

2020-02-19

0.9994 1 2

如何理解高斯分布

高斯分布（Gaussian Distribution）也称为正态分布（Normal Distribution），是⾃然界最常⻅的⼀种概率密度函数。⼈的身⾼满⾜⾼斯分布，特别⾼和特别矮的⼈出现的相对概率都⽐较低。⼈的智商也符合⾼斯分布，特别聪明的天才和特别笨的⼈出现的相对概率都⽐较低。

shauna570392

2020-02-19

0.9994 1 2

广告竞价系统，属于搜索还是推荐？信息流广告呢？

为什么两个文件放在一起才能运行

推荐的产品怎么选，是推荐指数排序吗

推荐之前是否需要对群体聚类再推荐

啤酒和尿布的案例属于关联规则吗

有监督学习和无监督学习的区别

什么是AUC曲线,如何计算?

ROC曲线的原理是什么

模型评估阶段,过拟合和欠拟合具体是指什么现象

如何进行A/B测试

什么是多项式回归

R方的意义

R2 的取值范围

为什么我们要选择⾃然对数函数来作为成本函数？

分类和回归问题的区别

写下sql的执行顺序

解释一下*args和**kwargs有什么区别

Python中可变数据类型和不可变数据类型

5个常用Python标准库

如何理解高斯分布