机器学习-数据科学专业问答社区-CDA答疑社区

热线电话：13121318867

登录

于家崎

数据分析Python机器学习

K近邻算法K最近邻(kNN，k-Nearest Neighbor)：工作原理：存在一个样本数据集合，也称作为训练样本集，并且样本集中每个数据都存在标签，即每一个数据与所属分类的一一对应关系。输入没有标签的新数据后，将新的数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本最相似数据(最近邻)的分类标签。一般来说，只选择样本数据集中前k个最相似的数据，这就是k-近邻算法中k的出

73.4504

2

0

0

关注作者

收藏

小朱520

机器学习，探索性分析的目的，以及数据编码的一种技巧

探索性分析的主要目的是，挖掘新的有价值的东西，以及对数据的平衡度进行一个检测。对序列编码的一种格式操作，

37.9030

4

0

0

关注作者

收藏

隋东芝

大数据及其特征

大数据及其特征人类历史上从未有哪个时代和今天一样产生如此海量的数据。数据的产生已经完全不受时间、地点的限制，数据的总量在不断地增加，增加的速度也在不断地加快。而要掌握大数据的概念，首要任务就是从动态上了解大数据的成因。大数据的成因，不仅是人类信息技术的进步，而且是信息技术领域不同时期多个进步交互作用的结果。从开始采用数据库作为数据管理的主要方式开始，人类社会的数据产生方式大致经历了被动、主动和自动

41.5403

4

0

0

关注作者

收藏

姚慧扬

集成学习分类

集成学习：集成学习（ensemble learning）通过构建并结合多个学习器来完成学习任务。如何产生“好而不同”的个体学习器，是集成学习研究的核心。根据个体学习器的生成方式，可以将集成学习方法大致分为两大类：1、个体学习器间存在强依赖关系、必须串行生成的序列化方法比如 boosting 族算法，代表性的有 Adaboost 算法， GBDT， XGB2、个体学习器之间不存在强依赖关系、可同时

41.4497

5

0

0

关注作者

收藏

隋东芝

查找python中包与模块的默认搜寻目录

#查找python中包与模块的默认搜寻目录import osprint(os.sys.path)

30.1300

4

1

0

关注作者

收藏

隋东芝

AttributeError: ‘dict_items‘ object has no attribute ‘copy‘解决方法

AttributeError: ‘dict_items‘ object has no attribute ‘copy‘解决方法：python3.0 xgboost参数配置需要把plst = params.items()修改为plst = list(params.items())

30.1300

4

0

0

关注作者

收藏

隋东芝

ModuleNotFoundError: No module named 'imblearn'解决方法

ModuleNotFoundError: No module named 'imblearn'解决方法①命令提示符-cmd②pip install --user imbalanced-learn

30.1300

4

1

0

关注作者

收藏

隋东芝

Bagging和Boosting的概念与区别

Bagging和Boosting的概念与区别随机森林属于集成学习(ensemble learning)中的bagging算法，在集成算法中主要分为bagging算法与boosting算法，Bagging算法(套袋发)bagging的算法过程如下：从原始样本集中使用Bootstraping 方法随机抽取n个训练样本，共进行k轮抽取，得到k个训练集（k个训练集之间相互独立，元素可以有重复）。对于n个训

36.2160

4

0

0

关注作者

收藏

赵娜0418

如何理解朴素贝叶斯算法？

朴素贝叶斯方法是一组监督学习算法，基于贝叶斯定理应用给定类变量值的每对特征之间的条件独立性的“天真”假设。在给定类变量y和从属特征向量x1到xn，贝叶斯定理表明了以下关系：使用条件独立假设对于所有i，这种关系被简化为由于P(x1,…,xn)在输入时是常数，我们可以使用以下分类规则：我们可以使用最大后验（MAP）估计来估计 P(y)和P(xi∣y) ; 前者是训练集中y类的相对频率。

1.0806

4

0

0

关注作者

收藏

隋东芝

ModuleNotFoundError: No module named 'mayavi'解决方法

ModuleNotFoundError: No module named 'mayavi'解决方法①命令提示符-cmd②conda search mayavi （找到了mayavi）③conda install mayavi

27.6857

1

0

0

关注作者

收藏

CDA持证人阿涛哥

批量梯度下降法和随机梯度下降法的区别是什么？

批量梯度下降法在全部训练集上计算准确的梯度,随机梯度下降法则采用每个样本来估计当前梯度.

81.3233

6

3

0

关注作者

收藏

姚慧扬

神经网络主要解决非线性问题回归问题:隐藏层有激活函数(指定的激活函数),输出层无激活函数;按照平方差误差最小进行优化;只有一个输出端口;分类问题:隐藏层有激活函数(指定的激活函数);按照交叉熵函数最小进行优化;二分类:输出层的激活函数为sigmoid函数,一个输出端口多分类:输出层的激活函数为softmax函数,多个输出端口神经网络的缺点:和决策树一样,容易过拟合解

24.3398

2

2

0

关注作者

收藏

隋东芝

机器学习中常见的损失函数

机器学习中常见的损失函数　　损失函数是机器学习中常用于优化模型的目标函数，无论是在分类问题，还是回归问题，都是通过损失函数最小化来求得我们的学习模型的。损失函数分为经验风险损失函数和结构风险损失函数。经验风险损失函数是指预测结果和实际结果的差别，结构风险损失函数是指经验风险损失函数加上正则项。通常表示为：　　　　θ*是我们通过损失函数最小化要求得的参数，一般都是通过梯度下降法来求得1、0-1损失函

24.3398

2

2

0

关注作者

收藏

隋东芝

神经网络是一种是基于生物学中神经网络的基本原理，在理解和抽象了人脑结构和外界刺激响应机制后，以网络拓扑知识为理论基础，模拟人脑的神经系统对复杂信息的处理机制的一种数学模型。该模型以并行分布的处理能力、高容错性、智能化和自学习等能力为特征，将信息的加工和存储结合在一起，以其独特的知识表示方式和智能化的自适应学习能力，引起各学科领域的关注。它实际上是一个有大量简单元件相互连接而成的复杂网络，具有高度的

24.3270

1

3

0

关注作者

收藏

小朱520

机器学习中PCA和LDA的两种降维方法解读

降维主要有两种方法，pca和lda，两者的区别是，pca是一种五监督的降维，是使数据尽可能散的在一条线上，而lda是一种有监督的降维，是使数据有分类的落在一条线上。

24.4744

2

1

0

关注作者

收藏

隋东芝

ModuleNotFoundError: No module named 'gensim'解决方法

在使用gensim中的Word2Vec模型进行训练时，出现了ModuleNotFoundError: No module named 'gensim'解决方法如下：pip3 install gensim==3.8.1

32.2244

3

5

0

关注作者

收藏

姚慧扬

损失函数:1.线性回归:L(θ)=常数-J(θ) -->J(θ)最小2.逻辑回归:J(θ)=-L(θ) -->最小3.softmax回归:J(θ)=-L(θ) -->最小交叉熵函数:衡量两个概率分布的距离为什么用交叉熵函数:因为MSE训练起来很费劲,但是交叉熵函数可以收敛的更快分类问题都是使用交叉熵损失函数,不用MSE对于不平衡的数据有以下处理方法:1.数据层面处理:只能处理训练集

32.3250

2

1

0

关注作者

收藏

赵娜0418

如何理解Kmeans聚类？

1. 基本思想K-means 聚类是一种快速聚类法，适合应用于大样本量的数据。其方法可以总结为：首先随机选择 K 个点作为中心点，所有样本与这 K 个中心点计算距离，距离最近的样本被归为与中心点同类的点，然后重新计算每个类的中心，再次计算每个样本与类中心的距离，并按照最短距离原则重新划分类，如此迭代直至类不再变化为止。2. 基本步骤：（1）对数据进行标准化，消除数据差异和量纲的影响。（2）确

2.0724

3

5

0

关注作者

收藏

小朱520

机器学习关于关联规则的简单操作

对于关联规则，大致可以分为两大步骤，第一步是使用apriori 库找出频繁集的操作为：1是为了让原本的dataset数据变成2的模式，因为机器学习都是m*n的数据格式。第二大步是使用association_rules库找关联规则操作为：

37.1459

1

2

0

关注作者

收藏

小朱520

机器学习，关联规则中关于支持度，置信度，提升度的解释

假设关联规则为x==》y支持度的意思是事物x和y在总事物集出现的频次，好比牛肉和鸡肉同时购买的次数占整个订单集的数为三分之七就是它的支持度，以概率呈现，越大越好。置信度是指买了x会买y的概率，公式为，买了x又买y的单次数除以所有买x的单次数，好比上图，如果x是牛肉，y是鸡肉，那么它的置信度为4/3.以概率呈现，概率越大说明这个x==》y的关联规则越好。一般强关联规则都是需要支持度大于最小支持度（自

37.1459

1

2

0

关注作者

收藏

<1234…69>

CDA考试动态

CDA报考指南