SQL相关子查询与非相关子查询https://blog.csdn.net/shiyong1949/article/details/80923083
SQL中的ON和WHERE的区别https://blog.csdn.net/liitdar/article/details/80817957
(一) 为什么要进行标准化把特征的各个维度标准化到特定的区间把有量纲表达式变为无量纲表达式(二)标准化常用方法1. standard scaler : 需满足数据为正太分布 (x- mean(x))/std(x)2. MinmaxScaler : 将数据变换到要求的范围 (b-a) * (x-min)/(max-min) * a3. RobustScaler: 在数据分
(一) 基本概念 (二) 代码实现: from sklearn import linear_modellog = linear_model.LogisticRegression(solver='lbfgs',C=3,max_iter=1000) #实例化log.fit(xtrain,ytrain) #拟合数据log.score(xtest,ytest) #评估模型
数据挖掘拥有很多定义, 其中一个比较有名的定义为 “一门从大量数据或者数据库中提取有用信息的科学”。更简单的说,机器学习就是通过数据训练找一个合适的目标函数的过程。而目前,机器学习学科应用到了大量的统计学知识,我们也称其为统计机器学习。简言之,机器学习是一门更加偏向理论性学科,其目的是为了让计算机不断学习找到接近目标函数f的假设h。而数据挖掘则是使用了包括机器学习算法在内的众多知识的一门应
K-Nearest Neighbors算法特点•优点•精度高•对异常值不敏感•无数据输入假定•缺点•计算复杂度高•空间复杂度高•适用数据范围•数值型和标称型•工作原理•存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每个数据与所属分类的对应关系。•输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算
传统数据分析与大数据分析的三方面异同:第一,在分析方法上,两者并没有本质不同。 数据分析的核心工作是人对数据指标的分析、思考和解读,人脑所能承载的数据量是极其有限的。所以,无论是“传统数据分析”,还是“大数据分析”,均需要将原始数据按照分析思路进行统计处理,得到概要性的统计结果供人分析。两者在这个过程中是类似的,区别只是原始数据量大小所导致处理方式的不同。第二,在对统计学知识的
Seaborn其实是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seaborn就能做出很具有吸引力的图,而使用matplotlib就能制作具有更多特色的图。应该把Seaborn视为matplotlib的补充,而不是替代物。
对应 scikit-learn 方法是 sklearn.metrics.silhouette_score。该方法是计算所有样本的平均值,另一个方法 silhouette_samples 会返回所有样本的轮廓系数。在文档中提到,轮廓系数需要聚类数大于2,小于(样本数-1)。方法包括几个参数,最终返回一个 float 的轮廓系数,通常是在全部样本上的。X:二维样本,通常为[n_samples, n
对于每个点𝑖 为已聚类数据中的样本 ,𝑏𝑖 为𝑖 到其它族群的所有样本的平均 距离,𝑎𝑖 为𝑖 到本身簇的距离平均值 最终计算出所有的样本点的轮廓系数平均值
答:因为kmeans和knn两个算法模型需要计算点与点之间的空间距离,所以最好用于量级较小的数据中.当然也需要考虑数据特征数的多少而定.
问:KMeans组内距离平方和是哪个簇的?答:是所有簇相加的总和,
导包:import numpy as npimport matplotlib.pyplot as plt%matplotlib inlinefrom sklearn.datasets import make_blobs生成数据:# X为样本特征,Y为样本簇类别, 共1000个样本,# 每个样本 2 个特征,共4个簇,# 簇中心在[-1,-1], [0,0],[1,1], [2,2
class sklearn.cluster.KMeans(n_clusters=8, init='k-means ', n_init=10, max_iter=300, tol=0.0001, , verbose=0, random_state=None, n_jobs=None) n_clusters: 就是K, 聚成几类 init:'k-means ', 一种选择初始中心点
问:不均衡的数据指label为0和1的样本比例不一样 那在生成不均衡数据的时候 设置中心点和离散程度可以省略 或者让class1和class2的中心点和离散程度完全一致吗?答:在模拟的数据集中,原则上是可以这样设置的,但用中心点和离散程度完全一致的数据集做聚类效果很差.为了将模拟确实有明显分类的数据我们一般需要设置class1和class2的中心点和离散程度.
问:分类型数据中,默认1为少类,0为多类吗?答:这个并不是绝对的,但习惯上一般默认1为少类,0为多类.习惯将我们更期望被预测出来的类型标位1类
模型天生会倾向于识别多数类, 但是在我们的大多数不均衡数据集中, 少类样本才是我们真正想要去识别的类别.解决方案: 1. 构建一个新的模型效果评估体系, 去评估模型对于少类样本的识别情况. - 混淆矩阵 - 精准度 - 召回率 - f1-score2. 解决数据集中的类别不均衡问题 - 采用采样法: 上采样(SOMTE采样法), 下采样 -
信息熵是用来衡量一个随机变量出现的期望值,一个变量的信息熵越大。在决策树模型中信息熵越大,表示纯度越低。
DecisionTreeClassifier (criterion='gini', splitter='best', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes
sklearn中的决策树用的是CART二叉树:分类回归树。
关注