809669515

分层聚类

分层聚类涉及创建从上到下具有预定排序的聚类。例如,硬盘上的所有文件和文件夹都按层次结构进行组织。有两种类型的层次聚类,Divisive和Agglomerative。a分裂的方法在分裂或自上而下的聚类方法中,我们将所有观察分配给单个集群,然后将集群划分为两个最不相似的集群。最后,我们递归地对每个簇进行处理,直到每个观察有一个簇。有证据表明,在某些情况下,分裂算法比凝聚算法产生更准确的层次结

93.7428 1 2
  • 关注作者
  • 收藏
809669515

聚类

集群是类似的数据子集。聚类(也称为无监督学习)是将数据集划分为组的过程,使得每个组的成员尽可能彼此相似(接近),并且不同的组彼此尽可能不同(远)。群集可以发现数据集中以前未检测到的关系。群集分析有很多应用。例如,在商业中,聚类分析可用于发现和表征客户细分市场以用于营销目的,并且在生物学中,它可用于根据其特征对植物和动物进行分类。 两组主要的聚类算法是:分级凝聚分裂表分词K-mean自

100.6402 2 4
  • 关注作者
  • 收藏
阿抽哥哥

Pandas的DataFrame删除行和列有哪些操作?

DataFrame数据类型中我们会经常操作删除行与列的操作,而这些操作又有哪些呢?首先使用drop()方法对行与列进行删除操作,先看drop()方法的内置参数: 这里注意到有axis与inplace两个可选参数,意味着drop()可以通过axis参数调节删除行或者列,而通过inplace参数调节是否在原数据集上进行删除操作。原数据集长成这样: 通过使用drop()后删除了行与列:

6.8974 1 5
  • 关注作者
  • 收藏
809669515

模型评估 - 回归

在构建了许多不同的回归模型之后,有很多标准可用于评估和比较它们。 均方根误差RMSE是衡量回归模型错误率的常用公式。但是,它只能在以相同单位测量误差的模型之间进行比较。aa相对平方误差与RMSE不同,可以在不同单位测量误差的模型之间比较相对平方误差(RSE)。a平均绝对误差平均绝对误差(MAE)与原始数据具有相同的单位,并且只能在以相同单位测量误差的模型之间进行比较。它的大

0.0000 0 1
  • 关注作者
  • 收藏
809669515

ROC图表和曲线下面积(AUC)

ROC图表类似于增益或提升图表,因为它们提供了分类模型之间的比较手段。ROC图表显示X轴上的假阳性率(1-特异性),当其真实值为0时,目标的概率= 1,而在Y轴上显示真阳性率(灵敏度),目标的概率= 1时真值是1。理想情况下,曲线将快速向左上方爬,这意味着模型正确预测了案例。对角线红线表示随机模型(ROC101)。 曲线下面积(AUC)ROC曲线下的面积通常用作分类模型质量的度量。

0.0000 0 3
  • 关注作者
  • 收藏
809669515

什么是KS图表 ?

KS或Kolmogorov-Smirnov图表测量分类模型的性能。更准确地说,KS是衡量正负分布之间分离程度的指标。如果得分将人口划分为两个单独的组,其中一组包含所有阳性而另一组包含所有阴性,则KS为100。另一方面,如果模型不能区分正面和负面,那么就好像模型从总体中随机选择案例。KS将为0。在大多数分类模型中,KS将介于0和100之间,并且值越高,模型在分离正面和负面情况时越好。 例

0.0000 0 1
  • 关注作者
  • 收藏
阿抽哥哥

Pandas中cut()与qcut()如何区分?

cut()根据值本身来选择箱子均匀间隔,即每个箱子的间距都是相同的。 可以看到, cut()自动生成了等距的离散区间,如果自己想定义也是没问题的。 qcut()根据这些值的频率来选择箱子的均匀间隔,即每个箱子中含有的数的数量是相同的。 qcut()切分后每组数据量一样。除了可以使用 cut()进行离散化之外,qcut()也可以实现离散化。cut()是根据每个值的大小来进行离散化的

6.8974 1 5
  • 关注作者
  • 收藏
809669515

什么是增益和提升图表

增益或升力是分类模型有效性的度量,其计算为使用和不使用模型获得的结果之间的比率。增益和提升图表是评估分类模型性能的视觉辅助工具。然而,与混淆矩阵相比,评估整个人口增长或升力图表的模型评估一部分人口的模型表现。  例: 提升图表提升图表显示,与我们联系随机客户样本相比,我们获得积极响应的可能性要大得多。例如,通过基于预测模型仅联系10%的客户,我们将达到3倍的受访者,就像我们不使用任何

0.0000 0 4
  • 关注作者
  • 收藏
809669515

什么是混淆模型?

混淆矩阵显示分类模型与数据中的实际结果(目标值)相比所做的正确和不正确预测的数量。矩阵是N×N,其中N是目标值(类)的数量。通常使用矩阵中的数据来评估这些模型的性能。下表显示了两个类(正面和负面)的2x2混淆矩阵。 准确性:正确的预测总数的比例。阳性预测值或精确度 :正确识别的阳性病例的比例。负面预测值:正确识别的负面案例的比例。敏感度或召回率:正确识别的实际阳性病例的比例。 特异性

0.0000 0 3
  • 关注作者
  • 收藏
809669515

什么是数据科学?

数据科学(又名数据挖掘)是 通过数据分析来解释过去和预测未来。数据科学是一个多学科领域,它结合了统计学,机器学习,人工智能和数据库技术。数据科学应用的价值通常估计非常高。许多企业在多年的运营中存储了大量数据,数据科学能够从这些数据中提取非常有价值的知识。然后,企业可以将提取的知识用于更多客户,更多销售和更高利润。在工程和医疗领域也是如此。a统计Ť他的科学采集,分类,汇总,整理,分析和解

6.8974 1 2
  • 关注作者
  • 收藏
啊啊啊啊啊吖

数据过滤笔记整理——基于MySQL

使用where子句:在select语句中,数据根据where子句指定条件过滤,where子句在from子句之后。检查单个值:select prod_name,prod_pricefrom Productswhere prod_price

0.0000 0 3
  • 关注作者
  • 收藏
809669515

数据准备

数据准备通常是一个耗时的过程,很容易出错。俗话说“垃圾中垃圾”特别适用于那些收集了许多无效,超出范围和缺失值的数据的数据科学项目 。分析未针对此类问题进行仔细筛选的数据可能会产生极具误导性的结果。那么,数据科学项目的成功在很大程度上取决于准备数据的质量。数据数据通常是测量结果(数值)或计数结果(分类)。 变量用作数据的占位符。有两种类型的变量,数字和分类。数值或连续 可变 是一个可以接受

6.8974 1 3
  • 关注作者
  • 收藏
啊啊啊啊啊吖

数据库SQL里的排序

按单个排序:select prod_namefrom Productsorder by prod_name;#在指定一条order by 子句时,应该保证他是select语句中最后一条子句。按多个列排序:#为了按多个列排序,简单指定列名,列名之间用逗号隔开即可select prod_id,prod_price,prod_namefrom Productsorder by prod_

0.0000 0 3
  • 关注作者
  • 收藏
啊啊啊啊啊吖

SQL里的检索数据

select语句:SQL语句是由简单的英语单词构成,这些单词称为关键词。检索单个列:利用select语句从products表中检索一个名为prod_name的列select prod_namefrom Products;#使用空格,在处理SQL语句时,其中所有空格都被忽略,SQL语句可有在一行上给出,也可以分成多行(更容易阅读和调式)#多条SQL语句必须以分号(;)分隔。#SQL语句

0.0000 0 3
  • 关注作者
  • 收藏
啊啊啊啊啊吖

MySQL基础概念学习整理

什么是数据库:数据库是一个以某种有组织的方式存储的数据集合,理解数据框的一个最简答办法是将其想象一个文件柜,此文件柜是一个存放数据的物理位置,不管数据是以如何组织的。表:某种特定类型数据的结构化清单。列和数据类型:列,表中的一个字段。所有表都是由一个或多个列组成的数据类型:所容许的数据的类型,每个列表都有相应的数据类型,它限制该列中存储的数据行:表中的数据是按行存储的;所保存的每个记录

0.0000 0 3
  • 关注作者
  • 收藏
809669515

支持向量机 - 分类(SVM)

支持向量机(SVM)通过找到最大化两个类之间的余量的超平面来执行分类。定义超平面的向量(个案)是支持向量。a算法定义最佳超平面:最大化边距针对非线性可分的问题扩展上述定义:对错误分类进行惩罚。将数据映射到高维空间,更容易使用线性决策表面进行分类:重新设计问题,以便将数据隐式映射到此空间。要定义最佳超平面,我们需要最大化边距(w)的宽度。aa我们通过使用二次规划求解以下

0.0000 0 2
  • 关注作者
  • 收藏
啊啊啊啊啊吖

R读取Excel文件

安装xlsx软件包可以在R控制台中使用以下命令来安装xlsx软件包。它可能会要求安装一些这个包所依赖的附加包。按照相同的命令与所需的包名来安装附加的包。install.packages("xlsx")验证并加载“xlsx”软件包使用以下命令来验证和加载xlsx包。参考以下代码 -# Verify the package is installed.any(grepl("xlsx",in

0.0000 0 3
  • 关注作者
  • 收藏
啊啊啊啊啊吖

R时间序列分析的函数说明

时间序列是一系列数据点,其每个数据点与时间戳相关联。时间序列分析所使用的ts()函数的基本语法是 timeseries.object.name

0.0000 0 2
  • 关注作者
  • 收藏
啊啊啊啊啊吖

R语言使用技巧--与矩阵、数据框相关的处理函数

使用用 rowSums() 函数可以加载行资料,而 colSums() 函数可以加载列资料。> set.seed(123) > ice_cream colnames(ice_cream) rownames(ice_

0.0000 0 4
  • 关注作者
  • 收藏
阿抽哥哥

如何理解lambda表达式呀?

Python的书写简单功能强大是出了名的,在学习Python的lambda表达式注意到,它只是一个表达式不是语句啊。lambda只是一个表达式,函数体比def简单很多。lambda的主体是一个表达式,而不是一个代码块。仅仅能在lambda表达式中封装有限的逻辑进去。lambda表达式是起到一个函数速写的作用。允许在代码内嵌入一个函数的定义。lambda的语法规则:一个或多个参数以冒号终止输入参数

0.0000 0 0
  • 关注作者
  • 收藏

热门用户 换一批

本月PGC排行 总奖励

暂无数据