数据分析师-数据科学专业问答社区-CDA答疑社区

热线电话：13121318867

登录

啊啊啊啊啊吖

用R进行矩阵运算（1）

最近整理了一份R中矩阵运算的笔记：创建一个向量在 R 中可以用函数 c()来创建一个向量，例如：> x=c(1,2,3,4)> x[1] 1 2 3 42 创建一个矩阵在 R 中可以用函数 matrix()来创建一个矩阵，应用该函数时需要输入必要的参数值。> args(matrix)function (data = NA, nrow = 1, ncol = 1, byrow =

0.0000

0

3

0

关注作者

收藏

啊啊啊啊啊吖

关于white异方差检验的问题

看econometrics in R里面异方差检验用的就是bptest()那么white异方差检验有啥函数没啊？当然有！bptest() 也可以检验white test的，Applied Econometrics with R 这本书里面提到的就是用bptest(fit, ~x1 x2 I(x1*x1) I(x2*x2) I(x1*x2))bptest是white test的一个一次

6.8974

1

1

0

关注作者

收藏

啊啊啊啊啊吖

【新手向】安装rstudio的问题

安装一个包，就一直下载相关包，停不下来a如果是安装 tidyverse，屏幕一直下载相关包是正常的，不必担心耐心等待安装完成就行，因为 tidyverse 的依赖包比较多，耗时长。如果包下载的网络不好，想要更换镜像安装，可以选择清华大学的镜像install.packages('tidyverse', repos="http://mirrors.tuna.tsinghua.edu.cn/

0.0000

0

1

0

关注作者

收藏

291294878

Office2016的安装进度在 90% 时挂起解决

你正在尝试安装 Office 365、Office 2016 或 Office 2013，安装在完成标记大约为 90% 时，变为无响应（挂起或冻结）。如果 Windows Installer 繁忙，则可能会发生此问题。如果 Windows 更新正在使用 Windows Installer，则 Office 安装必须等到使用 Windows Installer 完成更新进程。此外，如果 Wi

0.0000

0

4

0

关注作者

收藏

291294878

手动卸载 Office

开始手动步骤之前，确定 Office 安装类型，以便可选择正确的方式将其卸载：确定安装类型 1，打开 Office 应用程序，如 Outlook 或 Word。,2，转到“文件”>“帐户”或“Office 帐户”。3，如果出现“更新选项”项，则为即点即用安装。如果未显示该项，则为基于 MSI 的安装。步骤 1：删除 Windows Installer 程序包找到 Office 16

0.0000

0

3

0

关注作者

收藏

809669515

分层聚类涉及创建从上到下具有预定排序的聚类。例如，硬盘上的所有文件和文件夹都按层次结构进行组织。有两种类型的层次聚类，Divisive和Agglomerative。a分裂的方法在分裂或自上而下的聚类方法中，我们将所有观察分配给单个集群，然后将集群划分为两个最不相似的集群。最后，我们递归地对每个簇进行处理，直到每个观察有一个簇。有证据表明，在某些情况下，分裂算法比凝聚算法产生更准确的层次结

93.7428

1

2

0

关注作者

收藏

809669515

集群是类似的数据子集。聚类（也称为无监督学习）是将数据集划分为组的过程，使得每个组的成员尽可能彼此相似（接近），并且不同的组彼此尽可能不同（远）。群集可以发现数据集中以前未检测到的关系。群集分析有很多应用。例如，在商业中，聚类分析可用于发现和表征客户细分市场以用于营销目的，并且在生物学中，它可用于根据其特征对植物和动物进行分类。两组主要的聚类算法是：分级凝聚分裂表分词K-mean自

100.6402

2

4

0

关注作者

收藏

阿抽哥哥

Pandas的DataFrame删除行和列有哪些操作？

DataFrame数据类型中我们会经常操作删除行与列的操作，而这些操作又有哪些呢？首先使用drop（）方法对行与列进行删除操作，先看drop（）方法的内置参数：这里注意到有axis与inplace两个可选参数，意味着drop（）可以通过axis参数调节删除行或者列，而通过inplace参数调节是否在原数据集上进行删除操作。原数据集长成这样：通过使用drop（）后删除了行与列：

6.8974

1

5

0

关注作者

收藏

809669515

模型评估 - 回归

在构建了许多不同的回归模型之后，有很多标准可用于评估和比较它们。均方根误差RMSE是衡量回归模型错误率的常用公式。但是，它只能在以相同单位测量误差的模型之间进行比较。aa相对平方误差与RMSE不同，可以在不同单位测量误差的模型之间比较相对平方误差（RSE）。a平均绝对误差平均绝对误差（MAE）与原始数据具有相同的单位，并且只能在以相同单位测量误差的模型之间进行比较。它的大

0.0000

0

1

0

关注作者

收藏

809669515

ROC图表和曲线下面积（AUC）

ROC图表类似于增益或提升图表，因为它们提供了分类模型之间的比较手段。ROC图表显示X轴上的假阳性率（1-特异性），当其真实值为0时，目标的概率= 1，而在Y轴上显示真阳性率（灵敏度），目标的概率= 1时真值是1。理想情况下，曲线将快速向左上方爬，这意味着模型正确预测了案例。对角线红线表示随机模型（ROC101）。曲线下面积（AUC）ROC曲线下的面积通常用作分类模型质量的度量。

0.0000

0

3

0

关注作者

收藏

809669515

什么是KS图表？

KS或Kolmogorov-Smirnov图表测量分类模型的性能。更准确地说，KS是衡量正负分布之间分离程度的指标。如果得分将人口划分为两个单独的组，其中一组包含所有阳性而另一组包含所有阴性，则KS为100。另一方面，如果模型不能区分正面和负面，那么就好像模型从总体中随机选择案例。KS将为0。在大多数分类模型中，KS将介于0和100之间，并且值越高，模型在分离正面和负面情况时越好。例

0.0000

0

1

0

关注作者

收藏

阿抽哥哥

Pandas中cut（）与qcut（）如何区分？

cut（）根据值本身来选择箱子均匀间隔，即每个箱子的间距都是相同的。可以看到， cut（）自动生成了等距的离散区间，如果自己想定义也是没问题的。 qcut（）根据这些值的频率来选择箱子的均匀间隔，即每个箱子中含有的数的数量是相同的。 qcut（）切分后每组数据量一样。除了可以使用 cut（）进行离散化之外，qcut（）也可以实现离散化。cut（）是根据每个值的大小来进行离散化的

6.8974

1

5

0

关注作者

收藏

809669515

什么是增益和提升图表

增益或升力是分类模型有效性的度量，其计算为使用和不使用模型获得的结果之间的比率。增益和提升图表是评估分类模型性能的视觉辅助工具。然而，与混淆矩阵相比，评估整个人口增长或升力图表的模型评估一部分人口的模型表现。例：提升图表提升图表显示，与我们联系随机客户样本相比，我们获得积极响应的可能性要大得多。例如，通过基于预测模型仅联系10％的客户，我们将达到3倍的受访者，就像我们不使用任何

0.0000

0

4

0

关注作者

收藏

809669515

什么是混淆模型？

混淆矩阵显示分类模型与数据中的实际结果（目标值）相比所做的正确和不正确预测的数量。矩阵是N×N，其中N是目标值（类）的数量。通常使用矩阵中的数据来评估这些模型的性能。下表显示了两个类（正面和负面）的2x2混淆矩阵。准确性：正确的预测总数的比例。阳性预测值或精确度：正确识别的阳性病例的比例。负面预测值：正确识别的负面案例的比例。敏感度或召回率：正确识别的实际阳性病例的比例。特异性

0.0000

0

3

0

关注作者

收藏

809669515

什么是数据科学？

数据科学（又名数据挖掘）是通过数据分析来解释过去和预测未来。数据科学是一个多学科领域，它结合了统计学，机器学习，人工智能和数据库技术。数据科学应用的价值通常估计非常高。许多企业在多年的运营中存储了大量数据，数据科学能够从这些数据中提取非常有价值的知识。然后，企业可以将提取的知识用于更多客户，更多销售和更高利润。在工程和医疗领域也是如此。a统计Ť他的科学采集，分类，汇总，整理，分析和解

6.8974

1

2

0

关注作者

收藏

啊啊啊啊啊吖

数据过滤笔记整理——基于MySQL

使用where子句：在select语句中，数据根据where子句指定条件过滤，where子句在from子句之后。检查单个值：select prod_name,prod_pricefrom Productswhere prod_price

0.0000

0

3

0

关注作者

收藏

809669515

数据准备通常是一个耗时的过程，很容易出错。俗话说“垃圾中垃圾”特别适用于那些收集了许多无效，超出范围和缺失值的数据的数据科学项目。分析未针对此类问题进行仔细筛选的数据可能会产生极具误导性的结果。那么，数据科学项目的成功在很大程度上取决于准备数据的质量。数据数据通常是测量结果（数值）或计数结果（分类）。变量用作数据的占位符。有两种类型的变量，数字和分类。数值或连续可变是一个可以接受

6.8974

1

3

0

关注作者

收藏

啊啊啊啊啊吖

数据库SQL里的排序

按单个排序：select prod_namefrom Productsorder by prod_name;#在指定一条order by 子句时，应该保证他是select语句中最后一条子句。按多个列排序：#为了按多个列排序，简单指定列名，列名之间用逗号隔开即可select prod_id,prod_price,prod_namefrom Productsorder by prod_

0.0000

0

3

0

关注作者

收藏

啊啊啊啊啊吖

SQL里的检索数据

select语句：SQL语句是由简单的英语单词构成，这些单词称为关键词。检索单个列：利用select语句从products表中检索一个名为prod_name的列select prod_namefrom Products;#使用空格，在处理SQL语句时，其中所有空格都被忽略，SQL语句可有在一行上给出，也可以分成多行（更容易阅读和调式）#多条SQL语句必须以分号（；）分隔。#SQL语句

0.0000

0

3

0

关注作者

收藏

啊啊啊啊啊吖

MySQL基础概念学习整理

什么是数据库：数据库是一个以某种有组织的方式存储的数据集合，理解数据框的一个最简答办法是将其想象一个文件柜，此文件柜是一个存放数据的物理位置，不管数据是以如何组织的。表：某种特定类型数据的结构化清单。列和数据类型：列，表中的一个字段。所有表都是由一个或多个列组成的数据类型：所容许的数据的类型，每个列表都有相应的数据类型，它限制该列中存储的数据行：表中的数据是按行存储的；所保存的每个记录

0.0000

0

3

0

关注作者

收藏

<1…299300301…340>

CDA考试动态

CDA报考指南