数据分析师-数据科学专业问答社区-CDA答疑社区

热线电话：13121318867

登录

kejiayuan0806

R语言中，attach与detach，及with的区别

问题描述R语言中，对数据框中的数据的进行操作时，为了避免重复地键入对象名称，可使用attach、detach或with。那么attach和with有什么区别呢？解答1、attach()是对what添加路径索引，避免重复输入what名称。attach(what, pos = 2L, name = deparse(substitute(what), backtick=FALSE), warn.

0.0000

0

0

0

关注作者

收藏

wangjuju123

office2016显示已经激活，但每次打开都跳出激活页面

一、问题描述 Office反复提示您在新PC上激活适用于： Office 2016 Office 2013 当您在新PC上安装Office Standard或Office Professional Plus的批量许可版本时，可能会在每次启动Office时提示我们开始使用屏幕。如果在安装Office的批量许可版本之前未在新PC上卸载预装版本的Office，则可能会发生这种情况。

0.0000

0

1

0

关注作者

收藏

809669515

Mysql获取数据出现繁体显示为乱码的问题

将数据从Mysql数据库中导出来，遇到 Mysql导出的数据中繁体显示为乱码、问号的问题。根据经验试着调整数据库编码，要么还是乱码，要么没有变化。经过苦苦研究，终于解决了，方法比较简单，同时，也摸索了一套解决mysql获取数据出现乱码思路的方案。一、分析判断PHP Mysql出现乱码的原因基本概括为以下几种情况： 1、Mysql数据库默认的编码是utf8，如果PHP页面的编码与其不一致，

0.0000

0

1

0

关注作者

收藏

809669515

mysql中的where和having子句的区别

having的用法having字句可以让我们筛选成组后的各种数据，where字句在聚合前先筛选记录，也就是说作用在group by和having字句前。而 having子句在聚合后对组记录进行筛选。SQL实例：一、显示每个地区的总人口数和总面积． SELECT region, SUM(population), SUM(area) FROM bbc GROUP BY region先以re

0.0000

0

2

0

关注作者

收藏

kejiayuan0806

R中的路径设置

1、使用getwd()函数来显示当前工作目录。> getwd() [1] "C:/Users/Administrator/Documents"2、使用setwd()函数更改当前目录。> dir.create("E:/R_Files") > setwd("E:/R_Files") > getwd() [1] "E:/R_Files"注意： (1) 函数setwd()不会自动创

0.0000

0

2

0

关注作者

收藏

809669515

python网络爬虫 - 如何伪装逃过反爬虫程序

有的时候，我们本来写得好好的爬虫代码，之前还运行得Ok, 一下子突然报错了。报错信息如下：Http 800 Internal internet error这是因为你的对象网站设置了反爬虫程序，如果用现有的爬虫代码，会被拒绝。之前正常的爬虫代码如下：from urllib.request import urlopen ... html = urlopen(scrapeUrl) bs

0.0000

0

3

0

关注作者

收藏

kejiayuan0806

R语言中mode(模式)和class(类)有何区别

mode 是比较旧的版本，typeof 是更新的、也是更细的一种形式，当想看粗类别时，就用mode,看细类别用typeof。class()给出的是基于面向对象的R的类型划分。> gl(2,5) #新建一个因子[1] 1 1 1 1 1 2 2 2 2 2Levels: 1 2> class(gl(2,5)) #查看变量的类，显示为因子；[1] "factor"> mode(gl(

0.0000

0

8

0

关注作者

收藏

kejiayuan0806

余弦相似度越高越相似吗

问题描述协同过滤算法中计算相似度时，余弦相似度越高越相似吗？解答余弦相似度是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值，绘制到向量空间中，求得他们的夹角，并得出夹角对应的余弦值，此余弦值就可以用来表征，这两个向量的相似性。夹角越小，余弦值越接近于1，它们的方向更加吻合，则越相似。余弦值的范围在[-1,1]之间，值越趋近于1，代表两个向量的方向越接近；越趋近于

0.0000

0

3

0

关注作者

收藏

kejiayuan0806

问题描述MySQL中表aa中有学生编号、课程编号、考试成绩三个字段，如何查询选一门以上课程的同学中分数为非最高分的成绩的记录。解决方法SELECT * FROM aaWHERE sno IN (SELECT sno FROM aa GROUP BY sno HAVING COUNT(cno) > 1) AND degree

0.0000

0

1

0

关注作者

收藏

kejiayuan0806

关联规则中支持度、置信度的相关概念

问题描述关联规则中，支持度是对项集的限制，置信度是对规则的，这个怎么理解呢？解答支持度表示项集{X,Y}在总项集里出现的概率，用来度量一个项集的出现频率。置信度表示在先决条件X发生的情况下，由关联规则“X→Y”推出Y的概率，用来度量一个关联规则的强弱。所以我们设置的最小支持度是对项集的限制，最小置信度是对规则的限制，表示我们只对某些项集和规则感兴趣。

0.0000

0

4

0

关注作者

收藏

291294878

如何建立规则的分类器？

建立规则的分类器：（1）顺序覆盖。直接从数据中提取规则，规则基于某种评估度量以贪心的方式增长，该算法从包含多个类的数据集中一次提取一个类的规则。在提取规则时，类y的所有训练记录被看作是正例，而其他类的训练记录则被看作反例。如果一个规则覆盖大多数正例，没有或仅覆盖极少数反例，那么该规则是可取的。一旦找到这样的规则，就删掉它所覆盖的训练记录，并把新规则追加到决策表R的尾部（规则增长策略：从一般到特

2.4134

1

2

0

关注作者

收藏

291294878

怎么处理决策树中的过拟合问题？

处理决策树中的过分拟合：A)：先剪枝（提前终止规则）：当观察到的不纯性度量的增益（或估计的泛化误差的改进）低于某个确定的阈值时就停止扩展叶节点。B)：初始决策树按照最大规模生长，然后进行剪枝的步骤，按照自底向上的方式修剪完全增长的决策树。修剪有两种方法：（1）用新的叶节点替换子树，该叶节点的类标号由子树下记录中的多数类确定；（2）用子树中常见的分支替代子树。当模型不能再改进时终止剪枝步骤。

2.4134

1

4

0

关注作者

收藏

291294878

泛化误差估计分类有哪些？

泛化误差的估计：（1）乐观估计（决策树归纳算法简单的选择产生最低训练误差的模型作为最终的模型）（2）悲观误差估计（使用训练误差与模型复杂度罚项的和计算泛化误差）（3）最小描述长度原则（模型编码的开销加上误分类记录编码的开销）（4）估计统计上界（泛化误差可以用训练误差的统计修正来估计，因为泛化误差倾向于比训练误差大，所以统计修正通常是计算训练误差的上界）（5）使用确认集（如2/3的训练集

0.0000

0

1

0

关注作者

收藏

291294878

过拟合问题原因有哪些？

过分拟合问题：造成原因有：（1）噪声造成的过分拟合（因为它拟合了误标记的训练记录，导致了对检验集中记录的误分类）；（2）根据少量训练记录做出分类决策的模型也容易受过分拟合的影响。（由于训练数据缺乏具有代表性的样本，在没有多少训练记录的情况下，学习算法仍然继续细化模型就会产生这样的模型，当决策树的叶节点没有足够的代表性样本时，很可能做出错误的预测）（3）多重比较也可能会导致过分拟合（大量的候

0.0000

0

1

0

关注作者

收藏

291294878

where与having的区别有哪些？

1、聚合函数是比较where,having的关键。where 后不能跟聚合函数，where执行顺序大于聚合函数，这时只能用having。执行顺序：on>where>聚合函数(sum,min,max,avg,count)>having2、where 子句在分组之前过滤数据，where过滤指定的是行而不是分组(where后条件是行)，select操作符常作为where的限制条件；having 子句

0.0000

0

2

0

关注作者

收藏

291294878

简单理解时间序列

时间序列：同一现象在不同时间的相继观察值排列而成的序列。（1）、分为平稳序列和非平稳序列两大类。平稳序列：基本上不存在趋势的序列，各观察值在某个固定水平上随机波动，没有规律。非平稳序列：包含趋势、季节性和周期性的序列，可能包含一种也可包含多种。（2）、平滑预测法：对于不含趋势和不含季节成分的时间序列，即平稳时间序列只含随机成分，只要通过平滑就可以消除波动；趋势预测法：对于只含有

0.0000

0

2

0

关注作者

收藏

291294878

点估计、区间估计、假设检验的区别于联系？

点估计：基于某一准则构造N个随机样本（简称样本）的估计统计量（简称估计量）来估计某一总体未知参数。将样本值代入估计量可计算得到未知参数的估计值。点估计虽然直接给出未知参数的估计值，但是未给出估计值的可靠程度，即未知参数的真实值可能偏离估计值的程度。区间估计：给定置信水平，根据估计值(点估计的值)确定真实值可能出现的区间范围，该区间通常以估计值为中心。是点估计的拓展，为了说明点估计结果的可靠程度

0.0000

0

3

0

关注作者

收藏

291294878

参数估计问题

参数估计：1）、参数估计问题：总体的分布函数形式已知，但它的一个或多个参数未知，借助总体的样本来估计总体的参数问题。2）、估计量：一个样本参数n个向量X为总体参数的估计量，估计值：每一行记录为总体参数估计值3）、点估计：是利用样本数据对未知参数进行估计得到的是一个具体的数据；常用的点估计的方法有：矩估计法与极大似然估计法。4）、估计量的评选标准：无偏性：估计量的参数数学期望E

0.0000

0

3

0

关注作者

收藏

291294878

怎么解释随机事件与概率？

1）、随机试验：进行一次实验之前不能确定哪一个结果会出现（不确定性），需要注意的是试验要求在相同条件下可以重复。基本事件：由一个样本点组成的单点集。独立事件：P(AB)=P(A)P(B) 必然事件、不可能事件、积事件(交集)、差事件、对立事件2）、古典概型：试验的样本空间包含有限个元素；每个基本事件发生的可能性相等。P(a)=k/n 几何概率：试验的样本点有无限多个

0.0000

0

4

0

关注作者

收藏

291294878

如何创建计算字段？

在创建数据库表的时候，往往为了数据库的各种性能，我们需要将字段拆分或者按照特定的类型存储。而在读取数据库的时候，检索出来的数据往往不是我们直接需要使用的数据。举几个例子： a、我们在存储省市区和街道信息时候会将他们单独分别存储在不同的列，而我们读取时候需要完整地址信息 b、订单表中，我们存储单价和购买数量。但是，读取信息往往需要用户所有付款金额 c、我们存储进数据库的所有单

0.0000

0

2

0

关注作者

收藏

<1…329330331…340>

CDA考试动态

CDA报考指南