数据科学专业问答社区，好文章，一字千金--CDA答疑社区

决策树三种算法总结

ID3:解决的是分类问题，多叉树，根据信息增益最大原则选特征作为结点，输入特征可以是离散型。C4.5：解决的是分类问题，多叉树，根据信息增益率最大原则选特征作为结点，输入特征可以是离散型，也可以是连续型。CART：可以解决分类和回归问题，二叉树，选择最小Gini系数的特征作为结点，输入特征可以是离散型，也可以是连续型。

玉子酱

2020-08-06

22.5418 3 5

机器学习总结

回归模型用在数据为连续型，输出的结果为返回值为K个邻居的均值。数据比较均匀分布的做归一化处理，数据服从正态分布的标准化处理，但也不绝对。不能再划分数据之前就对数据做标准化处理，否则测试集的数据会泄露给模型。

玉子酱

2020-08-04

34.9348 4 3

行列最大显示值调整

在python中导入量大的表格数据时,显示的数据不完整,会省略中间大量数据.这样的话,对查看数据不是分方便.我们可以通过以下代码解决显示行列数问题:调整最大行数显示:pd.set_option('display.max_rows',参数) #在参数处输入的值,就是想要最大显示的行的数量调整最大列数显示:pd.set_option('display.max_columns',参数) #在参数

玉子酱

2020-07-23

36.0611 3 1

在DataFrame中新增一列

在DataFrame中新增一列,我们可以通过代码 df['性别'] ='男' 直接操作,这种形式就像用广播的方法,对每一行都新增了'男'这个值.但是缺点就是,虽然操作方便,但显然对最后一行的'黑寡妇'这个数据不匹配.所以在数据量大时,需要确定数据是否与新增值相匹配.

玉子酱

2020-07-21

24.9122 2 2

numpy中random函数

np.random.rand() 随机生成范围在[0.1)之间的数字np.random.randn() 生成标准正态分布np.random.normal() 生成正态分布np.random.binomial() 二项分布np.random.chisquare() 卡方分布np.random

玉子酱

2020-07-20

27.7091 2 2

列表、元组、字典区分

列表：有序的、可变的、任意数据类型，用[ ]表示元组：有许多，不可变的，任意数据类型，用( )表示字典：无序的，可变的，value可以是任意数据类型，key不可变，用{ }表示

玉子酱

2020-07-15

19.8542 1 1

矩阵的四则运算

矩阵加减法的前提是同型矩阵加法：矩阵中对应的元素相加减法：A为矩阵，-A为A的负矩阵，相当于A中的所有元素加上符号乘法：1.数λ与矩阵中的每个元素相乘，记作λA或Aλ（数乘） 2.矩阵相乘：前一矩阵每一行的每个数与后一矩阵每一列的每个数相乘之和的结果集。（要求前一矩阵的列数等于后一矩阵的行数，结果矩阵的行和列为运算矩阵中前一个的行和后一个的列）

玉子酱

2020-07-08

21.3220 3 2

行列式的计算方法

对角线法则：主对角线减去副对角线（仅适用于二阶和三阶行列式）计算通式利用行列式的性质转换计算展开法则：行列式等于它的任一行（列）的各个元素与其对应的代数余子式乘积之和可以通过excel中MDETERM计算行列式的值

玉子酱

2020-07-08

21.2374 2 1

小概率原理

在一次试验中，小概率事件是不可能发生的；如果发生，我们就认为该事件是假的；如果真的发生了，统计学中把这种错误称为“统计学所犯的错误”，也叫“两类错误”。我们总是偏信假设是正确的。第一类错误：α错误，当假设为真时，拒绝假设所犯的错误；第二类错误：β错误，当假设为假时，接受假设所犯的错误。

玉子酱

2020-07-07

19.5205 3 2

求大神解题 MYSQL

要从这个结果集中剔除贝壳币为0，应该要怎么写语句呢？（不能用where筛选贝壳币不等于0，因为贝壳币是用聚合函数求得的）

玉子酱

2020-07-02

22.8555 3 3

POWER BI蝴蝶图

使用蝴蝶图的时候，不能用装箱的时间，需要把时间提取出来，类型是整数型。

玉子酱

2020-06-30

24.6407 3 1

POWER BI筛选器的功能注释

玉子酱

2020-06-28

24.6647 2 6

POWER BI——all函数

all函数：限制数据筛选范围，忽略指定参数的汇总能力。使用all函数之后，城市字段将不具备汇总能力，在城市的每一个分项下显示的是金额求和的合计值。不管是用切片器筛选，还是在all函数的参数中加上参数的父级，也不会对合计值发生改变。

玉子酱

2020-06-24

29.7562 1 5

数据库与数据仓库

数据库（关系型)：主要功能是记录数据信息，方便查找和记录。数据仓库（非关系型）：主要用于分析数据，整合数据源信息，快速被调用。

玉子酱

2020-06-22

25.6131 3 5

MySQL——last day

今天的作业，好像弄的有点复杂，也不知道对不对。我又想吐槽自己了，老师讲课的时候听着好像都会了，自己做起作业来又是一头雾水。

玉子酱

2020-06-19

22.4350 2 4

SQL基础——让我又爱又恨#Day 4

慢慢的我发现，我其实是对SQL有种又爱又恨的情绪在的。当因为一句语句怎么想不知道要怎么写的时候，真的犹如蚂蚁在心上爬，但是当这个问题又想明白了，写语句如同有灵感写作文那般行云流水，我又是那么沾沾自喜的。今天的课程内容是开窗函数和一些面试题的练习。面试题对现在的我来说还是有点难的，还没有那么快能上手，还是要多练，自己要动手操作不能只看老师的结果。然后说一下今天的学习让我对开窗函数理解到的内容点。

玉子酱

2020-06-18

498.9033 3 2

SQL基础——秃头的一天#Day3

昨天晚上发完贴后，觉得自己已经理清了思路，自信满满。直到今天学完做起了作业，才知道自己其实是一看就会，一做就废🤣🤣🤣 今天主要讲的是子查询和一些SQL函数。子查询相当于select的多层嵌套，可以在条件筛选的语句中再嵌套一个select语句，用（not）in、any、all连接。这里的逻辑顺序为：1.先执行括号内的select语句，得到部门号为30的最低工资

玉子酱

2020-06-17

24.8000 1 2

SQL基础——按执行顺序先后写代码#Day 2

随着学习SQL语言的内容逐渐增加，查询语句越来越长，表和表之间的关联（啊~~今天分不清哪个是哪个了🤣），编写语句完成后也频频出现错误。不过这样才使我更加觉得SQL的有趣，我一定要战胜它，多多练习！我总结了一下几点： 1.最重要是先搞明白语句执行的先后顺序系统优先执行的是from后的语句，其次是条件判断（where子句不能包含聚合函数），之后执行条件筛选条件select。（个人理解）

玉子酱

2020-06-16

29.7692 2 0

SQL基础 #Day1

SQL是一种结构化查询语言，MySQL是用于管理数据库的软件，它对数据库进行统一的管理和控制。两者之间的关系是：用户在MySQL上编写SQL查询语言，MySQL读取SQL的语言命令从数据库调取数据，最后通过MySQL返回指定的数据。 SQL语言同样可以在Oracle、DB2、SQL server上使用。 SQL可以多行或者单行书写，结束需要以分号结束，关键字之间要用空格分隔，字段之间用逗号

玉子酱

2020-06-15

18.6580 2 3

Excel学习的第三天

excel学习的第三天，前两天学习的常用函数、数据透视表和图标结合今天的两个案例，考勤和商场销售，可以用excel展现出很多丰富的结果，且数据展现非常直观。对比之前的工作经验，课堂上3天的东西让我掌握了excel更多的功能。比如今天的考勤结果汇总，通过计算出没个部门下员工的工作出勤、加班、工资、加班率等等，汇总出公司层面需要了解的基本数据，及通过使用图表的形式展现给人事部最直观的结果。商场销售

玉子酱

2020-06-10

16.0128 3 4