数据科学专业问答社区，好文章，一字千金--CDA答疑社区

MECE分类原则

MECE原则（Mutually Exclusive Collectively Exhaustive），意思是“相互独立，完全穷尽”，是麦肯锡咨询顾问芭芭拉·明托在《金字塔原理》中提出的一个分类的思考工具。MECE原则可以确保分类结果不遗漏、不重叠。所谓的不遗漏、不重叠指在将某个整体划分为不同的部分时，必须保证划分后的各部门符合以下要求:1.各部分之间相互独立（MutuallyExclusive）2

从今天开始不熬夜

2022-09-25

68.5714 2 0

经销商和代理商的区别

1.经销商：拥有产品的实际所有权，通过自己的经营获得利润经销指把钱拿到企业里去采购，他们购买的商品不是自己用，而是转手卖，对他们只是手头，再出售而已，他们所关心的，不是实际价格。2.代理商：代理商并不拥有商品的所有权，只是促成交易，从中赚取佣金是指在销售过程中，经生产厂家授权，在某一地区有资格销售该产品的商家。3.经销商是独立的经营机构，它需要花钱从厂商那里购买产品A，然后进行销售。4.代理是帮助

从今天开始不熬夜

2022-09-21

80.0000 1 0

MySQL 子查询之相关子查询

1.相关子查询执行流程如果子查询的执行依赖于外部查询,通常情况下,子查询的表用到了外部的表,并进行了条件关联.因此每执行一次外查询,子查询都要重新计算一次,这样的子查询称为关联子查询关联子查询按照一行接一行的顺序查询,查询的每一行都执行一次子查询2.代码示例查询员工表中工资大于本部门平均工资的员工last_name,salary,department_id方式一: 相关子查询SELECT last

从今天开始不熬夜

2022-09-18

114.7108 1 0

python数据预处理：样本不均衡（过采样、欠采样、设置权重、集成方法）

何为样本不均衡：样本分布不均衡就是指样本差异非常大，例如共1000条数据样本的数据集中，其中占有10条样本分类，其特征无论如何你和也无法实现完整特征值的覆盖，此时属于严重的样本分布不均衡。为何要解决样本不均衡：样本分部不均衡的数据集也是很常见的：比如恶意刷单、黄牛订单、信用卡欺诈、电力窃电、设备故障、大企业客户流失等。样本不均衡将导致样本量少的分类所包含的特征过少，很难从中提取规律，即使得到分类模

从今天开始不熬夜

2022-09-15

547.6981 3 0

python中过采样处理数据不平衡问题

什么是过采样：目的：处理数据不平衡问题。方法：当数据不平衡的时，比如样本标签1有10000个数据，样本标签0有100个数据，这时如果采用下采样会浪费很多样本，所以引入过采样，过采样是根据样本标签少的样本的规律去生成更多该标签样本，这样使得数据趋向于平衡。典型的过采样方式是SMOTE等.关于SMOTE具体算法:1.对于少数类中每一个样本x，以欧氏距离为标准计算

从今天开始不熬夜

2022-09-15

68.4581 1 0

高斯马尔克夫假定

高斯马尔克夫假定也即经典线性假定: 1.线性与参数:即贝塔零,贝塔一，贝塔二等都是线性的，当散点图呈现非线性的模式得调优. 2. 随机抽样:误差无序列相关性(自相关性)，当有时间属性的时候，极有可能有相关性，用dw(杜宾)检验判断残差是否有序列相关性，若统计值约等于2(±0.5)，则没有序列相关性，若有，则可以利用时间序列的相关性解决。 3. 不存在完全共线性,即自变量X

从今天开始不熬夜

2022-09-14

133.3245 2 0

mysql中索引的作用

1.索引是什么，首先我们可以举个例子，字典大家应该都使用过，我们可以使用目录快速定位到所要查找的内容，那么索引跟目录的作用类似，在数据库表记录中，利用索引，可以快速过滤查找到数据记录。2. 索引类型分类:普通索引--加快查询速度; 唯一索引--加快查询速度，并且可以限制列值的唯一性，允许为空, 唯一索引包括联合唯一索引，多列形成的唯一索引，这些列可以唯一

从今天开始不熬夜

2022-09-13

79.9912 1 0

IN和EXISTS的区别和使用

1.in()适合子表比主表数据小的情况2.exists()适合子表比主表数据大的情况3.当主表数据与子表数据一样大时,in与exists效率差不多,可任选一个使用

从今天开始不熬夜

2022-09-13

79.9912 1 0

SQL行转列,巧用case

如上图所示的PopTbl2表,包含(pref_name,sex,population),现要求通过SQL代码转化成下图所示的表:(说明:全国表示上图所有县加一起,四国表示图示主要的四个县汇总值)解法:/* 转换行列——在表头里加入汇总和四国 */SELECT case when sex="1" then "男" else "女" end as 性别, SUM(population) A

从今天开始不熬夜

2022-09-13

6.1130 1 1

CASE匹配表之间的数据

现有表1CourseMaster(包含course_id,course_name),表2OpenCourses(包含month,course_id ),现在要求用这两张表通过SQL代码,生成如下图所示的交叉表:解法:/* 表的匹配：使用IN谓词 */SELECT CM.course_name, CASE WHEN CM.course_id IN

从今天开始不熬夜

2022-09-13

68.4581 1 0

SQL行转列

如上图所示,有一个poptbl2表,包含县名,性别(1表示男性,2表示女性)和人口数,现在要求通过SQL代码实现如下图所示的结果:解法:SELECT pref_name, /* 男性人口 */ SUM( CASE WHEN sex = '1' THEN population ELSE 0 END) AS 男, /* 女性人口 */ SUM( CASE

从今天开始不熬夜

2022-09-13

68.4581 1 0

SQL德邦面试题

如图所示,按照要求用SQL查询:select * from 揽收表;select 单量,count(*) as 客户数from (select 客户id, count(distinct 运单号) as 下单次数, case when count(distinct 运单号)<=5 then '0-5' when count(distinct 运单号)<=10 then '6-10'

从今天开始不熬夜

2022-09-09

23.5688 1 0

SQL单表查询

create table student (sno varchar(20), sname varchar(20), ssex char(10), sage int, sdept varchar(20));insert into student values("9512101","李勇","男",19,"计算机系"),("9512102","刘晨”,"男",20,"计算机系"),("9512103"

从今天开始不熬夜

2022-09-05

119.9997 1 0

实例化对象

在python中.通过实例化对象调用方法时,内部有一个自动传参的过程,会把该对象传给第一个参数的位置,所以在类中定义函数(方法)时,第一个参数必须写上,这个参数用来接收实例对象,约定俗成的写成self.

从今天开始不熬夜

2022-09-04

119.9997 1 0

建立线性回归模型的步骤

1明确需求2采集数据3数据清洗: a.重复值的处理 b.缺失值的处理 c.异常值的处理 d.数据编码的处理其中缺失值的处理可以用均值或众数等描述数据集中趋势的进行填补,异常值中的错误值直接手动删除,离群值的处理要具体看业务(通常通过画箱线图,或者3西格玛法则判断),数据编码的处理,对于男女这种二分类变量可以用 0和

从今天开始不熬夜

2022-09-02

119.9997 3 0

箱形图

箱形图（Box-plot）:又称为盒须图、盒式图或箱线图，是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。在各种领域也经常被使用，常见于品质管理。它主要用于反映原始数据分布的特征，还可以进行多组数据分布特征的比较。箱线图的绘制方法是：先找出一组数据的上边缘、下边缘、中位数和两个四分位数；然后，连接两个四分位数画出箱体；再将上边缘和下边缘与箱体相连接，中位数在箱体中间。作用---

从今天开始不熬夜

2022-08-30

159.9986 1 0

python 可视化

设置rc参数解决中文和符号显示问题plt.rcParams['font.sans-serif']=['Simhei'] #显示中文plt.rcParams['axes.unicode_minus']=False #设置显示中文后,负号显示受影响,显示负号

从今天开始不熬夜

2022-08-30

210.1108 2 0

常用正则表达式

常用正则表达式.pdf

从今天开始不熬夜

2022-08-28

240.0000 1 0

正则表达式

正则表达式，又称规则表达式,（Regular Expression，在代码中常简写为regex、regexp或RE），是一种文本模式，包括普通字符（例如，a 到 z 之间的字母）和特殊字符（称为"元字符"），是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串，通常被用来检索、替换那些符合某个模式（规则）的文本。许多程序设计语言都支持利用正则表达式进行字符串操

从今天开始不熬夜

2022-08-28

159.9986 1 0

Pandas---索引和切片

基于标签的索引df.loc 是基于标签的索引，必须使用数据的标签属性，否则会返回一个异常。基于标签索引的基本语法 : df.loc[行索引,列索引]逗号之前是切取的行信息,逗号之后是切取的列信息只切取行信息返回所有列信息的时候,列索引和逗号可以省略只切取列信息返回所有行信息的时候,行索引和冒号不能省略,用冒号表示切取所有行.基于位置的索引df.iloc 是基于位置的索引，传入的参数为目标区域的位

从今天开始不熬夜

2022-08-26

111.6075 1 0