数据科学专业问答社区，好文章，一字千金--CDA答疑社区

热线电话：13121318867

登录

zxq997

数据离散化

数值型数据转变为类别型数据的过程是数据离散化(Data Discretization)。数据离散化主要指将连续型变量进行分箱，使用分箱后的数据代替原始数据。离散化可以通过人工指定分箱值进行离散化，或采用等分离散、等宽离散化，通过与目标变量的比较进行离散可以提升模型效果，也是常采用的方法。因为，数值型属性常常是模型不稳定的来源之一，常常我们会发现分类模型在训练数据集的预测准确度很高，但在测试数据集中

0.0000

0

1

0

关注作者

收藏

zxq997

数据泛化(Data Generalization)：数据的一般化就是将原来的数据简化处理，使得数据变得精简的过程。利用数据的概念阶层(Concept Hierarchy)将数据向上提升为较抽像的层次，例如对多分类水平的“教育程度”变量，将其根据普及程度重新划分为“初等教育”与“高等教育”两个分类水平的变量。我们可以看下面一个例子：表中为会员的信息，会员的教育程度分为了大学、高中、国中。我

0.0000

0

1

0

关注作者

收藏

dreamhappy2012

常用的日期及时间函数

日期及时间函数：用来处理日期时间型数据

0.0000

0

5

0

关注作者

收藏

zxq997

类别型数据缺失处理方法

类别型数据缺失处理方法有：（1）直接忽略法。例如：当数据有缺失值时，则将整笔数据删除。直接忽略法是处理数据缺失最简单的方法，一般的，当缺失数据占整个字段所有数据的比例过大时（>50%），便可直接删除。直接忽略法适用于搜集的数据量很多，而缺失数据只占一小部分的情况。这种方法也有其缺点，即当数据缺失比例很可观时，会造成大量数据流失数据的目标字段的值是空值的时候，使得数据分析结果不准确。（2）人工填

0.0000

1

1

0

关注作者

收藏

dreamhappy2012

常用的字符串函数

常用的字符串函数：主要用于处理字符串值

0.0000

0

6

0

关注作者

收藏

zxq997

缺失值的原因

缺失值是指为空的属性值，数据缺失原因可能有：1.数据建立时未输入，例如工作人员故意或是不小心造成数据没有被输入；2.设备故障，例如收款机故障，导致顾客消费明细无法输入；3.因数据内容不一致而被删除，例如A数据表和B数据表都有某会员的信息，但是信息不同，这时两个表里的本应该向同的信息不能匹配，为了避免错误的数据影响分析的准确性，可能会将该项数据以空值取代，因此产生数据的缺失。

0.0000

0

1

0

关注作者

收藏

dreamhappy2012

常用的数学函数

常用的数学函数：主要用于处理数字值

0.0000

0

3

0

关注作者

收藏

zxq997

数值型数据的处理和离群值处理方法

数值型数据的处理方法，也是先观察其分布，即找离群值。离群值的侦测有如下三种方法：方法一：离群值为过大或过小的值，对数据排序即可发现。方法二：即平均值法，在平均值±3×标准偏差之内的值可视为正常值。方法三：四分位法，IQR = Q3 – Q1，Q3代表第75%的值，Q1代表第25%的值。正常值的范围为Q1 – 1.5×IQR ~ Q3 + 1.5×IQR。四分位法的优点在于适用于小数据，故较常

0.0000

0

1

0

关注作者

收藏

dreamhappy2012

SELECT语句的操作符

算术操作符（加号）、－（减号）、*（乘号）和 /（除号）。比较操作符=（等于）、>（大于）、（不大于）和 !

0.0000

0

3

0

关注作者

收藏

dreamhappy2012

SELECT语句的语法

SELECT〈目标列组〉FROM〈数据源〉[WHERE〈元组选择条件〉][GROUP BY〈分列组〉[HAVING 〈组选择条件〉]] [ORDER BY〈排序列1〉〈排序要求1〉 [，…n]]；-- 对大气质量表进行有选择的查询select city_name, avg(pm25), avg(pm10) from Monthly_Indicatorwhere pm25 > 50

0.0000

0

2

0

关注作者

收藏

dreamhappy2012

修改数据库编码的命

mysql utf8 修改编码修改数据库编码的命令为： alter database 数据库名称 character set utf8;

0.0000

0

1

0

关注作者

收藏

dreamhappy2012

新建数据库的下的四个属性

tables表 view视图 stored procedures存储过程 functions数据库系统中的函数

0.0000

0

4

0

关注作者

收藏

dreamhappy2012

mysqlworkbench执行语句的方法

执行选中语句执行当前语句：光标闪电I 执行上一个分号开始到当前分号之前的内容快捷键 Ctrl 回车

0.0000

0

2

0

关注作者

收藏

dreamhappy2012

workbench调用数据库资源的连接

mysqlworkbench--- Local instance--- 先启动一个空白的sql编辑页面---把代码拖拽进去

0.0000

0

1

0

关注作者

收藏

阿抽哥哥

matplotlib绘图之线条颜色与风格

我们绘图时对图形的第一次调整通常是调整其颜色与风格，plt.plot()函数可以通过相应的参数设置颜色与风格。要修改颜色可以使用color参数，它支持各种颜色的字符串。你也可以使用linestyle调整线条的风格。%matplotlib inlineimport matplotlib as mplimport matplotlib.pyplot as pltimport numpy as

0.0000

0

2

0

关注作者

收藏

wangjuju123

避免无限循环

每个while循环都必须有停止运行的途径，这样才不会没完没了地执行下去。例如，下面的循环从1数到5： counting.py x = 1 while x

0.0000

0

4

0

关注作者

收藏

wangjuju123

在循环中使用 continue

要返回到循环开头，并根据条件测试结果决定是否继续执行循环，可使用continue语句，它不像break语句那样不再执行余下的代码并退出整个循环。例如，来看一个从1数到10，但只打印其中偶数的循环： counting.py current_number = 0 while current_number < 10: current_number += 1 if curr

0.0000

0

1

0

关注作者

收藏

wangjuju123

使用int()来获取数值输入

使用函数input()时，Python将用户输入解读为字符串。请看下面让用户输入其年龄的解释器会话： >>> age = input("How old are you? ") How old are you? 21 >>> age '21' 用户输入的是数字21，但我们请求Python提供变量age的值时，它返回的是'21'——用户输入的数值的字符串表示。我们怎么知道Pytho

0.0000

0

2

0

关注作者

收藏

wangjuju123

函数input()的工作原理

函数input()让程序暂停运行，等待用户输入一些文本。获取用户输入后，Python将其存储在一个变量中，以方便你使用。例如，下面的程序让用户输入一些文本，再将这些文本呈现给用户： parrot.py message = input("Tell me something, and I will repeat it back to you: ")print(message) 函数inpu

0.0000

0

2

0

关注作者

收藏

wangjuju123

什么我从mysql导出数据在excel是乱码的

是编码问题导致的乱码，通常情况下把输出的源文件用记事本打开，在另存为时选择ANSI编码格式进行保存再用excel打开就正常了。

0.0000

0

2

0

关注作者

收藏

<1…113011311132…1217>

CDA考试动态

CDA报考指南