数据科学专业问答社区，好文章，一字千金--CDA答疑社区

Python：sklearn数据预处理中fit(),transform()与fit_transform()的区别

1 概述注意这是数据预处理中的方法： Fit(): Method calculates the parameters μ and σ and saves them as internal objects. 解释：简单来说，就是求得训练集X的均值啊，方差啊，最大值啊，最小值啊这些训练集X固有的属性。可以理解为一个训练过程 Transform(): Method using these calc

shang9252

2020-06-15

18.6623 2 2

numpy diff函数

numpy.diff(a, n=1,axis=-1) 沿着指定轴计算第N维的离散差值参数： a：输入矩阵 n：可选，代表要执行几次差值 axis：默认是最后一个示例：从输出结果可以看出，其实diff函数就是执行的是后一个元素减去前一个元素。

shang9252

2020-06-13

16.4578 2 1

将数据转换为正态分布的方式

1、对数变换即将原始数据X的对数值作为新的分布数据： X’=lgX 当原始数据中有小值及零时，亦可取X’=lg（X+1）还可根据需要选用X’=lg（X+k）或X’=lg（k-X）对数变换常用于（1）使服从对数正态分布的数据正态化。如环境中某些污染物的分布，人体中某些微量元素的分布等，可用对数正态分布改善其正态性。（2）使数据达到方差齐性，特别是各样本的标准差与均数成比例或变异系数CV接近于一

shang9252

2020-06-13

16.4578 2 3

value_counts()函数

value_counts函数用于统计dataframe或series中不同数或字符串出现的次数 ascending=True时,按升序排列. normalize=True时,可计算出不同字符出现的频率,画柱状图统计时可以用到. # trian中标签的比例 label_proportion = train['label'].value_counts(normalize=True).reset_

shang9252

2020-06-11

16.4693 1 3

Matplotlib中plt.rcParams用法（设置图像细节）

import numpy as np import matplotlib.pyplot as plt from matplotlib.colors import ListedColormap %matplotlib inline # 生成数据 x = np.linspace(0, 4*np.pi) y = np.sin(x) plt.rcParams['figure.figsize']

shang9252

2020-06-09

16.1558 2 3

Pandas Dataframe数据转换为二维数组array

一个Dataframe如下： age astigmatic lenses_target prescript tearRate 0 2 0 1 1 1 1 2 0 2 1 0 2 2

shang9252

2020-06-06

36.0959 3 4

pandas中的map()、apply()、applymap()函数的区别

它们的区别就在于应用对象的不同 1、map map()是Series对象的一个函数，DataFrame中没有map()，map()的功能是将一个自定义函数作用于Series对象的每个元素。 eg： 1 frame = pd.DataFrame({ 　　　　　　　　　　　　　　　'key1':['a','b','c','d'], 　　　　　　　　　　　　　　　'key2':['one','two',

shang9252

2020-06-06

36.0959 3 2

Python连续数据离散化处理和pandas.cut函数用法

连续数据离散化场景：数据分析和统计的预处理阶段，经常的会碰到年龄、消费等连续型数值，我们希望将数值进行离散化分段统计，提高数据区分度，那么下面介绍一个简单使用的pandas中的 cut() 方法函数用法： **cut(series, bins, right=True, labels=NULL)** 1 series (类似数组排列，必须是一维的) bins (表示分段数或分类区间，可以是数

shang9252

2020-06-06

14.9862 1 1

Pandas中iloc和loc以及ix的区别

Pandas库中有iloc和loc以及ix可以用来索引数据，抽取数据。但是方法一多也容易造成混淆。下面将一一来结合代码说清其中的区别。 1. iloc和loc的区别： iloc主要使用数字来索引数据，而不能使用字符型的标签来索引数据。而loc则刚好相反，只能使用字符型标签来索引数据，不能使用数字来索引数据，不过有特殊情况，当数据框dataframe的行标签或者列标签为数字，loc就可以来其来索

shang9252

2020-06-06

14.9862 1 3

Hive中SELECT TOP N的方法(order by与sort by的区别)

SELECT TOP N是取最大前N条或者最小前N条。 Hive提供了limit关键字，再配合order by可以很容易地实现SELECT TOP N。但是在Hive中order by只能使用1个reduce，如果表的数据量很大，那么order by就会力不从心。例如我们执行SQL：select a from ljntest01 order by a limit 10; 控制台会打印出：Num

shang9252

2020-06-06

15.1820 3 3

numpy练习1

1\导入numpy库并简写为 np import numpy as np 2\打印numpy的版本和配置说明 print(np.__version__) print(np.show_config()) 3\创建一个长度为10的空向量 z = np.zeros(10) 4\如何找到任何一个数组的内存大小？(提示: size, itemsize) itemsize返回字节

shang9252

2020-06-01

0.0132 2 0

Python中可变数据类型和不可变数据类型

首先，我们需要知道在python中哪些是可变数据类型，哪些是不可变数据类型。可变数据类型：列表list和字典dict；不可变数据类型：整型int、浮点型float、字符串型string和元组tuple。用一句话来概括上述过程就是：“python中的不可变数据类型，不允许变量的值发生变化，如果改变了变量的值，相当于是新建了一个对象，而对于相同的值的对象，在内存中则只有一个对象，内部会有一个

shang9252

2020-05-30

26.9468 1 2

为什么要使用游标cursor

cursor就是一个Cursor对象，这个cursor是一个实现了迭代器（def__iter__()）和生成器（yield）的MySQLdb对象，这个时候cursor中还没有数据，只有等到fetchone()或fetchall()的时候才返回一个元组tuple，才支持len()和index()操作，这也是它是迭代器的原因。但同时为什么说它是生成器呢？因为cursor只能用一次，即每用完一次之后记录

shang9252

2020-05-30

26.9468 1 2

什么是游标以及为什么需要它

游标是执行SQL语句时在系统内存中创建的临时工作区。游标包含有关select语句和由其访问的数据行的信息。此临时工作区存储从数据库检索的数据并处理此数据。游标可以包含多行，但一次只能处理一行。需要光标来单独处理行以进行查询。

shang9252

2020-05-29

0.0000 0 0

python中 index()和find（)的区别

发现了python中的index()和find()实现的功能相似，去百度发现还是有不一样的。先来个正常的　 msg = "mynameishelie" print(msg.index("m")) rint(msg.find("m")) 输出结果为：0 0 继续 msg = "mynameishelie" print(msg.index("L")) print(m

shang9252

2020-05-27

21.9189 3 2

Jupyter Nbextensions插件功能大全（六）

Nbextensions简介 Nbextensions软件包是Jupyter非官方扩展包的集合，可以为Jupyter提供很多实用的功能。这些扩展包大部分为Javascript编写，在运行Jupyter浏览器时被本地加载。 nbextensions插件说明 Skip-Traceback : 跳过报错的路径追踪，只显示错误名称和类型的摘要 Snippets : 在工具栏中增加添加指定代码单元的功能

shang9252

2020-05-27

30.6238 2 1

Jupyter Nbextensions插件功能大全（五）

Nbextensions简介 Nbextensions软件包是Jupyter非官方扩展包的集合，可以为Jupyter提供很多实用的功能。这些扩展包大部分为Javascript编写，在运行Jupyter浏览器时被本地加载。 nbextensions插件说明 Notify : 增加在Jupyter内核空闲时的通知提示功能(适合运行很耗时的情况) Printview : 在工具栏中增加将当前noteb

shang9252

2020-05-27

8.7068 1 2

Jupyter Nbextensions插件功能大全（四）

Nbextensions简介 Nbextensions软件包是Jupyter非官方扩展包的集合，可以为Jupyter提供很多实用的功能。这些扩展包大部分为Javascript编写，在运行Jupyter浏览器时被本地加载。 nbextensions插件说明 insort formatter : 排序代码单元中导入的包(需要安装isort包) jupyter-js-widgets/extension

shang9252

2020-05-27

8.7068 1 1

Jupyter Nbextensions插件功能大全（三）

Nbextensions简介 Nbextensions软件包是Jupyter非官方扩展包的集合，可以为Jupyter提供很多实用的功能。这些扩展包大部分为Javascript编写，在运行Jupyter浏览器时被本地加载。 nbextensions插件说明 Freeze : 提供单元格锁定、只读相关功能 Gist-it : 一键发布Github的gist功能 Help panel : 在工具栏中增

shang9252

2020-05-27

8.7068 1 2

Jupyter Nbextensions插件功能大全（二）

Nbextensions简介 Nbextensions软件包是Jupyter非官方扩展包的集合，可以为Jupyter提供很多实用的功能。这些扩展包大部分为Javascript编写，在运行Jupyter浏览器时被本地加载。 nbextensions插件说明 Collapsible Headings : 存储markdown标题的折叠情况(在下一次打开的时候重新加载这点状态) Comment/Unc

shang9252

2020-05-27

8.7068 1 2