shang9252

Python:sklearn数据预处理中fit(),transform()与fit_transform()的区别

1 概述 注意这是数据预处理中的方法: Fit(): Method calculates the parameters μ and σ and saves them as internal objects. 解释:简单来说,就是求得训练集X的均值啊,方差啊,最大值啊,最小值啊这些训练集X固有的属性。可以理解为一个训练过程 Transform(): Method using these calc

shang9252

2020-06-15

18.6623 2 2
  • 关注作者
  • 收藏

numpy diff函数

numpy.diff(a, n=1,axis=-1) 沿着指定轴计算第N维的离散差值 参数: a:输入矩阵 n:可选,代表要执行几次差值 axis:默认是最后一个 示例: 从输出结果可以看出,其实diff函数就是执行的是后一个元素减去前一个元素。

shang9252

2020-06-13

16.4578 2 1
  • 关注作者
  • 收藏

将数据转换为正态分布的方式

1、对数变换 即将原始数据X的对数值作为新的分布数据: X’=lgX 当原始数据中有小值及零时,亦可取X’=lg(X+1) 还可根据需要选用X’=lg(X+k)或X’=lg(k-X) 对数变换常用于(1)使服从对数正态分布的数据正态化。如环境中某些污染物的分布,人体中某些微量元素的分布等,可用对数正态分布改善其正态性。(2)使数据达到方差齐性,特别是各样本的标准差与均数成比例或变异系数CV接近于一

shang9252

2020-06-13

16.4578 2 3
  • 关注作者
  • 收藏

value_counts()函数

value_counts函数用于统计dataframe或series中不同数或字符串出现的次数 ascending=True时,按升序排列. normalize=True时,可计算出不同字符出现的频率,画柱状图统计时可以用到. # trian中标签的比例 label_proportion = train['label'].value_counts(normalize=True).reset_

shang9252

2020-06-11

16.4693 1 3
  • 关注作者
  • 收藏

Matplotlib中plt.rcParams用法(设置图像细节)

import numpy as np import matplotlib.pyplot as plt from matplotlib.colors import ListedColormap %matplotlib inline # 生成数据 x = np.linspace(0, 4*np.pi) y = np.sin(x) plt.rcParams['figure.figsize']

shang9252

2020-06-09

16.1558 2 3
  • 关注作者
  • 收藏

Pandas Dataframe数据转换为二维数组array

一个Dataframe如下: age astigmatic lenses_target prescript tearRate 0 2 0 1 1 1 1 2 0 2 1 0 2 2

shang9252

2020-06-06

36.0959 3 4
  • 关注作者
  • 收藏

pandas中的map()、apply()、applymap()函数的区别

它们的区别就在于应用对象的不同 1、map map()是Series对象的一个函数,DataFrame中没有map(),map()的功能是将一个自定义函数作用于Series对象的每个元素。 eg: 1 frame = pd.DataFrame({                'key1':['a','b','c','d'],                'key2':['one','two',

shang9252

2020-06-06

36.0959 3 2
  • 关注作者
  • 收藏

Python连续数据离散化处理和pandas.cut函数用法

连续数据离散化场景: 数据分析和统计的预处理阶段,经常的会碰到年龄、消费等连续型数值,我们希望将数值进行离散化分段统计,提高数据区分度,那么下面介绍一个简单使用的pandas中的 cut() 方法 函数用法: **cut(series, bins, right=True, labels=NULL)** 1 series (类似数组排列,必须是一维的) bins (表示分段数或分类区间,可以是数

shang9252

2020-06-06

14.9862 1 1
  • 关注作者
  • 收藏

Pandas中iloc和loc以及ix的区别

Pandas库中有iloc和loc以及ix可以用来索引数据,抽取数据。但是方法一多也容易造成混淆。下面将一一来结合代码说清其中的区别。 1. iloc和loc的区别: iloc主要使用数字来索引数据,而不能使用字符型的标签来索引数据。而loc则刚好相反,只能使用字符型标签来索引数据,不能使用数字来索引数据,不过有特殊情况,当数据框dataframe的行标签或者列标签为数字,loc就可以来其来索

shang9252

2020-06-06

14.9862 1 3
  • 关注作者
  • 收藏

Hive中SELECT TOP N的方法(order by与sort by的区别)

SELECT TOP N是取最大前N条或者最小前N条。 Hive提供了limit关键字,再配合order by可以很容易地实现SELECT TOP N。 但是在Hive中order by只能使用1个reduce,如果表的数据量很大,那么order by就会力不从心。 例如我们执行SQL:select a from ljntest01 order by a limit 10; 控制台会打印出:Num

shang9252

2020-06-06

15.1820 3 3
  • 关注作者
  • 收藏

numpy练习1

1\导入numpy库并简写为 np import numpy as np 2\打印numpy的版本和配置说明 print(np.__version__) print(np.show_config()) 3\创建一个长度为10的空向量 z = np.zeros(10) 4\如何找到任何一个数组的内存大小?(提示: size, itemsize) itemsize返回字节

shang9252

2020-06-01

0.0132 2 0
  • 关注作者
  • 收藏

Python中可变数据类型和不可变数据类型

首先,我们需要知道在python中哪些是可变数据类型,哪些是不可变数据类型。 可变数据类型:列表list和字典dict; 不可变数据类型:整型int、浮点型float、字符串型string和元组tuple。 用一句话来概括上述过程就是:“python中的不可变数据类型,不允许变量的值发生变化,如果改变了变量的值,相当于是新建了一个对象,而对于相同的值的对象,在内存中则只有一个对象,内部会有一个

shang9252

2020-05-30

26.9468 1 2
  • 关注作者
  • 收藏

为什么要使用游标cursor

cursor就是一个Cursor对象,这个cursor是一个实现了迭代器(def__iter__())和生成器(yield)的MySQLdb对象,这个时候cursor中还没有数据,只有等到fetchone()或fetchall()的时候才返回一个元组tuple,才支持len()和index()操作,这也是它是迭代器的原因。但同时为什么说它是生成器呢?因为cursor只能用一次,即每用完一次之后记录

shang9252

2020-05-30

26.9468 1 2
  • 关注作者
  • 收藏

什么是游标以及为什么需要它

游标是执行SQL语句时在系统内存中创建的临时工作区。 游标包含有关select语句和由其访问的数据行的信息。 此临时工作区存储从数据库检索的数据并处理此数据。 游标可以包含多行,但一次只能处理一行。 需要光标来单独处理行以进行查询。

shang9252

2020-05-29

0.0000 0 0
  • 关注作者
  • 收藏

python中 index()和find()的区别

发现了python中的index()和find()实现的功能相似,去百度发现还是有不一样的。 先来个正常的  msg = "mynameishelie" print(msg.index("m")) rint(msg.find("m")) 输出结果为:0 0 继续 msg = "mynameishelie" print(msg.index("L")) print(m

shang9252

2020-05-27

21.9189 3 2
  • 关注作者
  • 收藏

Jupyter Nbextensions插件功能大全(六)

Nbextensions简介 Nbextensions软件包是Jupyter非官方扩展包的集合,可以为Jupyter提供很多实用的功能。这些扩展包大部分为Javascript编写,在运行Jupyter浏览器时被本地加载。 nbextensions插件说明 Skip-Traceback : 跳过报错的路径追踪,只显示错误名称和类型的摘要 Snippets : 在工具栏中增加添加指定代码单元的功能

shang9252

2020-05-27

30.6238 2 1
  • 关注作者
  • 收藏

Jupyter Nbextensions插件功能大全(五)

Nbextensions简介 Nbextensions软件包是Jupyter非官方扩展包的集合,可以为Jupyter提供很多实用的功能。这些扩展包大部分为Javascript编写,在运行Jupyter浏览器时被本地加载。 nbextensions插件说明 Notify : 增加在Jupyter内核空闲时的通知提示功能(适合运行很耗时的情况) Printview : 在工具栏中增加将当前noteb

shang9252

2020-05-27

8.7068 1 2
  • 关注作者
  • 收藏

Jupyter Nbextensions插件功能大全(四)

Nbextensions简介 Nbextensions软件包是Jupyter非官方扩展包的集合,可以为Jupyter提供很多实用的功能。这些扩展包大部分为Javascript编写,在运行Jupyter浏览器时被本地加载。 nbextensions插件说明 insort formatter : 排序代码单元中导入的包(需要安装isort包) jupyter-js-widgets/extension

shang9252

2020-05-27

8.7068 1 1
  • 关注作者
  • 收藏

Jupyter Nbextensions插件功能大全(三)

Nbextensions简介 Nbextensions软件包是Jupyter非官方扩展包的集合,可以为Jupyter提供很多实用的功能。这些扩展包大部分为Javascript编写,在运行Jupyter浏览器时被本地加载。 nbextensions插件说明 Freeze : 提供单元格锁定、只读相关功能 Gist-it : 一键发布Github的gist功能 Help panel : 在工具栏中增

shang9252

2020-05-27

8.7068 1 2
  • 关注作者
  • 收藏

Jupyter Nbextensions插件功能大全(二)

Nbextensions简介 Nbextensions软件包是Jupyter非官方扩展包的集合,可以为Jupyter提供很多实用的功能。这些扩展包大部分为Javascript编写,在运行Jupyter浏览器时被本地加载。 nbextensions插件说明 Collapsible Headings : 存储markdown标题的折叠情况(在下一次打开的时候重新加载这点状态) Comment/Unc

shang9252

2020-05-27

8.7068 1 2
  • 关注作者
  • 收藏
12>