1 概述 注意这是数据预处理中的方法: Fit(): Method calculates the parameters μ and σ and saves them as internal objects. 解释:简单来说,就是求得训练集X的均值啊,方差啊,最大值啊,最小值啊这些训练集X固有的属性。可以理解为一个训练过程 Transform(): Method using these calc
shang9252
2020-06-15
numpy.diff(a, n=1,axis=-1) 沿着指定轴计算第N维的离散差值 参数: a:输入矩阵 n:可选,代表要执行几次差值 axis:默认是最后一个 示例: 从输出结果可以看出,其实diff函数就是执行的是后一个元素减去前一个元素。
shang9252
2020-06-13
1、对数变换 即将原始数据X的对数值作为新的分布数据: X’=lgX 当原始数据中有小值及零时,亦可取X’=lg(X+1) 还可根据需要选用X’=lg(X+k)或X’=lg(k-X) 对数变换常用于(1)使服从对数正态分布的数据正态化。如环境中某些污染物的分布,人体中某些微量元素的分布等,可用对数正态分布改善其正态性。(2)使数据达到方差齐性,特别是各样本的标准差与均数成比例或变异系数CV接近于一
shang9252
2020-06-13
value_counts函数用于统计dataframe或series中不同数或字符串出现的次数 ascending=True时,按升序排列. normalize=True时,可计算出不同字符出现的频率,画柱状图统计时可以用到. # trian中标签的比例 label_proportion = train['label'].value_counts(normalize=True).reset_
shang9252
2020-06-11
import numpy as np import matplotlib.pyplot as plt from matplotlib.colors import ListedColormap %matplotlib inline # 生成数据 x = np.linspace(0, 4*np.pi) y = np.sin(x) plt.rcParams['figure.figsize']
shang9252
2020-06-09
一个Dataframe如下: age astigmatic lenses_target prescript tearRate 0 2 0 1 1 1 1 2 0 2 1 0 2 2
shang9252
2020-06-06
它们的区别就在于应用对象的不同 1、map map()是Series对象的一个函数,DataFrame中没有map(),map()的功能是将一个自定义函数作用于Series对象的每个元素。 eg: 1 frame = pd.DataFrame({ 'key1':['a','b','c','d'], 'key2':['one','two',
shang9252
2020-06-06
连续数据离散化场景: 数据分析和统计的预处理阶段,经常的会碰到年龄、消费等连续型数值,我们希望将数值进行离散化分段统计,提高数据区分度,那么下面介绍一个简单使用的pandas中的 cut() 方法 函数用法: **cut(series, bins, right=True, labels=NULL)** 1 series (类似数组排列,必须是一维的) bins (表示分段数或分类区间,可以是数
shang9252
2020-06-06
Pandas库中有iloc和loc以及ix可以用来索引数据,抽取数据。但是方法一多也容易造成混淆。下面将一一来结合代码说清其中的区别。 1. iloc和loc的区别: iloc主要使用数字来索引数据,而不能使用字符型的标签来索引数据。而loc则刚好相反,只能使用字符型标签来索引数据,不能使用数字来索引数据,不过有特殊情况,当数据框dataframe的行标签或者列标签为数字,loc就可以来其来索
shang9252
2020-06-06
SELECT TOP N是取最大前N条或者最小前N条。 Hive提供了limit关键字,再配合order by可以很容易地实现SELECT TOP N。 但是在Hive中order by只能使用1个reduce,如果表的数据量很大,那么order by就会力不从心。 例如我们执行SQL:select a from ljntest01 order by a limit 10; 控制台会打印出:Num
shang9252
2020-06-06
1\导入numpy库并简写为 np import numpy as np 2\打印numpy的版本和配置说明 print(np.__version__) print(np.show_config()) 3\创建一个长度为10的空向量 z = np.zeros(10) 4\如何找到任何一个数组的内存大小?(提示: size, itemsize) itemsize返回字节
shang9252
2020-06-01
首先,我们需要知道在python中哪些是可变数据类型,哪些是不可变数据类型。 可变数据类型:列表list和字典dict; 不可变数据类型:整型int、浮点型float、字符串型string和元组tuple。 用一句话来概括上述过程就是:“python中的不可变数据类型,不允许变量的值发生变化,如果改变了变量的值,相当于是新建了一个对象,而对于相同的值的对象,在内存中则只有一个对象,内部会有一个
shang9252
2020-05-30
cursor就是一个Cursor对象,这个cursor是一个实现了迭代器(def__iter__())和生成器(yield)的MySQLdb对象,这个时候cursor中还没有数据,只有等到fetchone()或fetchall()的时候才返回一个元组tuple,才支持len()和index()操作,这也是它是迭代器的原因。但同时为什么说它是生成器呢?因为cursor只能用一次,即每用完一次之后记录
shang9252
2020-05-30
游标是执行SQL语句时在系统内存中创建的临时工作区。 游标包含有关select语句和由其访问的数据行的信息。 此临时工作区存储从数据库检索的数据并处理此数据。 游标可以包含多行,但一次只能处理一行。 需要光标来单独处理行以进行查询。
shang9252
2020-05-29
发现了python中的index()和find()实现的功能相似,去百度发现还是有不一样的。 先来个正常的 msg = "mynameishelie" print(msg.index("m")) rint(msg.find("m")) 输出结果为:0 0 继续 msg = "mynameishelie" print(msg.index("L")) print(m
shang9252
2020-05-27
Nbextensions简介 Nbextensions软件包是Jupyter非官方扩展包的集合,可以为Jupyter提供很多实用的功能。这些扩展包大部分为Javascript编写,在运行Jupyter浏览器时被本地加载。 nbextensions插件说明 Skip-Traceback : 跳过报错的路径追踪,只显示错误名称和类型的摘要 Snippets : 在工具栏中增加添加指定代码单元的功能
shang9252
2020-05-27
Nbextensions简介 Nbextensions软件包是Jupyter非官方扩展包的集合,可以为Jupyter提供很多实用的功能。这些扩展包大部分为Javascript编写,在运行Jupyter浏览器时被本地加载。 nbextensions插件说明 Notify : 增加在Jupyter内核空闲时的通知提示功能(适合运行很耗时的情况) Printview : 在工具栏中增加将当前noteb
shang9252
2020-05-27
Nbextensions简介 Nbextensions软件包是Jupyter非官方扩展包的集合,可以为Jupyter提供很多实用的功能。这些扩展包大部分为Javascript编写,在运行Jupyter浏览器时被本地加载。 nbextensions插件说明 insort formatter : 排序代码单元中导入的包(需要安装isort包) jupyter-js-widgets/extension
shang9252
2020-05-27
Nbextensions简介 Nbextensions软件包是Jupyter非官方扩展包的集合,可以为Jupyter提供很多实用的功能。这些扩展包大部分为Javascript编写,在运行Jupyter浏览器时被本地加载。 nbextensions插件说明 Freeze : 提供单元格锁定、只读相关功能 Gist-it : 一键发布Github的gist功能 Help panel : 在工具栏中增
shang9252
2020-05-27
Nbextensions简介 Nbextensions软件包是Jupyter非官方扩展包的集合,可以为Jupyter提供很多实用的功能。这些扩展包大部分为Javascript编写,在运行Jupyter浏览器时被本地加载。 nbextensions插件说明 Collapsible Headings : 存储markdown标题的折叠情况(在下一次打开的时候重新加载这点状态) Comment/Unc
shang9252
2020-05-27