数据科学专业问答社区，好文章，一字千金--CDA答疑社区

python pandas stack和unstack函数

在用pandas进行数据重排时，经常用到stack和unstack两个函数。stack的意思是堆叠，堆积，unstack即“不要堆叠”，我对两个函数是这样理解和区分的。　　常见的数据的层次化结构有两种，一种是表格，一种是“花括号”，即下面这样的l两种形式：store1store2store3street1123street2456

宋俊花

2020-10-07

75.0867 3 0

python list中append()方法和extend()方法区别

共同点只能作用于list类型（不能作用于tuple等其他类型）单参数限制（不支持多参数）不同点list.append(object) 向列表中添加一个对象object。使用append的时候，是将参数看作一个对象，整体作为一个元素打包添加到指定列表。list.extend(iterable) 把一个可迭代对象的内容迭代添加到列表中。使用extend是将一个可迭代对象中的每个元素逐个地添加到列表中，

宋俊花

2020-09-28

45.7617 2 0

方差过滤只有一列的时候报错

今天的作业：当然这是题，为了让我们都练习一下，做编码做归一化，都需要把那一列单独拿出来处理，不然会对所有列做同一种处理。所以我需要单独把“婚姻”这列拿出来做，先把文字转为数字，然后方差过滤，但是报错了如果我把姓名这列也加进来，也会变为数值，但是再次方差过滤，就不报错了。查阅资料没有找到解释，个人猜测应该只有一列，删无可删了吧。

宋俊花

2020-09-17

37.4872 1 0

reshape参数中的-1的理解

感觉写作-1怪怪的，其实它表示任何的意思。1.当原始数组A[4,6]为二维数组，代表4行6列。A.reshape(-1,8)：表示将数组转换成8列的数组，具体多少行我们不知道，所以参数设为-1。用我们的数学可以计算出是3行8列2.当原始数组A[4,6]为二维数组，代表4行6列。A.reshape(3,-1)：表示将数组转换成3行的数组，具体多少列我们不知道，所以参数设为-1。用我们的数学可以计算出

宋俊花

2020-09-13

66.4083 1 0

np.newaxis的作用

np.newaxis的作用就是在这一位置增加一个一维，这一位置指的是np.newaxis所在的位置。基于目前学习，我总结出它相较reshape的一个独特好处是：能对切片数据转换如：data[:,0,np.newaxis]拿出二维数组中的第一列数据，单成一列

宋俊花

2020-09-13

66.5030 2 0

scikit-learn 中 OneHotEncoder 参数之categorical_features

categorical_features = 'all'，这个参数指定了对哪些特征进行编码，默认对所有类别都进行编码。也可以自己指定选择哪些特征，通过索引或者 bool 值来指定，看下例：# -*- coding: utf-8 -*-from sklearn.preprocessing import OneHotEncoder enc = OneHotEncoder(categorical_f

宋俊花

2020-09-10

43.6847 2 0

Numpy 和Pandas 在读取txt 文件时的不同

读取逗号分割的txt 文件，原文件显示如下：用numpy 读取结果如下：你会发现第一列数据M,F全变成了nan而用pandas读取格式完美，内容不会出错，而且pandas速度还快。Numpy这个问题要解决，只能加dtype参数，因为它默认都是以float格式读取

宋俊花

2020-09-08

32.6512 2 0

python 相对路径打开文件夹

之前总是省事儿把py 文件和data 文件copy到同一目录，但是不能老这样啊是不是？还是要理清这个问题。假设目录结构如下：第一种情况：1）xxx.py想要打开a.txt，使用相对路径，有如下两种方式：思路：xxx.py想打开的是b_file下的文件，XXX.py和b_file都在文件目录之下，两者是同级目录，因此操作就是在当前目录向下搜索，因此就可以很容易理解下面的意思了特别提示：..

宋俊花

2020-09-03

27.6048 2 0

贪心算法 greedy algorithm

贪心算法（又称贪婪算法）是指，在对问题求解时，总是做出在当前看来是最好的选择。也就是说，不从整体最优上加以考虑，算法得到的是在某种意义上的局部最优解。贪心算法不是对所有问题都能得到整体最优解，关键是贪心策略的选择。也就是说，不从整体最优上加以考虑，做出的只是在某种意义上的局部最优解。贪心算法一般按如下步骤进行： ①建立数学模型来描述问题。②把求解的问题分成若干个子问题。③对每个子问

宋俊花

2020-09-02

62.1755 3 0

参数模型与非参数模型

参数模型、非参数模型（以及半参数模型）的概念应该源自于统计学中。统计专业中有一门课程叫做《非参数统计》，研究的对象就是秩检验、核密度估计等。在统计学中，参数模型通常假设总体（随机变量）服从某一个分布，该分布由一些参数确定（比如正太分布由均值和方差确定），在此基础上构建的模型称为参数模型；非参数模型对于总体的分布不做任何假设，只是知道总体是一个随机变量，其分布是存在的（分布中也可能存在参数），但是无

宋俊花

2020-08-31

39.8657 1 0

逻辑回归为什么要对特征进行离散化

在工业界，很少直接将连续值作为逻辑回归模型的特征输入，而是将连续特征离散化为一系列0、1特征交给逻辑回归模型，这样做的优势有以下几点：0. 离散特征的增加和减少都很容易，易于模型的快速迭代；1. 稀疏向量内积乘法运算速度快，计算结果方便存储，容易扩展；2. 离散化后的特征对异常数据有很强的鲁棒性：比如一个特征是年龄>30是1，否则0。如果特征没有离散化，一个异常数据“年龄300岁”会给模型造成很大

宋俊花

2020-08-30

40.3583 2 0

方差分析和回归分析异同

方差分析和回归分析总体上都属于一个类别，一般线性模型（general linear model，GLM）。从数据类型来看，方差分析的因变量是连续型数据，自变量是分类变量，一般都以组别的形式出现。回归分析的因变量是连续型数据，自变量既可以是分类数据，也可以是连续型数据，也可以两种都有。具体来说：一、方差分析与回归分析的相同点1、方差分析与回归分析的变量都是两种或两种以上。2、方差分析与回归分析的结果

宋俊花

2020-08-28

35.3721 2 0

标准差与标准误

共同点标准差和标准误都在衡量一群“小点点”的变异程度/离散程度。不同点标准差（SD）的“小点点”是仅仅某一次抽样得到的一个「样本量为N」的样本里的所有个体（单个分数）标准误（SE）的“小点点”是很多次抽样得到的很多「样本量均为N」的样本（样本的某种统计量，如平均值、回归系数等）一言以蔽之（以平均值为例，这是最简单的理解）标准差 = 一次抽样中个体分数间的离散程度，反映了个体分数对样本均值的代表性，

宋俊花

2020-08-28

35.3721 2 0

sklearn数据预处理中fit(),transform()与fit_transform()的区别

Fit(): Method calculates the parameters μ and σ and saves them as internal objects.解释：简单来说，就是求得训练集X的均值啊，方差啊，最大值啊，最小值啊这些训练集X固有的属性。可以理解为一个训练过程Transform(): Method using these calculated parameters apply

宋俊花

2020-08-27

56.6627 2 0

主成分分析保留成分（变量）设置

PCA(n_components=0.7,svd_solver = ’full’)加上参数svd_solver = ’full’如果n_components是小数位，代表留下参数的百分比, 如0.7 代表保留70%的变量如果n_components是整数位，代表留下几个变量，如2 代表留下2个变量

宋俊花

2020-08-27

38.5549 1 0

Jupyter notebook中批量注释多行代码

在jupyter notebook中批量注释多行代码(解除注释也是同样的操作)：ctrl + /

宋俊花

2020-08-25

43.1615 6 0

回归算法选择汇总

基于x,y 变量类型以及多少的时候，应该选择哪种回归模型和算法：

宋俊花

2020-08-24

126.7985 6 0

Python 正则表达式

正则表达式在线测试URL:https://tool.oschina.net/regex/

宋俊花

2020-08-20

29.9467 1 0

python 中的 type(), dtype(), astype()

函数说明type()返回数据结构类型（list、dict、numpy.ndarray 等）dtype()返回数据元素的数据类型（int、float等）备注：1）由于 list、dict 等可以包含不同的数据类型，因此不可调用dtype()函数2）np.array 中要求所有元素属于同一数据类型，因此可调用dtype()函数astype()改变np.array中所有数据元素的数据类型。备注：能用dt

宋俊花

2020-08-19

27.6909 2 0

Jupyter Notebook 安装Table of Contents 目录插件

Jupyter 记录Python笔记太好用了，但是不自带目录插件，需要单独安装：在命令行运行pip install jupyter_contrib_nbextensions下载大概10分钟安装成功后接着进行配置，运行：jupyter contrib nbextension install --user再次打开Jupyter, 看到菜单栏多了Nbextensions,点它然后把disable 前面的

宋俊花

2020-08-17

24.4979 5 3