2018-12-10
阅读量:
796
python里的分类数据
pandas分类数据类型的介绍,包括与R的简短比较factor
。
分类是与统计中的分类变量对应的pandas数据类型。分类变量采用有限的,通常是固定的可能值(类别 ; R中的级别)。例如性别,社会阶层,血型,国家归属,观察时间或通过李克特量表评级。
与统计分类变量相比,分类数据可能有一个顺序(例如“强烈同意”与“同意”或“第一次观察”与“第二次观察”),但数值运算(加法,除法......)是不可能的。
分类数据的所有值都是类别或np.nan。顺序由类别的顺序定义,而不是值的词汇顺序。在内部,数据结构由类别数组和整数代码数组组成,这些代码指向类别数组中的实际值。
分类数据类型在以下情况下很有用:
- 字符串变量,仅包含几个不同的值。将这样的字符串变量转换为分类变量将节省一些内存。
- 变量的词法顺序与逻辑顺序(“一”,“二”,“三”)不同。通过转换为分类并在类别上指定顺序,排序和最小/最大将使用逻辑顺序而不是词法顺序。
- 作为其他Python库的信号,该列应被视为分类变量(例如,使用合适的统计方法或绘图类型)。






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
0条评论