热线电话:13121318867

登录
2018-12-10 阅读量: 796
python里的分类数据

pandas分类数据类型的介绍,包括与R的简短比较factor

分类是与统计中的分类变量对应的pandas数据类型。分类变量采用有限的,通常是固定的可能值(类别 ; R中的级别)。例如性别,社会阶层,血型,国家归属,观察时间或通过李克特量表评级。

与统计分类变量相比,分类数据可能有一个顺序(例如“强烈同意”与“同意”或“第一次观察”与“第二次观察”),但数值运算(加法,除法......)是不可能的。

分类数据的所有值都是类别或np.nan。顺序由类别的顺序定义,而不是值的词汇顺序。在内部,数据结构由类别数组和整数代码数组组成,这些代码指向类别数组中的实际值。

分类数据类型在以下情况下很有用:

  • 字符串变量,仅包含几个不同的值。将这样的字符串变量转换为分类变量将节省一些内存。
  • 变量的词法顺序与逻辑顺序(“一”,“二”,“三”)不同。通过转换为分类并在类别上指定顺序,排序和最小/最大将使用逻辑顺序而不是词法顺序。
  • 作为其他Python库的信号,该列应被视为分类变量(例如,使用合适的统计方法或绘图类型)。
61.1675
0
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子