收集数据:埋点、爬虫、接入、调查问卷
处理数据:对行操作是数据清洗,对列操作是特征工程
描述性分析:研究数据收集、对比关系、集中趋势、离散程度
数据的形式:结构化(数字),非结构化(文字,不可运算)
文字的处理方式:正则表达式-词模型
数据的分类
1. 按计量尺度:分类型数据:对十五进行分类的结果,如性别:男女
顺序型数据:对事物类别顺序的测度,如产品:一等品、二等品、三等品
数值型数据:对事物的精确测度,如身高:175,180
2. 2.特点 分类型数据:不可排序,不可计算 定性数据 低级
顺序型数据:可排序,不可计数
数值型数据:可排序,可计算 定量数据 高级
复数型 :不可排序,可计算
公众号:领研,paperweekly