数据准备通常是一个耗时的过程,很容易出错。俗话说“垃圾中垃圾”特别适用于那些收集了许多无效,超出范围和缺失值的数据的数据科学项目 。分析未针对此类问题进行仔细筛选的数据可能会产生极具误导性的结果。那么,数据科学项目的成功在很大程度上取决于准备数据的质量。
数据
数据通常是测量结果(数值)或计数结果(分类)。 变量用作数据的占位符。有两种类型的变量,数字和分类。
数值或连续 可变 是一个可以接受有限或无限的时间间隔内的任何值(例如,高度,重量,温度,血糖,...)。有两种类型的数值数据,间隔和比率。间隔尺度上的数据可以相加和相减,但不能有意义地相乘或分割,因为没有真正的零。例如,我们不能说有一天是另一天的两倍热。另一方面,比例尺度上的数据为零,可以加,减,乘或除(例如,权重)。
分类或离散变量是一种可以接受两个或更多个值(类别)。有两种类型的分类数据,名义和序数。标称数据在类别中没有内在排序。例如,“性别”有两类,男性和女性。相反,序数数据确实在类别中具有内在排序。例如,具有三个有序类别(低,中和高)的“能量水平”。
数据集
数据集是一组数据,通常以表格形式呈现。每列代表一个特定的变量,每一行对应一个给定的数据成员。
列,行和值有一些替代方法。
- 列,字段,属性,变量
- 行,记录,对象,案例,实例,示例,向量
- 价值观,数据
在预测建模中,预测变量或属性是输入变量,目标或类属性是输出变量,其值由预测变量的值和预测模型的函数确定。
数据库
数据库收集,存储和管理信息,以便用户可以检索,添加,更新或删除此类信息。它在包含行和列的表中显示信息。在某种意义上,表被称为关系,它是相同类型(行)的对象的集合。表中的数据可以根据公共密钥或概念相关,并且从相关表中检索相关数据的能力是术语关系数据库的基础。数据库管理系统(DBMS)处理数据的存储,维护和检索方式。大多数数据科学工具箱通过ODBC(开放式数据库连接)或JDBC(Java数据库连接)接口连接到数据库。
SQL(结构化查询语言)是一种数据库计算机语言,用于管理和操作关系数据库管理系统(RDBMS)中的数据。
SQL数据定义语言(DDL)允许创建,更改或删除数据库表。我们还可以定义索引(键),指定表之间的链接,以及在数据库表之间施加约束。
- CREATE TABLE:创建一个新表
- ALTER TABLE:改变表格
- DROP TABLE:删除表
- CREATE INDEX:创建索引
- DROP INDEX:删除索引
SQL数据操作语言(DML)是一种使用户能够访问和操作数据的语言。
- SELECT:从数据库中检索数据
- INSERT INTO:将新数据插入数据库
- 更新:修改数据库中的数据
- 删除:删除数据库中的数据
ETL(提取,转换和加载)
ETL使用一组转换函数从数据源中提取数据并将其加载到数据目标中。
- 数据提取提供从各种数据源提取数据的功能,例如平面文件,关系数据库,流数据,XML文件和ODBC / JDBC数据源。
- 数据转换提供了清理,转换,聚合,合并和拆分数据的功能。
- 数据加载提供了通过更新,插入或删除语句或批量将数据加载到目标数据库的功能。








暂无数据