1. 数据清洗:主要是为了保证数据的完整性与准确性。主要包括处理缺失值、识别和处理异常值两个方面。
2. 数据标准化:主要是为了消除量纲和变量自身变异大小和数值大小的影响。主要方法有离差标准化、标准差标准化和小数定标。