申宗康
2022-02-23 阅读量: 450
明确需求:(因变量Y)
数据清洗:(重复值、缺失值、异常值、数据编码)
变量筛选:(业务、相关分析(看相关系数和散点图)、逐步回归)
分割、测试机、训练集(预测)
回归:(F检验(检验模型)、t检验(检验各个变量)、R^2(如果是多元线性回归的话再看调整后的R^2))
模型调优:考虑线性性、共线性、内生性、(残差的序列相关性、正态性和同方差)
继续优化:(季节变量、高次项、交互项、哑变量)
模型测试:测试集
四分位数的应用通常是用于描述数据的分布情况和识别异常值。以下是一些常见的应用场景:数据分析:通过计算四分位数,可以了解数据的中心趋势和离散程度。例如,可以使用四分位数来计算中位数、上四分位数和下四分位数,以了解数据的分布情况。箱线图:箱线图是一种常用的数据可视化工具,可以通过四分位数来绘制。箱线图可以显示数据的中位数、上四分位数、下四分位数以及异常值,帮助我们直观地了解数据的分布情况。异常值检测:
美国、芬兰和中国各个国家2018年7月至2023年8月度GDP增长率
问题:某地区成年女子的血压(以mmHa计) 服从N(110,144),求该地区成年女性血压在100至120的可能性多大 ( (φ(0.83)=0.7967)A 0.676B 0.5C 0.5934D 0.5768解析:根据题目描述,该地区成年女子的血压服从N(110,144)分布。要求计算血压在100至120之间的可能性,可以使用标准正态分布进行计算。首先,需要将血压转化为标准正态分布的值。计算方