数据分析中常见问题的解决方案及心得体会-CDA数据分析师官网

数据分析中常见问题的解决方案及心得体会

2016-10-18

数据分析中常见问题的解决方案及心得体会

在数据分析实践中，你遇到过这样的问题吗？你们的标准误差算对了吗？回测过程中的过度拟合问题怎么解决？聚类分析时的极端值又该怎么处理呢？快来看今天的文章吧，马上告诉你答案。

问题一：

你们的标准误差（standarderror）算对了吗？（附程序）

大家都知道，当残余相是独立同分布（iid）时，OLS的标准误差是无偏的（unbiased），但是当残余相与观测值相关时，此标准误差就不再无偏了，需要做相应的调整。

这里向大家介绍一篇Northwestern大学教授MitchellPeterson在顶级权威刊物ReviewofFinancialStudies上发表的文章（EstimatingStandardErrorsinFinancePanelDataSets：ComparingApproaches，2009），专门探讨标准误差在不同面板数据结构中的调整。据他统计，即使是在专业刊物上发表的文章：

"42%的文章没有对标准误差进行必要的调整。

"剩下的58%的文章做了调整。

1.其中，34%用了Fama-MacBeth方法，

2.29%用了虚拟变量（dummyvariable），

3.7%用OLS计算回归系数但用Newy-West方法对标准误差做调整，

4.23%则报告了群集标准误差（clusteredstandarderror）

那么，到底哪种处理方法是正确的呢？本篇文章给出了指导意见。简单来说，在二维的面板数据里包含了"企业固定效应"（firmfixedeffect）和"时间效应"（timeeffect）。

"在只具有"企业固定效应"的面板数据中，OLS和Fama-MacBeth方法的标准误差都会被低估，建议使用群集标准误差（clusteredstandarderror）。

"在只具有"时间效应"的面板数据中，建议使用Fama-MacBeth方法。

"在同时具有"企业固定效应"和"时间效应"的面板数据中，建议对某一个维度使用虚拟变量（dummyvariable），然后使用另一维度的群集标准误差。或者按照SamuelThompson（Simple Formulas for Standard Errors That Cluster by Both Firmand Time，2010，下载文献请点击"阅读原文"，可以在帖子的尾部，专题链接部分，找到本文的原文链接）提出的方法做：二维标准误差=企业群集标准误差+时间群集标准误差-White标准误差（White standard error）。

对标准误差进行正确调整的重要性是不言而喻的，因为错误的标准误差会导致错误的变量显著性，从而得出不可靠甚至错误的结论，使得文章的可信度大打折扣。所以做面板计量的朋友们，你们的标准误差算对了吗？希望这个帖子对大家有帮助！

问题二：

回测过程中的过度拟合问题（backtestoverfitting，附最新文献2篇）

有这样一个"明星"投资分析师，他给他10240位（=10*2^10）潜在客户们宣传他对股票ABC的投资建议。对其中一半客户，他建议买入股票ABC，对另一半客户，他建议卖出。一个月后，这位投资分析师再对其中5120位盈利的客户继续宣传他对股票ABC的投资建议。如同上个月，他对其中一半客户建议买入，对另一半客户，他建议卖出。如此往复10个月，有这么10位客户对他佩服的五体投地，因为他们已经连续盈利10个月了！可是他们不知道这位"明星"投资分析师做了多少失败的投资建议。这是典型的回测过程中的过度拟合问题：只要回测的次数足够多，我们总能找到令人满意的结果。

下面介绍了一种新方法CSCV（CombinatoriallySymmetricCross-Validation）来估计回测中过度拟合的概率大小（ProbabilityofBacktestOverfitting）。这种方法要优于人们通常用的比较样本内和样本外结果（in-samplevs.out-of-sample）的方法。希望对大家在写计量论文中有帮助。

问题三：

数据分析心得--聚类分析时的极端值处理

在对农户问卷数据做聚类分析时，先考察数据的分布，一般情况下很多变量均是正偏态分布，在不想去除极端值的情况下（去除极端值会造成本不多的样本再度流失）可考虑在系统聚类时用横向标准化的方法并用中位数进行聚类。这样既不损失样本，又能在不受极端值影响下考察数据的集中趋势，不至于得到不好甚至错误的分析结果（因为均值受极端值影响）。

PS：若连续变量不存在大量的0的情况下，可考虑对原始数据进行对数变换解决其正偏态分布的问题，如有大量0存在时，就不能取对数了，因为ln(0)无意义。

SPSS数据分析心得小结

心得1：

我们做问卷调查的人，经常会遇到收集到的数据是偏正态分布的连续变量（主要表现为有极端值存在），可考虑用对数变换的方法对原始数据进行处理。倘若对数变换后还是存在很多极端值（看箱图），这时可考虑将其分组（如分成高、中、低），然后再通过设置两个虚拟变量的方式将分组后的变量处理后引入下一步的建模；

心得2：

心得3：

在做回归分析时（不管是线性回归还是logistic回归），先做变量间多重共线性诊断（可通过主成分回归解决多重共线性问题），然后在变量选择时依据0.05的标准依次剔除不显著的变量。这样做比单纯使用逐步向前或向后法要好。因为据估算，直接使用逐步向前或向后的方法选择变量，其犯错误的概率为1/3左右。故而，有时间还是人为的多跑跑模型为好，不要太依赖于软件所谓的"智能"；

心得4：

在处理数据时，当存在极端异常值时（通过箱图判断），如果是正偏态分布，可通过取对数办法解决。如果数据里面包含负数，没法取对数时，可通过缩尾处理极端异常值。cda数据分析培训

数据分析线性回归正态分布

数据分析咨询请扫描二维码

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析中常见问题的解决方案及心得体会

考试指南

报考指南

热门栏目