数据科学专业问答社区，好文章，一字千金--CDA答疑社区

哑变量是什么？如何在spss中进行操作？

问题描述：在多元线性模型中，哑变量是如何解读的？如何利用spss进行操作呢？ a 解决方法：如下图，有厅对比无厅，房价提升2.7%（因变量做了对数化）；各个城区，对比作为基准的“石景山”，房价各自提升x.x% 和哑变量息息相关的另一个概念，就是“基准”，系数的解读就是和基准作比较另外需要注意的是，当某个分类变量或者顺序变量，哑变量处理进入了模型，去掉了基准项后，其余水平需要同进退，才

朝阳Tim

2019-02-11

0.0000 0 2

探索性因子分析和验证性因子分析的区别与联系？

问题描述：当我们在讨论因子分析的时候，往往会讲到探索性因子分析（EFA）和验证性因子分析（CFA），它们是一回事吗？有什么区别和联系？ a 思路解读：不是一回事。两者概念接近，但是处理思路和应用场景截然不同，具体体现在： EFA是对数据进行变量信息压缩的一种方式，是“归纳”的结果；而CFA是对前人量表的维度的验证，是“演绎”的结果 EFA有着更为广泛的应用场景，是机器学习和特征工程常用的数据

朝阳Tim

2019-02-11

0.0000 0 3

多元线性模型中可以将分类变量、顺序变量作为自变量吗？

问题描述：多元线性模型，特别是研究影响因素的模型，例如研究房价的影响因素有哪些，可以将楼层、学区、地铁这样的类别变量直接放进模型吗？为什么不行？思路解读：不能直接放进模型，因为不能合理解释回归系数。举例来看，当研究“房屋面积”和“房价”的关系时候，我们解读系数为“每提示一个单位的x，带来多少的y” 对于顺序变量，例如研究“楼层”和“房价”的关系时候，并不能说每增加一个楼层，就提示多少

朝阳Tim

2019-02-11

0.0000 0 1

spss如何对数据集进行随机拆分的操作？

问题描述：对数据集进行随机拆分，是数据处理最常见的操作之一，在编程类数据软件中处理这一问题很容易，那么spss中如何实现呢？解决方法：通过构建0-1随机数，对变量进行拆分，然后筛选数据，生成新的数据集即可。 data-->select cases-->random samples

朝阳Tim

2019-02-11

0.0000 0 3

MySQL WorkBench和Navicat如何选择？

问题描述：同样是数据库的可视化工具，MySQL WorkBench和Navicat如何选择呢？它们各有什么优劣？问题回答：从来源看，WorkBench是MySQL的直系产品，不需要破解即可默认使用；Navicat则需要破解从语言看，WorkBench默认英文界面，虽然也有汉化的方法，但较为麻烦；Navicat默认就是中文界面从效率看，数据量过大，WorkBench容易卡死，而N

朝阳Tim

2019-02-11

0.0000 1 1

mysql如何在长型数据中实现词根检索？

问题描述：如下图所示数据结构，如何检索出同时考了“计算机”和“英语”的考生stu_id呢？解决策略：以stu_id为查询维度，需要以stu_id字段做聚合然后利用group_concat把多个c_name合并到一起显示最后利用where...like去检索同时包含“计算机”和“英语”字符的数据 group_concat的结果是没有办法直接和where..like混用的，因此需要

朝阳Tim

2019-02-01

0.0000 0 3

什么是多重共线性问题？如何解决？

问题描述：在做多元线性模型的时候，往往出现“多重共线性问题”，这是什么？如何解决呢？解决思路： “多重共线性”可以理解为x和x之间太相近了，从VIF方差膨胀因子的计算公式就可以看出来，去掉y，其它x对被检验的x的解释能力，如果VIF值太高，说明这个x就没有存在于这个模型里的意义 VIF=1/(1-r2) ；当VIF大于10的时候，说明其余x对该x的解释力度达到了90% “多重共线性”问

朝阳Tim

2019-02-01

0.0000 0 5

多水平变量可以重复做t检验吗？

问题描述：在学习t检验的时候，我们了解到某个分组变量如果只有两个水平，可以利用均值做显著性差异检验那么如果某个变量的水平超过了两组，例如三组，是否可以用两两组合的方法，去依次做t检验，从而说明因变量在自变量不同水平之间存在显著性差异呢？问题回答：不能的，因为每次检验都有误差，重复做t检验，会造成误差的指数型叠加，最后判断的结果误差会非常巨大这也就是为什么我们要做方差分析的原因，可以

朝阳Tim

2019-02-01

0.0000 0 2

现实生活中，如何对问题的影响因素进行重要性排序？

问题描述：各种各样的统计模型，一定程度上能够探讨某个问题的因果关系，而一个问题的结果往往由多个原因造成的，那么这些原因中，哪些更重要？哪些不重要？如何对它们进行量化，从而抓住问题的主要矛盾，反哺业务呢？解决思路：多元线性回归模型的标准化回归系数，值越高说明对因变量的解释敏感度越强，对某个确定的结果是可以做重要性排序的因子分析或主成分分析的公因子方差贡献度，对于某个确定的概念，公因子的

朝阳Tim

2019-02-01

0.0000 0 0

excel if和iferror如何判断不同的错误类型？

问题描述： if是excel做数据处理最常用的函数了，出自代码逻辑的判断结构，如何深入地理解if函数呢？excel衍生出来的iferror又如何理解？问题回答： if和iferror常见的使用方法： if(真假判断，为真显示什么，为假显示什么) if(真假判断，为真显示什么，if(判断条件，为真显示什么，xxx)) iferror(原函数（），如果出错显示为) 当if和iferror判断

朝阳Tim

2019-02-01

0.0000 0 5

excel文件大小过大问题如何解决？

问题描述：业务端在处理excel报告的时候，文件大小过大（例如20m），会制约传送、打开的方便性针对这个问题，存在哪些有效的解决思路呢？解决思路：造成文件大小过大的原因有很多，要对症下药：如果是文档里的图片，可以考虑再外面压缩好适当尺寸，再进行插入如果是条件格式过多，可以尝试清除格式，如果非要用格式，例如底纹、背景，可以考虑直接操作而不是条件格式看看是不是有隐藏的对象，查找与

朝阳Tim

2019-02-01

0.0000 0 1

excel 如何制作同比趋势图？

问题描述：年同比趋势图可以快速地观察趋势，以及异常的时间段，那么如何使用excel制作呢？：年同比趋势图示例：解决思路：在不断更新的数据源中，制作年同比趋势图的难点是如何构建两年相同的x轴像本例中，尝试构建出2017年和2018年相同的Period 再构建Year字段，利用透视图的图例项，从而实现年同比的趋势图用来绘图的源数据，可以是这个样子：

朝阳Tim

2019-02-01

0.0000 0 1

mysql如何导入数据？

问题描述：对于mysql的初学者来说，如何顺利地导入数据往往是一件头疼的事情，mysql导入数据的方法有哪些？需要注意哪些地方呢？解决方案一：利用import wizard手动选择，找到自己需要导入的表，右击它，然后点选“table data import wizard”，然后按照指示操作即可需要注意的是要导入的数据，表头要与被导入的表一致该种方法易于理解，但是导入数据的速度会很慢

朝阳Tim

2019-02-01

0.0000 0 2

excel pivot点击“从其他源”没反应，如何解决？

问题描述：如下图所示，pivot点击“其他源”正常来说会弹出来“表导入向导”，但是有些电脑却再点击之后没反应，如何解决呢？解决办法：这个问题的原因可能是microsoft office安装异常或不完整，导致了bi插件无法正常使用最简单的做法是microsoft office的自动修复功能，如果记不得安装路径，可以直接去控制面板点选，如图：如果自动修复功能也失灵，可

朝阳Tim

2019-02-01

0.0000 0 2

mysql workbencch中如何固定住查询结果界面？

问题描述：在workbench中使用select查询语句，操作界面如何固定住？即在下一次select查询中，可以对比上次查询结果？ a 解决方法：鼠标右键点击查询结果，有个“Pin Tab”，点击“Pin Tab”就可以当前操作结果固定住再来一次select查询，试试看吧 a

朝阳Tim

2019-02-01

0.0000 0 2

方差分析中方差不齐现象的解决策略？

当我们在做方差分析的时候，有三个前提条件，分别是：变量间相互独立正态性检验方差齐性检验面对方差不齐的模型，除了依赖修正的F值，我们还有哪些办法进行改善呢？方法一：对因变量（右偏曲线）取对数，可以让因变量更具备正态性的同时，减小因自变量异方差现象方法二：删除自变量中方差最大或最小的组别样本（要合理），换取整个模型的解释力度

朝阳Tim

2019-01-31

18.7453 1 1

mysql导入了时间戳字段的正确处理方式？

由于mysql的数据为表结构，不能在列上对数据进行操作，因此数据处理逻辑大体上都是：建新-->赋值-->再删老对于时间戳字段的处理也同样关于时间戳的定义时间戳是指格林威治时间1970年01月01日00时00分00秒起至现在的总秒数，显示为10或13位的数字 10位时间戳，例如：1496246518 meetingtime为时间戳字段 create table test( us

朝阳Tim

2019-01-31

0.0000 0 3

mysql table主键自动增长的正确养成方式？

问题描述： mysql建表和导入数据的过程中，如果设置自动增长的主键索引呢？解决方法：创建字段的时候加入约束条件auto_increment，是前提条件 create table score ( id int(10) unique not null auto_increment, stu_id int(10) not null, c_name varchar(20),

朝阳Tim

2019-01-31

18.7453 1 2

如何快速复制文件路径到jupyter中？

问题描述：如何快速复制文件路径到jupyter中呢？问题回答： shift 鼠标右键即可以弹出“复制为路径”，左击，再到jupyter中ctrl v即可

朝阳Tim

2019-01-31

0.0000 0 1

excel sumifs多条件数组求和得不出结果？

问题描述： sumifs单独来做"<>2"或者{"A","C"}都是可以的，但是两个条件放到一起，就不能正常显示了，怎么办？解决办法：不能显示的原因，是只计算了{}数组里的第一个值，解决思路是在外面嵌套sum =SUM(SUMIFS(C2:C10,B2:B10,"<>2",A2:A10,{"A","C"})) 当然也可以用sum和sumproduct来解决这个问题 =SUM((

朝阳Tim

2019-01-31

0.0000 0 1