yuechuchen

多分类变量转成数值标签的时候,转成1、2、3 或者 转成2、4、6,放入模型中的时候有区别吗?

如果各分类之间没有顺序关系, 比如民族,血型等分类变量,可以转换成1,2,3.....,这时的1,2,3只是代码,不考虑数值本身大小的属性;如果分类之间又顺序关系,比如学历,职级等,最好不要直接转换成1,2,3这种,可以尝试独热编码。

16.9498 1 3
  • 关注作者
  • 收藏
yuechuchen

Dbscan属于什么聚类方法

DBSCAN是以密度为本的聚类算法:把某一个点附近的点分成一组,有别于知名度更高的K-Means,K-Means是基于距离的聚类算法,二者擅长的数据集不相同。

16.9498 1 4
  • 关注作者
  • 收藏
yuechuchen

K-Means算法原理及改进

1.k-means原理:第一步选取K个点作为质心;第二步计算所有样本点到所有质心的距离;第三步,把这些距离进行排序,从中找出单个样本点距离最近的质心并把该样本点划分到最近质心所代表的类中;第四步,计算得出刚聚成的各簇的真正质心;第五步重新计算所有样本点到各个新质心的距离,依次重复上述过程知道最后无论怎样迭代,所有的质心和样本点归属的类都不再发生变动,或者达到设定 的最大迭代次数或者每次质心变动的量

17.0367 2 2
  • 关注作者
  • 收藏
liting李

SPSS做spearman相关性分析提示案例过多可用存储空间不足

如图所示,显示以下报错: spearman等级相关的使用条件是非参数检验,一般用于数据量不大的情况它的计算原理是把两组数据的等级进行排列然后再比较等级排列大小之间是否有关联,所以数据量大的一般不需要用它,而是用皮尔逊相关

16.0038 1 5
  • 关注作者
  • 收藏
clbe2x2

分享转发:清华大学-数据挖掘:理论与算法

传送链接:清华大学-数据挖掘:理论与算法理论:★★★★★实操:★难度:★★★★推荐:★★★清华博导的数据挖掘课。都说想去做数据,那什么叫大数据,什么叫数据挖掘。最近很火爆的AI人工智能和数据又是什么关系?如果各位有时间不紧的话建议看完,收获非常大。当然这是个开给清华数学硕士的理论课,对于数学不好的同学会有点困难。

18.0475 3 2
  • 关注作者
  • 收藏
bowan.

成为大数据分析师你需要?

成为大数据分析师的条件硬性条件:数据分析师角色/任务:收集,处理和执行统计数据分析必备语言:java、R、Python、HTML、Javscript、C/C 、SQL等技能和特长:电子表格工具(例如Excel),数据库系统(SQL和基于NOSQL),通信可视化,数学,统计,计算机,机器学习等软性条件:懂业务:从事数据分析工作的前提就会需要懂业务,即熟悉行业知识、公司业务及流程,最好有

27.1780 4 3
  • 关注作者
  • 收藏
liting李

探索性因子分析和验证性因子分析有什么区别吗

探索性因子分析,模型是开放的,完全基于计算机的运算结果,得出因子。常用SPSS验证性因子分析,模型是约束的,即通过变量关系,已经构建模型,进而基于计算结果验证模型。常用AMOS

14.4512 2 3
  • 关注作者
  • 收藏
liting李

什么是因子旋转

因子旋转(factor rotation)是一种变换,就是旋转因子的坐标轴。在因子分析中,当求得公共因子及其因子载荷阵后,对公因子要给出具有实际意义的合理解释。如果公共因子难以和实际问题相对应,可对公因子进行旋转,使得旋转后的公因子具有实际意义。

17.2919 3 2
  • 关注作者
  • 收藏
若水若谷

SPSS:安装软件报错,显示未检测到SPSS

报错信息: 打开安装文件夹的25下面发现只有一个Python文件夹,其他什么都没有安装了好几次都是这样我特地观察了一下安装文件的过程发现一开始安装的时候25文件夹下面所有文件都是正常生成的但在安装进度条达到最后三分之一阶段的时候安装程序开始自动把文件批量删除文件一个个的减少最后只留下Python一个文件夹了解决方案:在解决问题前,澄清下问题出现的地方:Window

18.8372 4 2
  • 关注作者
  • 收藏
liting李

在SPSS里如何做因子分析

spss因子分析法详细步骤:1、录入数据,把数据导入SPSS软件中。2、单击“分析(A)”,选择“降维”,点击“因子分析”。3、将需要的分析变量导入放到“变量”中。4、可以选择“描述”,“抽取”,“旋转”,“得分”中的统计量等,选择需要得到的分析对象。4、数据结果解释。

54.5629 1 4
  • 关注作者
  • 收藏
liting李

什么是因子分析

因子分析是指研究从变量群中提取共性因子的统计技术。最早由英国心理学家C.E.斯皮尔曼提出。他发现学生的各科成绩之间存在着一定的相关性,一科成绩好的学生,往往其他各科成绩也比较好,从而推想是否存在某些潜在的共性因子,或称某些一般智力条件影响着学生的学习成绩。因子分析可在许多变量中找出隐藏的具有代表性的因子。将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。

6.7258 2 2
  • 关注作者
  • 收藏
读童话的狼

在大数据中,通常使用的模型会有哪些?

神经网络,决策树,随机森林,支持向量机,聚类,关联,决策树和贝叶斯是解释性比较好的模型

2.3285 1 2
  • 关注作者
  • 收藏
读童话的狼

数据挖掘和数据分析有什么区别?

数据挖掘可以理解为大数据分析,一般的数据库分析是大数据分析,数据分析既包括大数据分析也包括小数据分析,统计分析通常指的是小数据分析,数据是通过抽样获得的,大数据是有多少数据就分析多少数据

0.0000 0 2
  • 关注作者
  • 收藏
读童话的狼

时间序列模型里的p和q如何确定?

把时间序列放到SPSS中可以计算出自相关与偏自相关,同过下面的识别方式就可以得到p和q。

18.5548 1 5
  • 关注作者
  • 收藏
读童话的狼

根据销量预测未来库存所需量,是用时间序列分析模型吗?

在实际应用中,时间序列模型预测会占到20%的场景,拿到数据后可以先进行DW检验,如果行与行之间相关性不强,时间序列也是不合适的,这时候可以利用横截面模型,把库存当成y,受到多个x的影响,可以通过解读运营报告,得下一期的x,然后把x带入到模型里,就得到预测的y

0.0000 0 2
  • 关注作者
  • 收藏
读童话的狼

时间序列为什么去掉相关性就可以使数据平稳震荡?

如果是横截面数据,行与行之间是不相关的,这时候化折线图应是平行震荡的,在时间序列里,之所以序列呈现上升或下降的趋势就是行与行之间出现了相关,这个相关可以是相邻行的相关也可以是相隔一定时间的相关,如果时间序列中消除了行之间的相关,也会呈现平行震荡的形式

0.0000 0 3
  • 关注作者
  • 收藏
读童话的狼

M分箱后怎么样把每一个组的上下限金额算出来?

进行可视分箱后,得到的是排秩的结果 可以对新生成的分箱化变量进行排序,然后点击描述统计中的探索,将分箱化变量放到因子,原始的m放到因变量列表,在得到的描述结果里就可以看到每组的最大值和最小值

18.5548 1 1
  • 关注作者
  • 收藏
读童话的狼

RFM中当R重新定义之后,需要重新分组再修正吗?

需要,可以把每次分析的程序保存下来,只需要每次改下变量名称和区间就可以了,重新操作会麻烦一些

0.0000 0 0
  • 关注作者
  • 收藏
读童话的狼

如何调整RFM模型的权重?

如果有高质量的数据,可以建立结构方程,将总分当做潜变量,受到R,F,M三个因素的影响,通过运行模型可以得到每个因素的系数,对系数进行标准化处理后系数就可以当做权重,高质量的数据不好获得,一般是利用专家法对每个因素进行打分

0.0000 0 2
  • 关注作者
  • 收藏
读童话的狼

平均回购周期怎么计算?

单客平均回购周期:指定时间区间内,客户初次消费与末次消费间隔天数/客户消费次数

0.0000 0 4
  • 关注作者
  • 收藏

热门用户 换一批

本月PGC排行 总奖励
01
CDA持证人阿涛哥
480.0000
02
85691082
320.0000