wangjuju123

数据类型

第一种分法 •离散型数据 离散随机变量是指一个只取有限个或可数无限个数值的随机变量。 通常用古典概型来描述。 •连续型数据 连续随机变量是指一个取任何实数的概率都为零的变量。 通常用几何概型来描述。 第二种分法 •横截面数据 •时间序列数据 •面板数据 第三种分法 •定类尺度 国籍:中国 (无序) • •定序尺度 健康状况:良好 (有序) • •定距尺度 出生年份:1981 (0点有意义) •

wangjuju123

2018-11-07

0.0000 0 4
  • 关注作者
  • 收藏

算法选择参考

之前翻译过一些国外的文章,有一篇文章中给出了一个简单的算法选择技巧: 首当其冲应该选择的就是逻辑回归,如果它的效果不怎么样,那么可以将它的结果作为基准来参考,在基础上与其他算法进行比较; 然后试试决策树(随机森林)看看是否可以大幅度提升你的模型性能。即便最后你并没有把它当做为最终模型,你也可以使用随机森林来移除噪声变量,做特征选择; 如果特征的数量和观测样本特别多,那么当资源和时间充足时(这个

wangjuju123

2018-11-05

0.0000 0 1
  • 关注作者
  • 收藏

Adaboosting

Adaboost是一种加和模型,每个模型都是基于上一次模型的错误率来建立的,过分关注分错的样本,而对正确分类的样本减少关注度,逐次迭代之后,可以得到一个相对较好的模型。是一种典型的boosting算法。下面是总结下它的优缺点。 优点 adaboost是一种有很高精度的分类器。 可以使用各种方法构建子分类器,Adaboost算法提供的是框架。 当使用简单分类器时,计算出的结果是可以理解的,并且弱

wangjuju123

2018-11-05

0.0000 0 2
  • 关注作者
  • 收藏

xgboost

这是一个近年来出现在各大比赛的大杀器,夺冠选手很大部分都使用了它。 高准确率高效率高并发,支持自定义损失函数,既可以用来分类又可以用来回归 可以像随机森林一样输出特征重要性,因为速度快,适合作为高维特征选择的一大利器 在目标函数中加入正则项,控制了模型的复杂程度,可以避免过拟合 支持列抽样,也就是随机选择特征,增强了模型的稳定性 对缺失值不敏感,可以学习到包含缺失值的特征的分裂方向 另外一个广受欢

wangjuju123

2018-11-05

46.4498 1 3
  • 关注作者
  • 收藏

K-Means聚类

关于K-Means聚类的文章,链接:机器学习算法-K-means聚类。关于K-Means的推导,里面有着很强大的EM思想。 优点 算法简单,容易实现 ; 对处理大数据集,该算法是相对可伸缩的和高效率的,因为它的复杂度大约是O(nkt),其中n是所有对象的数目,k是簇的数目,t是迭代的次数。通常k<

wangjuju123

2018-11-05

0.0000 0 0
  • 关注作者
  • 收藏

人工神经网络的优缺点

人工神经网络的优点: 分类的准确度高; 并行分布处理能力强,分布存储及学习能力强, 对噪声神经有较强的鲁棒性和容错能力,能充分逼近复杂的非线性关系; 具备联想记忆的功能。 人工神经网络的缺点: 神经网络需要大量的参数,如网络拓扑结构、权值和阈值的初始值; 不能观察之间的学习过程,输出结果难以解释,会影响到结果的可信度和可接受程度; 学习时间过长,甚至可能达不到学习的目的。

wangjuju123

2018-11-05

0.0000 0 2
  • 关注作者
  • 收藏

SVM支持向量机

高准确率,为避免过拟合提供了很好的理论保证,而且就算数据在原特征空间线性不可分,只要给个合适的核函数,它就能运行得很好。在动辄超高维的文本分类问题中特别受欢迎。可惜内存消耗大,难以解释,运行和调参也有些烦人,而随机森林却刚好避开了这些缺点,比较实用。 优点 可以解决高维问题,即大型特征空间; 能够处理非线性特征的相互作用; 无需依赖整个数据; 可以提高泛化能力; 需要对数据提前归一化,很多人使

wangjuju123

2018-11-05

0.0000 0 2
  • 关注作者
  • 收藏

KNN应用场景

理论成熟,思想简单,既可以用来做分类也可以用来做回归; 可用于非线性分类; 训练时间复杂度为O(n); 对数据没有假设,准确度高,对outlier不敏感; 缺点 计算量大; 样本不平衡问题(即有些类别的样本数量很多,而其它样本的数量很少); 需要大量的内存;

wangjuju123

2018-11-05

0.0000 0 4
  • 关注作者
  • 收藏

Python turtle绘图角度设置区别

一、概念   turtle.right与turtle.left用法一致,我们以turtle.right为例进行讲述。   turtle.right(angle)向右旋转angle角度。   turtle.setheading(angle)设置当前朝向为angle角度。 二、举例   从概念上并不能准确的得知他们有怎样的区别,那我们以三角形为例,看看他们究竟有什么不同。 import turtle

wangjuju123

2018-11-05

0.0000 0 4
  • 关注作者
  • 收藏

更改数据框索引列

一问题描述: 在导入数据之后,如何更改索引列 1.正常导入数据 2.输入命令 df.reset_index(drop=True),可以将原有错误的索引列删除的同时赋一个新的索引列。

wangjuju123

2018-11-05

50.6030 2 2
  • 关注作者
  • 收藏

如何改变DataFrame数据的索引列?

一、问题描述 有学员在导入数据时发现他自己的数据索引列值都为空,如下: 我们想要把索引列换成一般的序列,可进行如下操作:

wangjuju123

2018-11-05

0.0000 0 0
  • 关注作者
  • 收藏

Excel-查找与引用函数2

1.MATCH(lookup_value, lookup_array, [match_type]) 使用 MATCH 函数在 范围 单元格中搜索特定的项,然后返回该项在此区域中的相对位置。 lookup_value    必需。要在 lookup_array 中匹配的值。 lookup_value 参数可以为值(数字、文本或逻辑值)或对数字、文本或逻辑值的单元格引用。 lookup_arr

wangjuju123

2018-11-02

0.0000 0 1
  • 关注作者
  • 收藏

Excel-查找与引用函数

1.ADDRESS(row_num, column_num, [abs_num], [a1], [sheet_text]) 根据指定行号和列号获得工作表中的某个单元格的地址。 row_num    必需。 一个数值,指定要在单元格引用中使用的行号。 column_num    必需。 一个数值,指定要在单元格引用中使用的列号。 abs_num    可选。 一个数值,指定要返回的引用类型。 a

wangjuju123

2018-11-02

0.0000 0 2
  • 关注作者
  • 收藏

Python运行常见错误

1)不错在 或者 -- 自增自减操作符。(导致“SyntaxError: invalid syntax”) 如果你习惯于例如 C , Java , PHP 等其他的语言,也许你会想要尝试使用 或者 -- 自增自减一个变量。在Python中是没有这样的操作符的。 该错误发生在如下代码中: spam = 1 spam 也许这才是你想做的: spam = 1 spam = 1

wangjuju123

2018-11-02

43.7056 1 2
  • 关注作者
  • 收藏

一些让你程序 crash 的运行错误2

1)使用不存在的字典键值(导致“KeyError:‘spam’”) 该错误发生在如下代码中: spam = {'cat': 'Zophie', 'dog': 'Basil', 'mouse': 'Whiskers'} print('The name of my pet zebra is ' spam['zebra']) 2)尝试使用Python关键字作为变量名(导致“SyntaxError:i

wangjuju123

2018-11-02

0.0000 0 2
  • 关注作者
  • 收藏

一些让你程序 crash 的运行错误:

1)尝试连接非字符串值与字符串(导致 “TypeError: Can't convert 'int' object to str implicitly”) 该错误发生在如下代码中: numEggs = 12 print('I have ' + numEggs + ' eggs.') 而你实际想要这样做: numEggs = 12 print('I have ' + str(numEggs) + '

wangjuju123

2018-11-02

0.0000 0 0
  • 关注作者
  • 收藏

常见的的一些让你程序 crash 的运行时错误:

1)忘记在 if , elif , else , for , while , class ,def 声明末尾添加 :(导致 “SyntaxError :invalid syntax”) 该错误将发生在类似如下代码中: if spam == 42    print('Hello!') 2)使用 = 而不是 ==(导致“SyntaxError: invalid syntax”) = 是赋值操作符而 =

wangjuju123

2018-11-02

0.0000 0 0
  • 关注作者
  • 收藏

时间序列数据用eviews做多元回归分析要进行哪些检验

时间序列首先要做平稳性检验,平稳可以直接建模,否则同阶单整后检验协整关系,存在协整关系后可以建模。 如果做OLS多元回归,还需要做相关分析,查看相关系数。 回归模型建立后,系数的T检验,方程的F检验是需要的。另外还要查看残差的异方差、自相关检验。 如果是VAR且要做方差分解,那么还要看VAR是否平稳——AR根落在单位园内。

wangjuju123

2018-11-02

0.0000 0 5
  • 关注作者
  • 收藏

D-W检验可以用来检验大样本的自相关么

自相关检验通常包括四种方法:1画残差自相关图(初步判断);2.BG检验;3.Q检验;4.DW检验。其中,楼主所说的DW检验是可以用来检验大样本自相关的。但其存在以下主要缺点:1.只能检验一阶自相关(楼上已经提到),且要求解释变量满足严格外生性;2.其检验统计量d依赖于数据矩阵(X),无法绘制统计表,必须借助上下限来判断。当然,即使得到了上下限的值,仍存在无结论区域。Q检验中经过改进的“Ljung-

wangjuju123

2018-11-02

0.0000 0 3
  • 关注作者
  • 收藏

offset函数

1.offset函数的含义 以指定的(单元格或相连单元格区域的引用)为参照系,通过给定偏移量得到新的引用。 返回的引用可以是一个单元格也可以是一个区域(可以指定行列数)。 2.offset函数的语法格式 =offsetreference,rows,cols,height,width) =Offset(参照单元格,行偏移量,列偏移量,返回几行,返回几列) 3.参数Reference——参照单元格(单

wangjuju123

2018-11-02

0.0000 0 2
  • 关注作者
  • 收藏
<156713>