啊啊啊啊啊吖

R中randomforest变种列表

randomForest 原创者 Leo Breiman原创性论文集,及R中randomForest变种列表 很多人,用完randomForest ,觉得它很多不可思议的地方,因此想着改善。但是,没有成功的,大量所谓改善的"randomforest"变种,至今没有一个能超越Leo Breiman 原创!!! 要用好randomForest ,请读读Leo Breiman的原创性论文,任

0.0000 0 1
  • 关注作者
  • 收藏
啊啊啊啊啊吖

很详细的饼图/扇形图学习技术贴,R来实现

pie(x, labels = names(x), edges = 200, radius = 0.8, clockwise = FALSE, init.angle = if(clockwise) 90 else 0, density = NULL, angle = 45, col = NULL, border = NULL, lty = NULL, main = NULL, .

0.0000 0 1
  • 关注作者
  • 收藏
PGC123

安装graphviz配置环境变量失败

在环境变量path里加入:C:\Program Files (x86)\Graphviz2.38\bin;失败。常见原因有两个:1、路径中包含了特殊字符导致了环境变量全部(或部分)失效,测试方法使用命令 echo %path%来查看一下在环境变量中配置的path有哪些生效(只要输出的部分就是生效的部分)。2、如果路径保存不了有可能是因为系统安全软件阻止了此次修改,解决方法:关掉所有杀毒软件,再

0.0000 0 3
  • 关注作者
  • 收藏
PGC123

在使用graphviz绘制训练好的决策树模型时报错

在使用graphviz绘制训练好的决策树模型时报错,报错信息如下,这怎么解决? 这是由于scikit-learn版本不同导致的问题,解决方法升级scikit-learn模块至最新或者升级anaconda的版本。

0.0000 0 2
  • 关注作者
  • 收藏
291294878

分类任务解决流程有哪些(分类算法)?

1. 任务:以新闻分类为例2. 特征表示:X={昨日,是,国内,投资,市场……}3. 特征选择:X={国内,投资,市场……}4. 模型选择:朴素贝叶斯分类器 • P(X):待分类对象自身的概率,可忽略• P(yi):每个类别的先验概率,如P(军事)• P(X|yi):每个类别产生该对象的概率• P(xi|yi):每个类别产生该特征的概率,如P(苹果|科技) 5. 训练数据准备

0.0000 0 1
  • 关注作者
  • 收藏
kejiayuan0806

主成分分析和因子分析区别与联系

主成分分析(Principal components analysis,PCA)基本原理:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个不相关的综合指标(主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的。因子分析(Factor

761.1603 13 3
  • 关注作者
  • 收藏
291294878

聚类算法基础知识有哪些?

1. 层次聚类 vs 非层次聚类– 不同类之间有无包含关系2. 硬聚类 vs 软聚类– 硬聚类:每个对象只属于一个类– 软聚类:每个对象以某个概率属于每个类3. 用向量表示对象– 每个对象用一个向量表示,可以视为高维空间的一个点– 所有对象形成数据空间(矩阵)– 相似度计算:Cosine、点积、质心距离4. 用矩阵列出对象之间的距离、相似度 5. 用字典保存上述矩阵(节省空

0.0000 0 2
  • 关注作者
  • 收藏
291294878

spark的七个参数分别是什么?

• num-executors:该作业总共需要多少executor进程执行 建议:每个作业运行一般设置5-~100个左右较合适 • executor-memory:设置每个executor进程的内存, num-executors* executor-memory代表作业申请的总内存量(尽量不要超过最大总内存的1/3~1/2) 建议:设置4G~8G较合适

0.0000 0 2
  • 关注作者
  • 收藏
啊啊啊啊啊吖

R来画条形图,真的很easy!

barpot:适用于数据表格化后的情形。barplot(height, width = 1, space = NULL,        names.arg = NULL, legend.text = NULL, beside = FALSE,        horiz = FALSE, density = NULL, angle = 45,        col = NULL, border =

0.0000 0 0
  • 关注作者
  • 收藏
kejiayuan0806

变量筛选方法

当所研究的问题涉及较多的自变量时,我们很难想象事先选定的全部自变量对因变量的影响都有显著性意义;也不敢保证全部自变量之间是相互独立的。换句话说,在建立多元线性回归方程时,需要根据各自变量对因变量的贡献大小进行变量筛选,剔除那些贡献小和与其他自变量有密切关系的自变量、发现那些对回归方程有很坏影响的观测点(这些都是回归诊断的重要内容),从而求出精练的、稳定的回归方程。1、向前选择法(FORWARD)

0.0000 0 3
  • 关注作者
  • 收藏
啊啊啊啊啊吖

关于R的学习网站整理,你不进来看一下吗

R软件实用例子,咱高校学生做题的好题库,注重统计应用:http://www.stathome.cn/html/S-plus_R/Rrumen/各种关于R的讲义,身为老师的你真的不来参考学习一下吗:http://research.stowers-institute.org/efg/index.htmlR可视化的网站,你能想到的图都在这啦:http://addictedtor.free.fr/

0.0000 0 1
  • 关注作者
  • 收藏
291294878

如何理解spark核心-RDD?

Spark核心—RDD( Resilient Distributed Dataset 弹性分布式数据集模型)1.四个特征 – RDD使用户能够显式将计算结果保存在内存中,控制数据的划分 – 记录数据的变换和描述,而不是数据本身,以保证容错 – 懒操作,延迟计算,action的时候才操作 – 瞬时性,用时才产生,用完就释放2.四种构建方法 – 从共享文件

0.0000 0 6
  • 关注作者
  • 收藏
kejiayuan0806

相关分析的常用方法

相关分析是研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法。两个变量之间的相关程度通过相关系数r来表示。相关系数r的值在-1和1之间,但可以是此范围内的任何值。正相关时,r值在0和1之间,散点图是斜向上的,这时一个变量增加,另一个变量也增加;负相关时,r值在-1和0之间,散点图是斜向下的,此时一个变量增加,另一个变量将减少。r的绝对值越接近1,两变量的关联程度越强,r的绝对值越

0.0000 0 5
  • 关注作者
  • 收藏
啊啊啊啊啊吖

怎么用R来画箱线图,这几个步骤就行了

箱线图函数:boxplot(x, ...)## S3 method for class 'formula'boxplot(formula, data = NULL, ..., subset, na.action = NULL)## Default S3 method:boxplot(x, ..., range = 1.5, width = NULL, varwidth = FALSE, 

0.0000 0 1
  • 关注作者
  • 收藏
啊啊啊啊啊吖

关于季节性Arima分析的问题

1)之前在网上查看关于时间序列分析的文章,在分析之前首先需要去掉非平稳的部分。这个非平稳的部分,包含趋势和季节性。那这样的话,季节性是不是就是没有研究价值的部分? 2)是不是对本身就有季节性变化的数据,才能在预测时,在R的forecast函数部分指定关于季节性的参数? 对本身就没有季节性变化的数据,在做预测时,就不能在R的forecast函数部分指定关于季节性的参数? 3)R的auto.

0.0000 0 5
  • 关注作者
  • 收藏
291294878

kafka的副本管理怎么解释?

每个broker可以划分为多个partition,partiton可以多于broker数,每个partition有多个副本。为了更好的做负载均衡,Kafka尽量将所有的Partition均匀分配到整个集群上。Kafka分配副本的算法如下:1)将所有Broker(假设共n个Broker)和待分配的Partition排序2)将第i个Partition分配到第(i mod n)个Bro

0.0000 0 0
  • 关注作者
  • 收藏
啊啊啊啊啊吖

使用mgcv包做面板数据的非参数广义可加模型的估计

R语言怎么使用mgcv包做面板数据的非参数广义可加模型的估计? library(mgcv) set.seed(0) n

0.0000 0 3
  • 关注作者
  • 收藏
kejiayuan0806

分别简述基于内容推荐算法和基于用户的协同过滤推荐算法的原理

基于内容推荐算法:基于物品或内容的特征,发现物品之间的相似性,然后基于用户以前的喜好记录推荐给用户相似的物品。本质是对物品或内容进行分析建立特征,基于用户对什么特征的内容感兴趣以及分析一个物品具备什么特征来做推荐。不考虑用户之间的关系,只关注物品本身的特征,根据Item获得与之特征相似的Item进行推荐。简单来说就是根据用户之前喜欢的物品,通过对特征的匹配分析,预测用户的喜好。基于用户的协同过滤

0.0000 0 0
  • 关注作者
  • 收藏
kejiayuan0806

相关分析、回归分析的联系和区别

联系:二者都是对变量之间不严格依存关系的分析,在理论基础和方法上具有一致性。只有存在相关关系的变量才能进行回归分析,相关程度越高,回归分析的结果越可靠。区别:相关分析研究的是变量之间的依存关系,这些变量的地位相等,不区分主从因素或因果关系。回归分析却是在控制或给定一个(或多个)变量条件下来观察对应的某一变量的变化,给定的变量为自变量,被观察的变量为因变量。因此回归分析中必须根据研究目的来确定自变

0.0000 0 2
  • 关注作者
  • 收藏
kejiayuan0806

AIC信息准则如何衡量模型优良

很多参数估计问题均采用似然函数作为目标函数,当训练数据足够多时,可以不断提高模型精度,但是以提高模型复杂度为代价的,同时带来一个机器学习中非常普遍的问题——过拟合。所以,模型选择问题在模型复杂度与模型对数据集描述能力(即似然函数)之间寻求最佳平衡。人们提出许多信息准则,通过加入模型复杂度的惩罚项来避免过拟合问题,此处我们介绍一下常用的两个模型选择方法——赤池信息准则(Akaike Informa

0.0000 0 1
  • 关注作者
  • 收藏

热门用户 换一批

本月PGC排行 总奖励

暂无数据