数据科学专业问答社区，好文章，一字千金--CDA答疑社区

【新手向】在R里，如何转换01变量

在用boosting tree的时候，用distribution=“bernoulli”的时候出现错误： Bernoulli requires the response to be in {0,1}我想把因变量的YES和NO全部转化成1和0试试。其实在R里可以一条代码实现： ifelse(y == "yes", 1, 0)

啊啊啊啊啊吖

2018-11-07

0.0000 0 3

R里关于文件读取的问题

文件读入错误： > read.csv(file="D:\\Data\\rd\\01.csv",header=TRUE) 错误于make.names(col.names, unique = TRUE) : '<53>'多字节字符串有错此外: 警告信息： 1: In read.table(file = file, header = header, sep = sep, quote

啊啊啊啊啊吖

2018-11-07

0.0000 0 5

关于数据转换的问题

a 如上图所示，想让同一个sub条件下，SD==1 条件下的 rating_indif2 减去 SD==0 条件下的rating_indif2, 这样，每一个sub，计算出一个差值。另外需要注意，数据中SD==1 和SD==0的条件并不一定是固定的前后顺序能不能不使用循环就能实现计算？可以如下参考办法： df <- data.frame(sub=rep(26:28, each=2

啊啊啊啊啊吖

2018-11-07

0.0000 0 4

关于合成新数据库的问题

R语言怎么把数据框每列分割成两列，然后合并成新的数据框？比如数据如下： kk <- matrix(c("CG","CC","GG","GG","CG","CG","CC","CG","CG","CC","GG","GG"),3,4) kk <- as.data.frame(kk) 把每一列的字符串分割成两个字符，然后各自成为新的列，再进行合并。 library(stringr) split

啊啊啊啊啊吖

2018-11-07

0.0000 0 3

Brown-Mood检验

###Brown-Mood中位数检验（精确检验，正态近似，连续性修正后的正态近似） BM.test=function(x,y,alt) #alt:备择假设形式 { xy=c(x,y) md.xy=median(xy) t=sum(xy>md.xy) lx=length(x[x!=md.xy]) ly=length(y[y!=md.xy]) lxy=lx ly A=s

啊啊啊啊啊吖

2018-11-07

0.0000 0 3

k-近邻算法的一般流程

(1) 收集数据：可以使用任何方法。 (2) 准备数据：距离计算所需要的数值，最好是结构化的数据格式。 (3) 分析数据：可以使用任何方法。 (4) 训练算法：此步骤不适用于k-近邻算法。 (5) 测试算法：计算错误率。 (6) 使用算法：首先需要输入样本数据和结构化的输出结果，然后运行k-近邻算法判定输入数据分别属于哪个分类，最后应用对计算出的分类执行后续的处理。

啊啊啊啊啊吖

2018-11-07

0.0000 0 0

K-邻近算法简说和其优点

k-近邻算法采用测量不同特征值之间的距离方法进行分类。它的工作原理是：存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签。一般来说，我们只选择样本数据集中前k个最相似的数据，这就是k-近邻算

啊啊啊啊啊吖

2018-11-07

0.0000 0 1

NumPy矩阵与数组的区别

NumPy函数库中存在两种不同的数据类型（矩阵matrix和数组array），都可以用于处理行列表示的数字元素。虽然它们看起来很相似，但是在这两个数据类型上执行相同的数学运算可能得到不同的结果，其中NumPy函数库中的matrix与MATLAB中matrices等价。

啊啊啊啊啊吖

2018-11-06

0.0000 0 1

开发机器学习应用程序的步骤

开发机器学习应用程序通常遵循以下的步骤。 (1) 收集数据。我们可以使用很多方法收集样本数据，如：制作网络爬虫从网站上抽取数据、从RSS反馈或者API中得到信息、设备发送过来的实测数据（风速、血糖等）。提取数据的方法非常多，为了节省时间与精力，可以使用公开可用的数据源。 (2) 准备输入数据。得到数据之后，还必须确保数据格式符合要求，本书采用的格式是Python 语言的List。使用这种标准

啊啊啊啊啊吖

2018-11-06

0.0000 0 0

自己怎么选择合适的算法

必须考虑下面两个问题：一、使用机器学习算法的目的，想要算法完成何种任务，比如是预测明天下雨的概率还是对投票者按照兴趣分组；二、需要分析或收集的数据是什么。首先考虑使用机器学习算法的目的。如果想要预测目标变量的值，则可以选择监督学习算法，否则可以选择无监督学习算法。确定选择监督学习算法之后，需要进一步确定目标变量类型，如果目标变量是离散型，如是/否、 1/2/3、 A/B/C或者红/黄/

啊啊啊啊啊吖

2018-11-06

0.0000 0 3

用于执行分类、回归、聚类和密度估计的算法

监督学习的用途： k-近邻算法线性回归朴素贝叶斯算法局部加权线性回归支持向量机 Ridge回归决策树 lasso最小回归无监督学习的用途 K-均值最大期望算法 DBSCAN parzen窗设计

啊啊啊啊啊吖

2018-11-06

0.0000 0 2

如何将.Rdata文件转换成txt文件

使用R语言计算了SPEI和spi指数，将其保存为了.rdata格式，请问如何将.Rdata文件转换为txt格式或者xls,csv等？在R或者Rstudio中操作： load(file="AAA.Rdata") # 路径自己指明 write(BBB,file="CCC.txt") #BBB 是加载Rdata后的对象名称

啊啊啊啊啊吖

2018-11-06

0.0000 0 4

终于解决了打开aa.Rdata中的数据

如何像打开csv格式的数据一样打开aa.Rdata？谢谢！！想查看全部的aa.Rdata中的数据，因为这个数据有点多，近百个变量，近million行. aa=read.csv("aa.csv",header=TRUE,sep=",") aaa=save(aa,file="aa.Rdata") 数据量太大了，用edit(card)

啊啊啊啊啊吖

2018-11-06

0.0000 0 2

关于rdata数据抽取

有个数据提取问题，描述如下：图示为rdata里读取到的2012-2013年沪A数据我的目标是，提取（每个股票每个月）的头一个交易日和最后一个交易日所对应的数据也就是红框里的这些行。我知道得从第二列的date入手，但是每个股票以及每个月的头一个交易日和最后一个交易日，可能互不相同，没有固定日期想麻烦高手们支个招，非常感谢 a 先把2012-01-29，分开year:2

啊啊啊啊啊吖

2018-11-06

0.0000 0 0

数据转置问题

想把我的数据进行一下转置，可是转置后，我的数据第一行的变量名称就变成数据了 library(tidyverse) long.jingji <- read.csv("C:\\Users\\lenovo\\Desktop\\csv\\中国宏观经济数据库-年度数据（全国）.csv",check.names = F,header=T) new.jingji <-as.data.frame(t(l

啊啊啊啊啊吖

2018-11-06

5.6893 1 6

ggplot2 GUI

安装建议用rstudio安装（可以自动安装依赖包比较方便） a 安装后在控制台输入ggplot_shiny() a 有四种方式打开此界面 1 ggplot_gui(你的 dataframe) 2 使用自带数据集 ggplot_shiny() 3 上传你的数据文件 a 4 粘贴一些数据（需要"tidy"，依赖包里已包含） a 通过点击ggplot和plotly就可以制作图了（左侧是数据参数

啊啊啊啊啊吖

2018-11-06

0.0000 0 2

【问题求助】时间序列分解后的问题

不管用R还是Python，然后是STL分解还是普通分解，分解出来画图是正常的，但是提取残差项和趋势项时全部是NA，只有季节项有数字，请问时怎么回事？可以怎么解决？ python：用的seasonal_decompose a 分解后画图正常，但是提取时全是NA，R也是类似的 a a

啊啊啊啊啊吖

2018-11-06

0.0000 0 2

Rstudio里的快捷键

console：将光标定位到控制台 Ctrl 2 Ctrl 2 清空控制台 Ctrl L Command L 将光标定位到行首 Home Command Left 将光标定位到行末 End Command Right 在历史命令中导航 Up/Down Up/Down 弹出历史命令框 Ctrl Up Command Up 中断当前命令的执行

啊啊啊啊啊吖

2018-11-05

43.7056 1 3

【问题求助】R里内存问题

啊啊啊啊啊吖

2018-11-05

0.0000 0 1

关于统计套利里的问题

最近在做一个统计套利，mspread 一个序列，> if(mspread[t-1,1] < 0

啊啊啊啊啊吖

2018-11-05

0.0000 0 2