数据科学专业问答社区，好文章，一字千金--CDA答疑社区

Python机器学习库笔记整理

在Pthon下做机器学习，需要科学计算包和绘图库的支持，科学计算则是NumPy或SciPy，似乎NumPy更流行些。画图工具包则必定为matplotlib。这些都是开源、免费使用的，选择这些库主要的原因是做线性代数中的矩阵计算极为便利，而且效率比自己开发高的多。（1）scikit-learn [http://scikit-learn.org/] Python下做机器学习，首推s

啊啊啊啊啊吖

2018-11-09

0.0000 0 5

逻辑回归的Python实现

需要：sigmoid函数、模型主体、参数初始化、基于梯度下降的参数更新训练、数据测试与可视化展示。先定义一个 sigmoid 函数： import numpy as np def sigmoid(x): z = 1 / (1 + np.exp(-x)) return z 定义模型参数初始化函数： def initialize_params(dims):

啊啊啊啊啊吖

2018-11-09

0.0000 0 3

三行Python代码让数据预处理速度变快

Python 是机器学习领域内的首选编程语言，它易于使用，也有很多出色的库来帮助你更快处理数据。但当我们面临大量数据时，一些问题就会显现…… 目前，大数据（Big Data）这个术语通常用于表示包含数十万数据点的数据集。在这样的尺度上，工作进程中加入任何额外的计算都需要时刻注意保持效率。在设计机器学习系统时，数据预处理非常重要——在这里，我们必须对所有数据点使用某种操作。在默认情况下，Pyt

啊啊啊啊啊吖

2018-11-09

0.0000 0 2

Python删除Excel某一个单元格里的内容

假如有一系列位置信息，如[A:2],[B:5],[D:6]……等一系列位置信息，怎么用python删除这些单元格里的内容？磕磕碰碰，终于是想了一个法子。。。用pandas 读进来之后, 用iloc 或者loc 索引到你要删除的数据, 你说删除掉一行是因为你索引出来了一整行, 当然就删除一整行. 索引出来之后, 用replace 把内容替换成为 np.nan , 然后保存成excel

啊啊啊啊啊吖

2018-11-09

85.7143 1 4

关于vnpy的一些思考

在远古时代，一个恐龙还没出现的时代，一群巨大蠕虫占据了地球大陆，因为出现早而没有天敌。但要进化出高等生命，必须有结实的骨骼。在量化领域，vnpy就是这只巨大的蠕虫，正变得越来越大，爬都爬不动了，还去捕食么，自己体重就把自己压死了。 a ------------------------------------------------------- 这是3种语言的基本语句测试，JAVA是pyt

啊啊啊啊啊吖

2018-11-09

0.0000 0 2

Python的数值类型

python的数值类型很有意思：列表被称为打了激素的数值；元组里面的数不能改，可以作为函数传参；还是就是数据字典，包括键和数值；还有就是集合，集合里面的数据没有重复. list([X]) 转换为列表 set([X])集合 tuple([X]) 元组 dict([x])字典 str(X)字符串

啊啊啊啊啊吖

2018-11-09

0.0000 0 6

【问题求助】Anaconda怎么在线升级

Anaconda如何在线升级？比如现在安装的是4.0的版本，而官方已经推出了5.0版本，不想把原来的4.0卸载，直接升级到5.0版本

啊啊啊啊啊吖

2018-11-09

0.0000 0 3

按两个维度分组并求和

如何用R语言的group_by 按两个维度分组并求和原数据分组，并同时保留了企业名称和年份，并相应求和 require('tidyverse') ID <- c('a', 'a', 'a', 'b', 'b') YEAR <- c(2009, 2010, 2009, 2010, 2010) NUM <- 1:length(ID) data_frame(I

啊啊啊啊啊吖

2018-11-09

0.0000 0 4

dataframe如何去掉全是零的行

r语言的data frame数据框，如果很大，比如说有70列x1700多行，如何找到并且去掉全是零的行？ X[which(rowSums(X) > 0),]

啊啊啊啊啊吖

2018-11-09

0.2830 1 5

1.创建变量x记录5个人的名字（Michael，John，Jane，Jack，Jorge），变量y1记录数学成绩（45,65,85,95,75），y2记录语文成绩（95，85,75,64,35），y3记录英语成绩（35,65,75,95,80）；用不同方法将第二个人的数学成绩改为原成绩 5分（尽可能多种方法）。 2.将三门功课的成绩组成一矩阵，基于这个矩阵，计算每门功课的平均成绩z1和每个人的总成

啊啊啊啊啊吖

2018-11-09

0.0000 0 3

R语言里关于矩阵转换向量的问题

从原始数据中生成了矩阵，如何将这个矩阵转换成向量呢？ as.vector()就搞定啦

啊啊啊啊啊吖

2018-11-09

0.0000 0 2

garch模型添加约束的问题

想要在garch模型中添加像 alpha1=2alpha2 这样的约束：遇到一个garch模型的误差回归为 h(t)=alpha0 alpha1(0.4e^2(t-1) 0.3e^2(t-2) 0.2e^2(t-3) 0.1e^2(t-4)) 所以想到的是做一个 h(t)=alpha0 alpha1e^2(t-1) alpha2e^2(t-2) alpha3e^2(t-3) alpha4e

啊啊啊啊啊吖

2018-11-09

0.0000 0 2

R语言里如何对多个变量进行赋值

比如说，教育程度有：小学、初中、高中、大学，满意度有：差、较好、好、最好。这样的变量如何用r变为数值变量。 df <- data.frame(v1=rep(c("小", "中", "大"),each=4), v2=rep(c("满意", "一般", "很差"),times=4)) new_var <- plyr::mapvalues(df$v1,

啊啊啊啊啊吖

2018-11-09

0.0000 0 4

【问题求助】非线性回归里的问题

fdat=read.table(file="lll.txt",header = T) YM=fdatY/fdatY/fdatM LM=fdatL/fdatL/fdatM KM=fdatK/fdatM summary(YM) summary(LM) summary(KM) nl.f=nls(YM~A*(LM^a)*(KM^(1-a)),start=list(A=0.5,a=1),tra

啊啊啊啊啊吖

2018-11-09

0.0000 0 1

R里如何匹配一个反斜杠“\”

清理数据,要把反斜杠"\"换成"/". 试了一下,匹配两个反斜杠是没问题的,如下 > str_detect(tmp,"\\\\") 匹配一个反斜杠, 试了 > str_detect(tmp,"\\") Error in grepl("\\",c( balabala...: invalid regular expression '\' , reason 'Tr

啊啊啊啊啊吖

2018-11-09

0.2830 1 2

R中关于by的一个问题

> dstats <- function(x)(c(mean=mean(x), sd=sd(x))) > by(mtcars[vars],mtcars$am, dstats) Error in is.data.frame(x) : (list) object cannot be coerced to type 'double' In addition: Warning message

啊啊啊啊啊吖

2018-11-09

0.0000 0 3

stata变量，字符型如何转化成转化成日期型

在stata中有变量名date，如2007-12-31，2008-12-31，查看数据类型为s，怎样转化为日期型类型。我试了 gen x=date(date,

啊啊啊啊啊吖

2018-11-09

0.0000 0 1

【新手向】关于select参数的问题

第一个select可以运行出来，但第二个select总是说“Error in select(newds1, i1, i2, female, drinkstat) : 参数没有用(i1, i2, female, drinkstat)”，不知为何。 options(digits = 3) options(width = 72) ds=read.csv("http://www.amherst.edu/~

啊啊啊啊啊吖

2018-11-07

0.0000 0 1

R里关于计算分类变量种类的问题

我的数据框名称为gods 序号房间单价 1 102 34 2 102 56 3 102 43 4 103 56 5 104 76 6 104 44 7 105 55 8 106 22 要计算这个数据框中

啊啊啊啊啊吖

2018-11-07

46.4498 1 6

KNN算法伪代码步骤

对未知类别属性的数据集中的每个点依次执行以下操作： (1) 计算已知类别数据集中的点与当前点之间的距离； (2) 按照距离递增次序排序； (3) 选取与当前点距离最小的k个点； (4) 确定前k个点所在类别的出现频率； (5) 返回前k个点出现频率最高的类别作为当前点的预测分类

啊啊啊啊啊吖

2018-11-07

0.2830 1 1