数据科学专业问答社区，好文章，一字千金--CDA答疑社区

按多个变量分组

当使用多个变量进行分组时，每次的摘要统计会用掉一个分组变量。这样就可以轻松地对数据集进行循序渐进的分析： daily <- group_by(flights, year, month, day) (per_day <- summarize(daily, flights = n())) #> Source: local data frame [365 x 4] #> Groups: year, m

啊啊啊啊啊吖

2018-11-03

0.0000 0 2

常用的摘要函数

not_cancelled %>% group_by(year, month, day) %>% summarize( # 平均延误时间： avg_delay1 = mean(arr_delay), # 平均正延误时间： avg_delay2 = mean(arr_delay[arr_delay > 0]) ) #> Source: local data frame [365 x 5] #>

啊啊啊啊啊吖

2018-11-03

0.0000 0 2

使用管道组合多种操作

假设我们想要研究每个目的地的距离和平均延误时间之间的关系。使用已经了解的 dplyr 包功能，你可能会写出以下代码： by_dest <- group_by(flights, dest) delay <- summarize(by_dest, count = n(), dist = mean(distance, na.rm = TRUE), delay = mean(arr_delay, na.

啊啊啊啊啊吖

2018-11-03

0.0000 0 3

R里的常用创建函数

算术运算符： +、 -、 *、 /、 ^ 它们都是向量化的，使用所谓的“循环法则”。如果一个参数比另一个参数短，那么前者会自动扩展到同样的长度。当某个参数是单个数值时，这种方式是最有效的： air_ time / 60、 hours * 60 + minute 等。算术运算符的另一用途是与我们后面将很快学到的聚集函数结合起来使用。例如， x / sum(x) 可以计算出各个分量在总数中的比例，

啊啊啊啊啊吖

2018-11-03

0.0000 0 2

添加新变量，我用mutate（）

除了选择现有的列，我们在用R语言做数据分析时还时常需要添加新的列，心裂是现有列的函数，mutate的存在感很强！ mutate() 总是将新列添加在数据集的最后，因此我们需要先创建一个更狭窄的数据集，以便能够看到新变量。记住，当使用 RStudio 时，查看所有列的最简单的方法就是使用 View() 函数： flights_sml <- select(flights, year:day, end

啊啊啊啊啊吖

2018-11-03

0.0000 0 2

使用select（）选择列

如今，数据集有几百甚至几千个变量已经司空见惯。这种情况下，如何找出真正感兴趣的那些变量经常是我们面临的第一个挑战。通过基于变量名的操作， select() 函数可以让你快速生成一个有用的变量子集。 select() 函数对于航班数据不是特别有用，因为其中只有 19 个变量，但你还是可以通过这个数据集了解一下 select() 函数的大致用法： # 按名称选择列 select(flights,

啊啊啊啊啊吖

2018-11-03

0.0000 0 3

R的arrange（）排列行

R里的arrange() 函数的工作方式与 filter() 函数非常相似，但前者不是选择行，而是改变行的顺序。它接受一个数据框和一组作为排序依据的列名（或者更复杂的表达式）作为参数。如果列名不只一个，那么就使用后面的列在前面排序的基础上继续排序： arrange(flights, year, month, day) #> # A tibble: 336,776 × 19 #> year mo

啊啊啊啊啊吖

2018-11-03

0.0000 0 0

用filter（）函数处理缺失值

R 的一个重要特征使得比较运算更加复杂，这个特征就是缺失值，或称 NA（not available，不可用）。 NA 表示未知的值，因此缺失值是“可传染的”。如果运算中包含了未知值，那么运算结果一般来说也是个未知值： NA > 5 #> [1] NA 10 == NA #> [1] NA NA 10 #> [1] NA NA / 2 #> [1] NA 最令人费解的是以下这个结果： NA

啊啊啊啊啊吖

2018-11-02

604.2320 2 3

filter（）函数--逻辑运算符

filter() 中的多个参数是由“与”组合起来的：每个表达式都必须为真才能让一行观测包含在输出中。如果要实现其他类型的组合，你需要使用布尔运算符：

啊啊啊啊啊吖

2018-11-02

0.0000 0 0

使用filter（）函数比较运算符

为了有效地进行筛选，你必须知道如何使用比较运算符来选择观测。 R 提供了一套标准的比较运算符： >、 >=、 <、 <=、 !=（不等于）和 ==（等于）。当开始使用 R 时，最容易犯的错误就是使用 = 而不是 == 来测试是否相等。当出现这种情况时，你会收到一条有启发性的错误消息： filter(flights, month = 1) #> Error: filter() takes u

啊啊啊啊啊吖

2018-11-02

43.7056 1 2

dplyr包-使用filter()筛选行

filter() 函数可以基于观测的值筛选出一个观测子集。第一个参数是数据框名称，第二个参数以及随后的参数是用来筛选数据框的表达式。例如，我们可以使用以下代码筛选出 1 月 1 日的所有航班： filter(flights, month == 1, day == 1) #> # A tibble: 842 × 19 #> year month day dep_time sched_dep_ti

啊啊啊啊啊吖

2018-11-02

43.7056 1 3

【新手向】R里对象名称

对象名称必须以字母开头，并且只能包含字母、数字、 _ 和 .。如果想让对象名称具有描述性，那么就应该在使用多个单词时遵循某种命名惯例。我推荐使用 snake_case 命名法，也就是使用小写单词，并用 _ 分隔： i_use_snake_case otherPeopleUseCamelCase some.people.use.periods And_aFew.People_RENOUNCEco

啊啊啊啊啊吖

2018-11-02

0.0000 0 4

ggplot2里的坐标系

坐标系可能是 ggplot2 中最复杂的部分。默认的坐标系是笛卡儿直角坐标系，可以通过其独立作用的 x 坐标和 y 坐标找到每个数据点。偶尔也会用到一些其他类型的坐标系。 coord_flip() 函数可以交换 x 轴和 y 轴。当想要绘制水平箱线图时，这非常有用。它也非常适合使用长标签，但要想在 x 轴上不重叠地安排好它们是非常困难的： ggplot(data = mpg, mapping

啊啊啊啊啊吖

2018-11-02

0.0000 0 2

ggplot2--条形图

条形图虽然简单，但很有意思，因为它可以揭示出图形中的一些微妙信息。我们看一下用 geom_bar() 函数就可以绘制的基本条形图。下面的条形图显示了 diamonds 数据集中按照 cut 变量分组的各种钻石的总数量。 diamonds 数据集是 ggplot2 的内置数据集，包含大约 54 000 颗钻石的信息，每颗钻石具有 price、 carat、 color、 clarity 和 cu

啊啊啊啊啊吖

2018-11-02

0.0000 0 1

ggplot2--分面与几何对象

分面添加额外变量的一种方法是使用图形属性。另一种方法是将图分割成多个分面，即可以显示数据子集的子图。这种方法特别适合添加分类变量。要想通过单个变量对图进行分面，可以使用函数 facet_wrap()。其第一个参数是一个公式，创建公式的方式是在 ~ 符号后面加一个变量名（这里所说的“公式”是 R 中的一种数据结构，不是数学意义上的公式）。传递给 facet_wrap() 的变量应该是离散型

啊啊啊啊啊吖

2018-11-02

0.0000 0 1

ggplot2的问题

当开始运行 R 代码时，你很可能会遇到问题。不用担心，每个人都会遇到问题。首先，将你需要运行的代码与书中的代码进行仔细对比。 R 极其挑剔，即使一个字母放错了位置，也可能会造成问题。确保每个 ( 都有一个 ) 与之匹配，并且每个 " 后面都跟着另一个 "。有时运行了代码却什么也没有发生。检查一下控制台左侧：如果有一个号，那么说明 R 认为你没有输入完整的表达式，正在等待你完成输入。

啊啊啊啊啊吖

2018-11-02

0.0000 0 3

机器学习的应用

机器学习的核心主要侧重于找到复杂数据的意义，这是一个应用广泛的任务，还有很多应用方向没有被发现。就像你可能预期的那样，机器学习的使用是非常广泛的，例如机器学习经常用于：预测选举结果识别并且过滤垃圾邮件预测犯罪活动根据路况，实现交通信号灯的自动化给出暴风雨和自然灾害后经济损失的估计检查客户流失设计自动驾驶飞机和自动驾驶汽车确定每个人捐助的能力把广告定位到特定类型的顾客现在还不用

啊啊啊啊啊吖

2018-11-02

0.0000 0 2

AUC计算--基于R

除了Logistic回归能够计算预测值与真实值的综合一致程度，也即AUC外，生存分析同样能计算AUC。但生存分析假设不同，生存函数的构建也就不尽相同。因而，不同方法计算得到的生存资料的AUC也不尽相同。同时，生存函数ROC曲线的绘制也更加复杂。下面提供几种常用的基于R计算生存资料AUC的方法，并提供两种时间依赖的生存函数的AUC计算示例。但目前来说，还没有方法可以直接比较两个生存函数的AUC是否

啊啊啊啊啊吖

2018-11-01

0.0000 0 2

用R实现生存分析

R进行生存资料分析的相对优势体现在： 1、能够更加方便快捷绘制Kaplan-Meier曲线， 2、能够相对更加美观地绘制Kaplan-Meier曲线 3、相对容易给出中位生存时间及其置信区间 4、检测比例风险假设的方法更加灵活且完善 5、易于构建时间依赖模型 library(stats) library(survival) ## Information of data data(p

啊啊啊啊啊吖

2018-11-01

138.1834 2 5

用R进行矩阵运算（6）

啊啊啊啊啊吖

2018-11-01

0.0000 0 3