啊啊啊啊啊吖

日期、时间解析函数

parse_datetime() 期待的是符合 ISO 8601 标准的日期时间。 ISO 8601 是一种国际标准,其中日期的各个部分按从大到小的顺序排列,即年、月、日、小时、分钟、秒:parse_datetime("2010-10-01T2010")#> [1] "2010-10-01 20:10:00 UTC"# 如果时间被省略了,那么它就会被设置为午夜parse_datetime

0.0000 0 0
  • 关注作者
  • 收藏
啊啊啊啊啊吖

关于R里因子的问题

R 使用因子表示取值范围是已知集合的分类变量。如果 parse_factor() 函数的 levels 参数被赋予一个已知向量,那么只要存在向量中没有的值,就会生成一条警告:fruit Warning: 1 pars

0.0000 0 1
  • 关注作者
  • 收藏
啊啊啊啊啊吖

R里的字符串

每个十六进制数表示信息的一个字节: 48 是 H、 61 是 a 等。从十六进制数到字符的这种映射称为编码,这个示例中的编码方式称为 ASCII。 ASCII 可以非常好地表示英文字符,因为它就是美国信息交换标准代码(American Standard Code for Information Interchange)的缩写。对于英语之外的其他语言,事情就变得更加复杂了。计算机发展的早期阶

0.0000 0 5
  • 关注作者
  • 收藏
啊啊啊啊啊吖

解析数值

解析数值似乎是非常直截了当的,但以下 3 个问题增加了数值解析的复杂性。• 世界各地的人们书写数值的方式不尽相同。例如,有些国家使用 . 来分隔实数中的整数和小数部分,而有些国家则使用 ,。• 数值周围经常有表示某种意义的其他字符,如 $1000 或 10%。• 数值经常包含“分组”,以便更易读,如 1 000 000,而且世界各地用来分组的字符也不尽相同。为了解决第一个问题, rea

0.0000 0 3
  • 关注作者
  • 收藏
啊啊啊啊啊吖

解析向量是个啥

parse_*() 函数族。这些函数接受一个字符向量,并返回一个特定向量,如逻辑、整数或日期向量:str(parse_logical(c("TRUE", "FALSE", "NA")))#> logi [1:3] TRUE FALSE NAstr(parse_integer(c("1", "2", "3")))#> int [1:3] 1 2 3str(parse_date(c("20

0.0000 0 1
  • 关注作者
  • 收藏
啊啊啊啊啊吖

tidyverse里的readr函数

library(tidyverse)readr 的多数函数用于将平面文件转换为数据框。• read_csv() 读取逗号分隔文件、 read_csv2() 读取分号分隔文件(这在用 , 表示小数位的国家非常普遍)、 read_tsv() 读取制表符分隔文件、 read_delim() 可以读取使用任意分隔符的文件。• read_fwf() 读取固定宽度的文件。既可以使用 fwf_widt

0.0000 0 1
  • 关注作者
  • 收藏
啊啊啊啊啊吖

使用tibble取子集

迄今为止,所有工具都是作用于整个数据框。如果想要提取单个变量,那么就需要一些新工具,如 $ 和 [[。 [[ 可以按名称或位置提取变量; $ 只能按名称提取变量,但可以减少一些输入:df [1] 0.434 0.395 0.548 0.762 0.254df[["x"]]#>

0.0000 0 2
  • 关注作者
  • 收藏
啊啊啊啊啊吖

tibble的打印

tibble 的打印方法进行了优化,只显示前 10 行结果,并且列也是适合屏幕的,这种方式非常适合大数据集。除了打印列名, tibble 还会打印出列的类型,这项非常棒的功能借鉴于str() 函数。tibble(a = lubridate::now() + runif(1e3) * 86400,b = lubridate::today() + runif(1e3) * 30,c = 1

0.0000 0 1
  • 关注作者
  • 收藏
啊啊啊啊啊吖

创建tibble实现简单数据框

tibble 是一种简单数据框,它对传统数据框的功能进行了一些修改,以便更易于使用。 R 是一门古老的语言,其中有些功能在 10 年或 20 年前是适用的,但现在已经过时。在不破坏现有代码的前提下,很难修改 R 的基础功能,因此多数革新都是以扩展包的方式出现的。tidyverse 的核心 R 包之一——tibble 包。library(tidyverse)tibble 是 tidyve

0.0000 0 7
  • 关注作者
  • 收藏
PGC123

Spark中RDD和DataFrame的差异

Spark目前使用的主要数据结构是RDD和DataFrame。RDD是一个原创的概念,而DataFrame是后来引入的。RDD相对灵活。你可以在RDD结构上运行许多类型的转换与计算。然而,因为它太灵活了,所以很难对其执行进行优化。另一方面,DataFrame有一定的固定结构,能利用它来优化DataFrame数据集上的执行。但是,它不具备RDD的优点,主要是没有RDD的灵活性。RDD与DataFra

0.0000 0 4
  • 关注作者
  • 收藏
CDA字幕组

干货 | 机器学习没有你想的那么复杂

作者 | Anish Phadnis翻译 | Mika本文为 CDA 数据分析师原创作品,转载需授权人脑是最神奇的。你知道我更感兴趣的是什么吗?是我们的学习能力。我们如何能够适应并学习全新的技能,然后应用到日常生活之中呢?我有一个6岁的弟弟,我看着他从懵懵懂懂的小婴儿逐渐长大。他学会了如何爬行、走路、跑;如何学会说话,理解简单的语法和简单的数学。本文中我就要谈谈如何让机器复制这种学

0.0000 0 1
  • 关注作者
  • 收藏
阿抽哥哥

Rstudio一直安装不上package咋办啊?

问题图:图中一直转圈说明找不到服务器或者网速太慢了 点开“Tools”-> “Global Options”,进入“Packages”在CRAN mirror中选择其他的镜像,例如默认的第一个镜像或者国内镜像试试

0.0000 0 1
  • 关注作者
  • 收藏
啊啊啊啊啊吖

Python里的切片

使用切片(slicing)来访问特定范围内的元素。为此,可使用两个索引,并用冒号分隔:>>> tag = 'Python web site'>>> tag[9:30]'http://www.python.org'>>> tag[32:-4]'Python web site'切片适用于提取序列的一部分,其中的编号非

0.0000 0 3
  • 关注作者
  • 收藏
啊啊啊啊啊吖

Python的序列操作-索引

序列中的所有元素都有编号——从0开始递增。你可像下面这样使用编号来访问各个元素:>>> greeting = 'Hello'>>> greeting[0]'H字符串就是由字符组成的序列。索引0指向第一个元素,这里为字母H。不同于其他一些语言, Python没有专门用于表示字符的类型,因此一个字符就是只包含一个元素的字符串。Python将从右(即从最后一个元素)开始往左数,因此1是

0.0000 0 2
  • 关注作者
  • 收藏
啊啊啊啊啊吖

分组新变量

虽然与 summarize() 函数结合起来使用是最有效的,但分组也可以与 mutate() 和 filter()函数结合,以完成非常便捷的操作。• 找出每个分组中最差的成员:flights_sml %>%group_by(year, month, day) %>%filter(rank(desc(arr_delay)) < 10)#> Source: local data fram

6.8974 1 1
  • 关注作者
  • 收藏
啊啊啊啊啊吖

按多个变量分组

当使用多个变量进行分组时,每次的摘要统计会用掉一个分组变量。这样就可以轻松地对数据集进行循序渐进的分析:daily Groups: year, m

0.0000 0 2
  • 关注作者
  • 收藏
啊啊啊啊啊吖

常用的摘要函数

not_cancelled %>%group_by(year, month, day) %>%summarize(# 平均延误时间:avg_delay1 = mean(arr_delay),# 平均正延误时间:avg_delay2 = mean(arr_delay[arr_delay > 0]))#> Source: local data frame [365 x 5]#>

0.0000 0 2
  • 关注作者
  • 收藏
啊啊啊啊啊吖

使用管道组合多种操作

假设我们想要研究每个目的地的距离和平均延误时间之间的关系。使用已经了解的 dplyr包功能,你可能会写出以下代码:by_dest

0.0000 0 3
  • 关注作者
  • 收藏
阿抽哥哥

Rstudio绘图中pch参数报错

plot(data$Age,data$Income,xlab= "年龄",ylab="收入",main = "年龄与收入的关系",sub = "来自信用卡信息",col = 28,pch=28,cex=1) 报错原因:pch控制符号的类型,可以是1到25的整数,也可以是""里的单个字符,此处pch设置为了28所以报错了。

0.0000 0 2
  • 关注作者
  • 收藏
波鲁克卢梭

numpy中添加一个维度:newaxis

问题:当我们从数组中取出一部分的数据,比如从二维数组中取一列数据,取出来之后维度却变成了一维,这时候就y需要将取出的数据还原为二维,这就需要用到numpy.newaxis. numpy中包含的newaxis可以个原数组添加一个维度;numpy.newaxis放的位置不同,产生的数组也不同.>> x = np.arange(3)>> xarray([0, 1, 2])>> x.sh

46.3710 4 2
  • 关注作者
  • 收藏

热门用户 换一批

本月PGC排行 总奖励
01
CDA持证人阿涛哥
480.0000
02
85691082
320.0000