数据科学专业问答社区，好文章，一字千金--CDA答疑社区

【问题求助】R里的tm包文本分析的问题

各位行业大佬，求助呀😌~~~我最近在用R做文本分析，代码下 bingqi<-lapply(bingqicsr,function(x) unlist(segmentCN(x))) 执行上述语句分词后： ...... [4] "第34期" [5] "辛"

啊啊啊啊啊吖

2018-11-05

0.0000 0 5

关于gather函数应用的问题

原来的数据格式 a 希望的数据格式 a 请问如何用gather函数进行宽变长的变换，谢谢数据： structure(list(conc = c(0, 0.05), HMP = c(71.014, 71.5105), hmpSD = c(2.16233, 0.44194), PP = c(71.014, 72.975), PPSD = c(2.16233, 1.20491), TP

啊啊啊啊啊吖

2018-11-05

0.0000 0 1

箱线图调整刻度的问题

如图： Boxplot a 如何调整刻度坐标，使不同的图放在一起比较？试试在每一个箱线图后面加上一句lines(x=c(0.8,1.2),y=c(median(Jun15Photo),median(Jun15Photo)),col='red',lwd=2)吧，lwd=2画宽点容易看到，x和y控制线段位置，y取中位数很容易理解，x嘛…… 箱线图里有一个默认的参数boxwex = 0.8，

啊啊啊啊啊吖

2018-11-05

43.7056 1 2

关于用R画某省地图的问题

需要一副地图来表示我的试验地点，由于试验点位于同一个省，所以有两个问题请教各位如何实现： 1、用R只绘制广东省的地图； 2、在地图上标注试验点（比如有7个，均有经纬度），如何用R实现？ library(ggmap) map=get_map(location="zhejiang",zoom=10,maptype='roadmap') 刚翻出来的#location代表地方，也可以用locatio

啊啊啊啊啊吖

2018-11-05

0.0000 0 2

关于R语言脚本文件的问题

a 第二张画出的图把第一张覆盖了，代码第一行加上par(ask=T)

啊啊啊啊啊吖

2018-11-05

0.0000 0 2

Rstudio保存script文件的问题

如图，Rstudio保存script文件出现如下选项是什么意思？ a 出现这种情况怎么办呢？设置文件编码格式，UTF-8,然后选择set as default 就行了

啊啊啊啊啊吖

2018-11-05

0.0000 0 1

刚开始学习使用R软件，想做meta分析。但是第一步就出现了问题，“metafor"软件包可以安装，但每次都加载失败，超级困扰。 > utils:::menuInstallLocal() 程序包‘metafor’打开成功，MD5和检查也通过 > local({pkg <- select.list(sort(.packages(all.available = TRUE)),graphics=TRUE)

啊啊啊啊啊吖

2018-11-05

0.0000 0 1

R里的dplyr包能做啥

只涉及一张数据表的数据分析是非常罕见的。通常来说，你会有很多个数据表，而且必须综合使用它们才能回答你所感兴趣的问题。存在于多个表中的这种数据统称为关系数据，因为重要的是数据间的关系，而不是单个数据集。关系总是定义于两张表之间。其他所有关系都是建立在这种简单思想之上：三张或更多表之间的关系总是可以用每两个表之间关系表示出来。有时关系涉及的两个表甚至就是同一张！例如，如果你有一张人员表，那么

啊啊啊啊啊吖

2018-11-04

0.0000 0 4

日期、时间解析函数

parse_datetime() 期待的是符合 ISO 8601 标准的日期时间。 ISO 8601 是一种国际标准，其中日期的各个部分按从大到小的顺序排列，即年、月、日、小时、分钟、秒： parse_datetime("2010-10-01T2010") #> [1] "2010-10-01 20:10:00 UTC" # 如果时间被省略了，那么它就会被设置为午夜 parse_datetime

啊啊啊啊啊吖

2018-11-04

0.0000 0 0

关于R里因子的问题

R 使用因子表示取值范围是已知集合的分类变量。如果 parse_factor() 函数的 levels 参数被赋予一个已知向量，那么只要存在向量中没有的值，就会生成一条警告： fruit <- c("apple", "banana") parse_factor(c("apple", "banana", "bananana"), levels = fruit) #> Warning: 1 pars

啊啊啊啊啊吖

2018-11-04

0.0000 0 1

R里的字符串

每个十六进制数表示信息的一个字节： 48 是 H、 61 是 a 等。从十六进制数到字符的这种映射称为编码，这个示例中的编码方式称为 ASCII。 ASCII 可以非常好地表示英文字符，因为它就是美国信息交换标准代码（American Standard Code for Information Interchange）的缩写。对于英语之外的其他语言，事情就变得更加复杂了。计算机发展的早期阶

啊啊啊啊啊吖

2018-11-04

0.0000 0 5

解析数值

解析数值似乎是非常直截了当的，但以下 3 个问题增加了数值解析的复杂性。 • 世界各地的人们书写数值的方式不尽相同。例如，有些国家使用 . 来分隔实数中的整数和小数部分，而有些国家则使用 ,。 • 数值周围经常有表示某种意义的其他字符，如 $1000 或 10%。 • 数值经常包含“分组”，以便更易读，如 1 000 000，而且世界各地用来分组的字符也不尽相同。为了解决第一个问题， rea

啊啊啊啊啊吖

2018-11-04

0.0000 0 3

解析向量是个啥

parse_*() 函数族。这些函数接受一个字符向量，并返回一个特定向量，如逻辑、整数或日期向量： str(parse_logical(c("TRUE", "FALSE", "NA"))) #> logi [1:3] TRUE FALSE NA str(parse_integer(c("1", "2", "3"))) #> int [1:3] 1 2 3 str(parse_date(c("20

啊啊啊啊啊吖

2018-11-04

0.0000 0 1

tidyverse里的readr函数

library(tidyverse) readr 的多数函数用于将平面文件转换为数据框。 • read_csv() 读取逗号分隔文件、 read_csv2() 读取分号分隔文件（这在用 , 表示小数位的国家非常普遍）、 read_tsv() 读取制表符分隔文件、 read_delim() 可以读取使用任意分隔符的文件。 • read_fwf() 读取固定宽度的文件。既可以使用 fwf_widt

啊啊啊啊啊吖

2018-11-04

0.0000 0 1

使用tibble取子集

迄今为止，所有工具都是作用于整个数据框。如果想要提取单个变量，那么就需要一些新工具，如 $ 和 [[。 [[ 可以按名称或位置提取变量； $ 只能按名称提取变量，但可以减少一些输入： df <- tibble( x = runif(5), y = rnorm(5) ) # 按名称提取 df$x #> [1] 0.434 0.395 0.548 0.762 0.254 df[["x"]] #>

啊啊啊啊啊吖

2018-11-04

0.0000 0 2

tibble的打印

tibble 的打印方法进行了优化，只显示前 10 行结果，并且列也是适合屏幕的，这种方式非常适合大数据集。除了打印列名， tibble 还会打印出列的类型，这项非常棒的功能借鉴于 str() 函数。 tibble( a = lubridate::now() + runif(1e3) * 86400, b = lubridate::today() + runif(1e3) * 30, c = 1

啊啊啊啊啊吖

2018-11-04

0.0000 0 1

创建tibble实现简单数据框

tibble 是一种简单数据框，它对传统数据框的功能进行了一些修改，以便更易于使用。 R 是一门古老的语言，其中有些功能在 10 年或 20 年前是适用的，但现在已经过时。在不破坏现有代码的前提下，很难修改 R 的基础功能，因此多数革新都是以扩展包的方式出现的。 tidyverse 的核心 R 包之一——tibble 包。 library(tidyverse) tibble 是 tidyve

啊啊啊啊啊吖

2018-11-04

0.0000 0 7

Python里的切片

使用切片（slicing）来访问特定范围内的元素。为此，可使用两个索引，并用冒号分隔： >>> tag = 'Python web site' >>> tag[9:30] 'http://www.python.org' >>> tag[32:-4] 'Python web site' 切片适用于提取序列的一部分，其中的编号非

啊啊啊啊啊吖

2018-11-03

0.0000 0 3

Python的序列操作-索引

序列中的所有元素都有编号——从0开始递增。你可像下面这样使用编号来访问各个元素： >>> greeting = 'Hello' >>> greeting[0] 'H 字符串就是由字符组成的序列。索引0指向第一个元素，这里为字母H。不同于其他一些语言， Python没有专门用于表示字符的类型，因此一个字符就是只包含一个元素的字符串。 Python将从右（即从最后一个元素）开始往左数，因此1是

啊啊啊啊啊吖

2018-11-03

0.0000 0 2

分组新变量

虽然与 summarize() 函数结合起来使用是最有效的，但分组也可以与 mutate() 和 filter() 函数结合，以完成非常便捷的操作。 • 找出每个分组中最差的成员： flights_sml %>% group_by(year, month, day) %>% filter(rank(desc(arr_delay)) < 10) #> Source: local data fram

啊啊啊啊啊吖

2018-11-03

6.8974 1 1