数据科学专业问答社区，好文章，一字千金--CDA答疑社区

CDA数据科学研究院 CDA考试中心 CDA网校企业服务

CDA社区

CDA竞赛 CDA技术答疑 CDA俱乐部

关于CDA APP下载

免密码登录

提交首次登录验证后自动注册

展开 +

啊啊啊啊啊吖

【新手向】R如何控制结果小数点位数

如何在R软件中设置：计算小数点后面只保留4位数？用print(x, digits = getOption("digits"))这样就可以针对具体的数值设定小数位。如：> x print(x,digits=5)[1] 3.1416

0.0000 0 3

啊啊啊啊啊吖

关于Fisher's exact计算的问题

这两天在看一篇论文，文中用到了Fisher's exact p值的计算。作者给的原始数据是（14，8606，21，10197659），计算出的p值是2.12E-34。由于我学R没有多长时间，便试着在R 2.15.2中再次验算，居然算出结果是2.2E-16。我觉得这两个结果之间差距太大了，于是请教了一个师兄，nice的帮我解答了一下，分享给大家参考。> fisher.test(matrix(c(1

0.0000 0 3

啊啊啊啊啊吖

面板分位数回归模型基于R

R软件程序脚本：rq.fit.panel

0.0000 0 0

自由度如何理解

自由度：取值不受限制的变量的个数。如何理解这句简单的话呢？给定一组数据，我们来计算不同的统计量，看看自由度的变化。这些数据分别为 1 2 4 6 8. 5个数。先来求平均值，这几个数据都可以任意变化成其它数据，而我们仍然可以对它们求平均值，它们的平均值也跟着变化。这时自由度为5，也就是说有几个数据自由度就是几。1）当我们来计算方差时，我们要先计算平均值，下一步再计算方差，计算完平均值后，我们

176.9019 2 2

Hive4种排序

order by：可以指定desc 降序 asc 升序 order by会对输入做全局排序，因此只有一个Reducer(多个Reducer无法保证全局有序)，然而只有一个Reducer，会导致当输入规模较大时，消耗较长的计算时间。sort by ：对分区内的数据进行排序sort by不是全局排序，其在数据进入reducer前完成排序，因此，如果用sort by进行排序，并且设置ma

0.0000 0 2

Hive数据仓库于数据库的异同

(1）由于Hive采用了SQL的查询语言HQL，因此很容易将Hive理解为数据库。其实从结构上来看，Hive和数据库除了拥有类似的查询语言，再无类似之处（2）数据存储位置。 hdfs raw local fs（3）数据格式。分隔符（4）数据更新。hive读多写少。Hive中不支持对数据的改写和添加，所有的数据都是在加载的时候中确定好的。INSERT INTO … VALU

9.7428 1 4

hive表关联查询，如何解决数据倾斜的问题?

倾斜原因：map输出数据按key Hash的分配到reduce中，由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。1)、key分布不均匀;2)、业务数据本身的特性;3)、建表时考虑不周;4)、某些SQL语句本身就有数据倾斜;如何避免：对于key为空产生的数据倾斜，可以对其赋予一个随机值。解决方案1>.参数调节：

9.7428 1 2

hive和HBASE区别有哪些？

1、hive是sql语言，通过数据库的方式来操作hdfs文件系统，为了简化编程，底层计算方式为mapreduce。 2、hive是面向行存储的数据库。 3、Hive本身不存储和计算数据，它完全依赖于HDFS和MapReduce，Hive中的表纯逻辑。 4、HBase为查询而生的，它通过组织起节点內所有机器的內存，提供一個超大的內存Hash表。5、hbase不是关系型数据库，而是一

0.0000 0 5

啊啊啊啊啊吖

用R绘制地图的一些包

这个是忙了好些天整理提取出来的中国地区底图文件，是R软件绘图必备的资料！供大家参考！# rm(list=ls())# setwd('d:/zlh/zlh cs/Rmap/')# library('geoR')# library('maps')# library('GISTools')# library("akima")# library("tseries")# library('s

0.0000 0 4

啊啊啊啊啊吖

如何提取时间序列中的数据

如题，怎么从时间序列中提取出同年不同月的数据啊呢？要是想合并的话不如一开始就用matrixsales

0.0000 0 0

字典的去重计数。

python的数据结构-字典，有一个特性。可以在计数的时候，去重，这比使用列表来计数容易得多字典能够检索内部的键，如果有，就将值 1；如果没有，就新添加一个键，并且值 1.如下：x='abcdaacdefg'y = {}for i in range(len(x)): if x.count(x[i]) >=1: y[x[i]] = x.count(x[i])pr

11.4127 1 4

常用激化函数

1）sigmoid：将输出实值压缩到0-1之间。缺点：（输入非常大或非常小的时候）容易梯度消失；sigmoid函数是非0均值的，下一层的神经元将从上一层神经元得到的非0 均值的信号作为输入，再结合w计算梯度，始终都是正的。（可根据batch调节）2）Tanh：是0均值的。3）Relu（修正线性单元）：好处：收敛快，求梯度简单。具有稀疏特性。（相比于sigmoid：sigmoid反向传播

0.0000 0 1

啊啊啊啊啊吖

直方图让如何显著性标记

# loading needed librarieslibrary(ggstatsplot)library(psych)library(dplyr) # looking at the structure of the data using glimpsedplyr::glimpse(x = psych::sat.act)#> Observations: 700#> Variable

0.0000 0 4

KD树是怎样进行搜索的？

1、首先从根节点开始递归往下找到包含x的叶子节点，每一层都是找对应的xi2、将这个叶子节点认为是当前的“近似最近点”3、递归向上回退，如果以x圆心，以“近似最近点”为半径的球与根节点的另一半子区域边界相交，则说明另一半子区域中存在与x更近的点，则进入另一个子区域中查找该点并且更新”近似最近点“4、重复3的步骤，直到另一子区域与球体不相交或者退回根节点5、最后更新的”近似最近点“与x

0.0000 0 4

啊啊啊啊啊吖

用R绘制地图（2）

ESRI公司的Shapefile文件是描述空间数据的几何和属性特征的矢量数据结构的一种格式。一个Shapefile文件最少包括三个文件：主文件(.shp):存储地理要素的几何图形的文件；索引文件(.shx):存储图形要素与属性信息索引的文件; dBASE表文件(*.dbf):存储要素信息属性的dBase表文件。除此之外还有可选的文件包括：空间参考文件(.prj), 几何体的空间索引文件(

0.0000 0 1

啊啊啊啊啊吖

用R绘制地图（1）

本文主要包含三种绘制地图的方法：绘制基础地图、基于空间数据格式（shapefile）绘制地图以及如何调用百度地图和谷歌地图的数据来绘制地图。基础地图方法从map()包里获取地图数据，用geom_polygon()（可以用颜色填充）或者geom_path()（不能填充）绘制。1. #install.packages("ggplot2")2. # 中国地图绘制等

0.0000 0 2

如何构建KD树？

KD树是一个二叉树，表示对K维空间的一个划分，可以进行快速检索（那KNN计算的时候不需要对全样本进行距离的计算了）在k维的空间上循环找子区域的中位数进行划分的过程。假设现在有K维空间的数据集：1、首先构造根节点，以坐标的中位数b为切分点，将根结点对应的矩形局域划分为两个区域，区域1中,区域2中2、构造叶子节点，分别以上面两个区域中的中位数作为切分点，再次将他们两两划分，作为深度1的

9.7428 1 2

啊啊啊啊啊吖

R里循环语句笔记分享（4）

R语言中的循环函数（Grouping Function） R语言中有几个常用的函数，可以按组对数据进行处理，apply, lapply, sapply, tapply, mapply,等。这几个函数功能有些类似，下面介绍下这几个函数的用法。Apply这是对一个Matrix或者Array进行某个维度的运算。其格式是：Apply(数据,维度Index,运算函数,函数的参数)对于Matrix来说

0.0000 0 1

啊啊啊啊啊吖

R里的循环语句笔记分享（3）

R今天在做一个项目的时候发现R剔除重复值比较困难，百度之后找到了解决办法：如果有下列的数据> a 公司比例1 a 0.42 a 0.33 a 0.24 b 0.55 b 0.4如果想仅保留每个公司的第一条数据，可使用如下方法> duplicated(a$公司)[1] FALSE TRUE TRUE FALSE TRUE> b

0.0000 0 8

啊啊啊啊啊吖

R里的循环语句笔记（2）

### for循环与算法test.sum

0.0000 0 2

<1…118411851186…1215>

快速发帖我要提问

数据分析师求职、备考、笔试
刷题神器！

社区福利马上领

热门用户换一批

: 詹惠儿

: 赵娜0418

: shauna570392

: 啊啊啊啊啊吖

: liting李

: 读童话的狼

本月PGC排行

总奖励

01: CDA持证人阿涛哥; 480.0000

02: 85691082; 320.0000