R二项分布检验与FDR校正-CDA数据分析师官网

R二项分布检验与FDR校正

2018-03-12

R二项分布检验与FDR校正

R语言二项分布检验与FDR校正

二项分布是重复n次的实验，且每次实验都是独立的，只有两种结果，并且相互对立的，生活中最常见的是投硬币~~~在生物领域内也有很多符合此类分布的，如二倍体动物等位基因，来源于父本和母本的重组等。具体公式什么的就不写了，写个关于ASE的例子吧。

[plain] view plain copy
    # cat binom.r | R --slave --args <file>
    args <- commandArgs()
    fa <- read.table(args[4], header=FALSE, sep="\t")
    n1 = fa$V8
    n2 = fa$V12
    len = length(n1)
    pv = numeric(len)
    for(i in 1:len){
    pv[i] = 0
    if(n1[i] > n2[i]) pv[i]=binom.test(n1[i], n1[i]+n2[i], p=1/2, alternative="greater")$p.value else pv[i]=binom.test(n2[i], n1[i]+n2[i], p=1/2, alternative="greater")$p.value
    }
    qv <- p.adjust(pv, method="fdr")#fdr校正
    fa$pv = formatC(pv, digits=4)
    fa$fdr = formatC(qv, digits=4)
    write.table(fa, file=paste(args[4],".out",sep=""), sep="\t", col.names=FALSE, row.names=FALSE, quote=FALSE)

其实也不算是什么例子，就是把过程写下来熟悉一下写法而已。

通过控制FDR(False Discovery Rate)来决定P值的域值。假设你挑选了R个差异表达的基因，其中有S个是真正有差异表达的，另外有V个其实是没有差异表达的，是假阳性的。实践中希望错误比例Q＝V/R平均而言不能超过某个预先设定的值（比如0.05），在统计学上，这也就等价于控制FDR不能超过5％。对所有候选基因的p值进行从小到大排序，则若想控制fdr不能超过q，则只需找到最大的正整数i，使得 p(i)<= (i*q)/m。然后，挑选对应p(1)，p(2)，……，p(i)的基因做为差异表达基因，这样就能从统计学上保证fdr不超过q。

R语言

数据分析咨询请扫描二维码

上一篇R语言中执行二项分布检验

下一篇R语言之随机数与抽样模拟篇

R二项分布检验与FDR校正

考试指南

报考指南

热门栏目

最新资讯

政府、国央企、科研单位——中国航信-面向测试度量 ...

CDA内训丨深圳迈瑞生物医疗数据分析统计思维培训 ...

CDA数据分析师应合肥阳光新能源科技有限公司邀约开 ...

CDA走进海尔大学

苏州中行&CDA数据分析师开展数据分析师培训 ...

中国银行江苏分行-大数据应用培训

浙江农信数据建模及案例应用培训

华夏银行信用卡中心-机器学习培训

字节跳动-CDA案例实操及行业分析

长沙银行-Python集训营

数据分析在业务中的三大应用场景

AI提示词的使用方法详解及示例

CDA立足未来职场，拓展前沿视野

CDA 塑造未来职涯：构筑未来职业发展的数字基石 ...

随机森林（Random Forest）算法的优点和缺点都有哪 ...

方差分析的基本思想和原理是什么？

发现了一个好用到爆的数据分析利器

自从搞懂了回调函数，我对Python的理解上了一个台阶 ...

2020在学硕士达300万，失去学历光环的新生代何去何 ...

缓解就业焦虑的利器，证书真的越多越有保障吗？ ...