trans
trans
0.背景知识1.随机去重2.保留行和/行平均值最大的探针.求平均值
0.背景知识
trans_array这个函数的作用是将探针表达矩阵转换为基因表达矩阵。
因为探针和基因不是一一对应的关系,会存在多个探针对应同一个基因的情况。例如AAMDC这个基因有三个探针:
代码语言:javascript代码运行次数:0运行复制rm(list = ls())
load("exp_ids.Rdata")
ids0 = ids[ids$symbol=="AAMDC",]
ids0
代码语言:javascript代码运行次数:0运行复制## probe_id symbol
## 24890 220268_at AAMDC
## 26046 221599_at AAMDC
## 26047 221600_s_at AAMDC
首先,多个探针对应同一个基因的问题是必须要处理的,因为最终的分析是以基因为单位,一个基因在一个样本里只能有一个表达量,在一次差异分析中只能有一个logFC,不能有多个啊。
我只设置了一种转换方式,就是按照symbol去重复,只保留每个基因的第一个探针。
其实全部的处理的方法有三种:
1.随机去重,保留任何一个探针都可以
2.保留行和/行平均值最大的探针
.取多个探针的平均值
采取这三种方法都是可以的,没有标准答案哦!
1.随机去重
因为这些探针也没什么主次和顺序,所以直接用R语言里的去重复函数搞一下就可以。trans_array这个函数采用的就是直接去重,这个例子里就会保留第一个探针。
可以验证一下啊:
代码语言:javascript代码运行次数:0运行复制exp0 = exp[ids0$probe_id,]
exp0
代码语言:javascript代码运行次数:0运行复制## GSM17577 GSM175774 GSM175775 GSM175776 GSM175777
## 220268_at .801755 .951920 4.00415 .9421 4.21515
## 221599_at 8.42928 8.96561 8.6902 7.495108 7.612667
## 221600_s_at 7.922799 7.75878 7.76548 7.195104 7.262884
## GSM175778
## 220268_at 4.2421
## 221599_at 7.46824
## 221600_s_at 7.2711
代码语言:javascript代码运行次数:0运行复制library(tinyarray)
exp1 = trans_array(exp,ids)
exp1[1:4,1:4]
代码语言:javascript代码运行次数:0运行复制## GSM17577 GSM175774 GSM175775 GSM175776
## DDR1 8.126595 8.75204 8.216957 8.909610
## RFC2 6.02881 6.254986 6.517528 7.29964
## HSPA6 6.97190 6.586626 6.58798 5.501578
## PAX8 7.517 7.50148 8.15091 8.57925
可以看到已经变成基因为行名的表达矩阵了。把AAMDC对应的表达量提取出来,和第一个探针的表达量放一起:
代码语言:javascript代码运行次数:0运行复制exp1["AAMDC",]
代码语言:javascript代码运行次数:0运行复制## GSM17577 GSM175774 GSM175775 GSM175776 GSM175777 GSM175778
## .801755 .951920 4.00415 .9421 4.21515 4.2421
代码语言:javascript代码运行次数:0运行复制exp["220268_at",]
代码语言:javascript代码运行次数:0运行复制## GSM17577 GSM175774 GSM175775 GSM175776 GSM175777 GSM175778
## .801755 .951920 4.00415 .9421 4.21515 4.2421
一模一样的。
2.保留行和/行平均值最大的探针
这个也是常见的去重策略之一。因为我不想这样搞(此处省略一些理由),所以就没在函数里设置直接的参数。
但是我收到学生许愿了!主打一个有求必应,所以就来写了。
办法就是
代码语言:javascript代码运行次数:0运行复制load("exp_ids.Rdata")
ids = ids[ids$probe_id %in% rownames(exp),]
exp = exp[ids$probe_id,]
identical(ids$probe_id,rownames(exp)) #他俩的顺序已经相同了
代码语言:javascript代码运行次数:0运行复制## [1] TRUE
代码语言:javascript代码运行次数:0运行复制ids = ids[order(rowSums(exp),decreasing = T),] #ids可以使用rowSums求和的顺序来排序,从大到小排,最大的在上面
library(tinyarray)
exp2 = trans_array(exp,ids)
%in% 和order都是R语言基础里面顶呱呱的函数。可以自行查阅帮助文档
让我们来检查一下:
代码语言:javascript代码运行次数:0运行复制rowSums(exp0)
代码语言:javascript代码运行次数:0运行复制## 220268_at 221599_at 221600_s_at
## 24.14879 47.76652 45.2218
(行平均值就是行和➗样本数量,样本数量是固定的,所以行和最大就是行平均值最大)
可见行和最大的探针是221599_at,按照这种方法,这个探针的表达量应该被作为基因表达量。check之:
代码语言:javascript代码运行次数:0运行复制exp2["AAMDC",]
代码语言:javascript代码运行次数:0运行复制## GSM17577 GSM175774 GSM175775 GSM175776 GSM175777 GSM175778
## 8.42928 8.96561 8.6902 7.495108 7.612667 7.46824
代码语言:javascript代码运行次数:0运行复制exp0["221599_at",]
代码语言:javascript代码运行次数:0运行复制## GSM17577 GSM175774 GSM175775 GSM175776 GSM175777 GSM175778
## 8.42928 8.96561 8.6902 7.495108 7.612667 7.46824
同样是一模一样哦
.求平均值
这个方法不需要tinyarray
代码语言:javascript代码运行次数:0运行复制load("exp_ids.Rdata")
exp = exp[ids$probe_id,]
rownames(exp) = ids$symbol
exp[1:4,1:4]
代码语言:javascript代码运行次数:0运行复制## GSM17577 GSM175774 GSM175775 GSM175776
## DDR1 8.126595 8.75204 8.216957 8.909610
## RFC2 6.02881 6.254986 6.517528 7.29964
## HSPA6 6.97190 6.586626 6.58798 5.501578
## PAX8 7.517 7.50148 8.15091 8.57925
代码语言:javascript代码运行次数:0运行复制exp = limma::avereps(exp)
这种方法计算出来的是平均值,check之:
代码语言:javascript代码运行次数:0运行复制exp["AAMDC",]
代码语言:javascript代码运行次数:0运行复制## GSM17577 GSM175774 GSM175775 GSM175776 GSM175777 GSM175778
## 6.717961 6.702406 6.71288 6.211148 6.6022 6.41789
代码语言:javascript代码运行次数:0运行复制colMeans(exp0)
代码语言:javascript代码运行次数:0运行复制## GSM17577 GSM175774 GSM175775 GSM175776 GSM175777 GSM175778
## 6.717961 6.702406 6.71288 6.211148 6.6022 6.41789
本文参与 腾讯云自媒体同步曝光计划,分享自。原始发表:2024-07-11,如有侵权请联系 cloudcommunity@tencent 删除函数基础排序 #感谢您对电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格的认可,转载请说明来源于"电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格
上一篇:log10数据要当心
推荐阅读
留言与评论(共有 17 条评论) |
本站网友 今天油价多少 | 14分钟前 发表 |
1 | |
本站网友 黄村租房 | 27分钟前 发表 |
所以行和最大就是行平均值最大)可见行和最大的探针是221599_at | |
本站网友 瑞兰2号多少钱一只 | 11分钟前 发表 |
4] 代码语言:javascript代码运行次数:0运行复制## GSM17577 GSM175774 GSM175775 GSM175776 ## DDR1 8.126595 8.75204 8.216957 8.909610 ## RFC2 6.02881 6.254986 6.517528 7.29964 ## HSPA6 6.97190 6.586626 6.58798 5.501578 ## PAX8 7.517 7.50148 8.15091 8.57925 可以看到已经变成基因为行名的表达矩阵了 | |
本站网友 amf | 2分钟前 发表 |
2.保留行和/行平均值最大的探针这个也是常见的去重策略之一 | |
本站网友 草长莺飞二月天 | 15分钟前 发表 |
所以行和最大就是行平均值最大)可见行和最大的探针是221599_at | |
本站网友 1115 | 6分钟前 发表 |
会存在多个探针对应同一个基因的情况 | |
本站网友 广州宝宝爬行比赛 | 28分钟前 发表 |
] identical(ids$probe_id | |
本站网友 华为中兴 | 4分钟前 发表 |
1 | |
本站网友 qq家 | 16分钟前 发表 |
] #ids可以使用rowSums求和的顺序来排序 | |
本站网友 哺乳期怎么减肥 | 9分钟前 发表 |
按照这种方法 | |
本站网友 路路通的功效与作用 | 1分钟前 发表 |
这个探针的表达量应该被作为基因表达量 | |
本站网友 花园宝宝下载 | 9分钟前 发表 |
会存在多个探针对应同一个基因的情况 | |
本站网友 钢铁企业排名 | 10分钟前 发表 |
这个例子里就会保留第一个探针 | |
本站网友 吃什么可以减肥 | 27分钟前 发表 |
这个例子里就会保留第一个探针 | |
本站网友 上海网络公司 | 27分钟前 发表 |
] exp0 代码语言:javascript代码运行次数:0运行复制## GSM17577 GSM175774 GSM175775 GSM175776 GSM175777 ## 220268_at .801755 .951920 4.00415 .9421 4.21515 ## 221599_at 8.42928 8.96561 8.6902 7.495108 7.612667 ## 221600_s_at 7.922799 7.75878 7.76548 7.195104 7.262884 ## GSM175778 ## 220268_at 4.2421 ## 221599_at 7.46824 ## 221600_s_at 7.2711 代码语言:javascript代码运行次数:0运行复制library(tinyarray) exp1 = trans_array(exp | |
本站网友 麦奇教育集团 | 23分钟前 发表 |
就是按照symbol去重复 |