您现在的位置是:首页 > 编程 > 

trans

2025-07-27 02:57:34
trans 0.背景知识1.随机去重2.保留行和/行平均值最大的探针.求平均值 0.背景知识trans_array这个函数的作用是将探针表达矩阵转换为基因表达矩阵。因为探针和基因不是一一对应的关系,会存在多个探针对应同一个基因的情况。例如AAMDC这个基因有三个探针:代码语言:javascript代码运行次数:0运行复制rm(list = ls()) load("exp_ids.Rda

trans

0.背景知识1.随机去重2.保留行和/行平均值最大的探针.求平均值

0.背景知识

trans_array这个函数的作用是将探针表达矩阵转换为基因表达矩阵。

因为探针和基因不是一一对应的关系,会存在多个探针对应同一个基因的情况。例如AAMDC这个基因有三个探针:

代码语言:javascript代码运行次数:0运行复制
rm(list = ls())
load("exp_ids.Rdata")
ids0 = ids[ids$symbol=="AAMDC",]
ids0
代码语言:javascript代码运行次数:0运行复制
##          probe_id symbol
## 24890   220268_at  AAMDC
## 26046   221599_at  AAMDC
## 26047 221600_s_at  AAMDC

首先,多个探针对应同一个基因的问题是必须要处理的,因为最终的分析是以基因为单位,一个基因在一个样本里只能有一个表达量,在一次差异分析中只能有一个logFC,不能有多个啊。

我只设置了一种转换方式,就是按照symbol去重复,只保留每个基因的第一个探针。

其实全部的处理的方法有三种:

1.随机去重,保留任何一个探针都可以

2.保留行和/行平均值最大的探针

.取多个探针的平均值

采取这三种方法都是可以的,没有标准答案哦!

1.随机去重

因为这些探针也没什么主次和顺序,所以直接用R语言里的去重复函数搞一下就可以。trans_array这个函数采用的就是直接去重,这个例子里就会保留第一个探针。

可以验证一下啊:

代码语言:javascript代码运行次数:0运行复制
exp0 = exp[ids0$probe_id,]
exp0
代码语言:javascript代码运行次数:0运行复制
##             GSM17577 GSM175774 GSM175775 GSM175776 GSM175777
## 220268_at    .801755  .951920  4.00415  .9421  4.21515
## 221599_at    8.42928  8.96561  8.6902  7.495108  7.612667
## 221600_s_at  7.922799  7.75878  7.76548  7.195104  7.262884
##             GSM175778
## 220268_at    4.2421
## 221599_at    7.46824
## 221600_s_at  7.2711
代码语言:javascript代码运行次数:0运行复制
library(tinyarray)
exp1 = trans_array(exp,ids)
exp1[1:4,1:4]
代码语言:javascript代码运行次数:0运行复制
##       GSM17577 GSM175774 GSM175775 GSM175776
## DDR1   8.126595  8.75204  8.216957  8.909610
## RFC2   6.02881  6.254986  6.517528  7.29964
## HSPA6  6.97190  6.586626  6.58798  5.501578
## PAX8   7.517  7.50148  8.15091  8.57925

可以看到已经变成基因为行名的表达矩阵了。把AAMDC对应的表达量提取出来,和第一个探针的表达量放一起:

代码语言:javascript代码运行次数:0运行复制
exp1["AAMDC",]
代码语言:javascript代码运行次数:0运行复制
## GSM17577 GSM175774 GSM175775 GSM175776 GSM175777 GSM175778 
##  .801755  .951920  4.00415  .9421  4.21515  4.2421
代码语言:javascript代码运行次数:0运行复制
exp["220268_at",]
代码语言:javascript代码运行次数:0运行复制
## GSM17577 GSM175774 GSM175775 GSM175776 GSM175777 GSM175778 
##  .801755  .951920  4.00415  .9421  4.21515  4.2421

一模一样的。

2.保留行和/行平均值最大的探针

这个也是常见的去重策略之一。因为我不想这样搞(此处省略一些理由),所以就没在函数里设置直接的参数。

但是我收到学生许愿了!主打一个有求必应,所以就来写了。

办法就是

代码语言:javascript代码运行次数:0运行复制
load("exp_ids.Rdata")
ids = ids[ids$probe_id %in% rownames(exp),]
exp = exp[ids$probe_id,]
identical(ids$probe_id,rownames(exp)) #他俩的顺序已经相同了
代码语言:javascript代码运行次数:0运行复制
## [1] TRUE
代码语言:javascript代码运行次数:0运行复制
ids = ids[order(rowSums(exp),decreasing = T),] #ids可以使用rowSums求和的顺序来排序,从大到小排,最大的在上面
library(tinyarray)
exp2 = trans_array(exp,ids)

%in% 和order都是R语言基础里面顶呱呱的函数。可以自行查阅帮助文档

让我们来检查一下:

代码语言:javascript代码运行次数:0运行复制
rowSums(exp0)
代码语言:javascript代码运行次数:0运行复制
##   220268_at   221599_at 221600_s_at 
##    24.14879    47.76652    45.2218

(行平均值就是行和➗样本数量,样本数量是固定的,所以行和最大就是行平均值最大)

可见行和最大的探针是221599_at,按照这种方法,这个探针的表达量应该被作为基因表达量。check之:

代码语言:javascript代码运行次数:0运行复制
exp2["AAMDC",]
代码语言:javascript代码运行次数:0运行复制
## GSM17577 GSM175774 GSM175775 GSM175776 GSM175777 GSM175778 
##  8.42928  8.96561  8.6902  7.495108  7.612667  7.46824
代码语言:javascript代码运行次数:0运行复制
exp0["221599_at",]
代码语言:javascript代码运行次数:0运行复制
## GSM17577 GSM175774 GSM175775 GSM175776 GSM175777 GSM175778 
##  8.42928  8.96561  8.6902  7.495108  7.612667  7.46824

同样是一模一样哦

.求平均值

这个方法不需要tinyarray

代码语言:javascript代码运行次数:0运行复制
load("exp_ids.Rdata")
exp = exp[ids$probe_id,]
rownames(exp) = ids$symbol
exp[1:4,1:4]
代码语言:javascript代码运行次数:0运行复制
##       GSM17577 GSM175774 GSM175775 GSM175776
## DDR1   8.126595  8.75204  8.216957  8.909610
## RFC2   6.02881  6.254986  6.517528  7.29964
## HSPA6  6.97190  6.586626  6.58798  5.501578
## PAX8   7.517  7.50148  8.15091  8.57925
代码语言:javascript代码运行次数:0运行复制
exp = limma::avereps(exp)

这种方法计算出来的是平均值,check之:

代码语言:javascript代码运行次数:0运行复制
exp["AAMDC",]
代码语言:javascript代码运行次数:0运行复制
## GSM17577 GSM175774 GSM175775 GSM175776 GSM175777 GSM175778 
##  6.717961  6.702406  6.71288  6.211148  6.6022  6.41789
代码语言:javascript代码运行次数:0运行复制
colMeans(exp0)
代码语言:javascript代码运行次数:0运行复制
## GSM17577 GSM175774 GSM175775 GSM175776 GSM175777 GSM175778 
##  6.717961  6.702406  6.71288  6.211148  6.6022  6.41789
本文参与 腾讯云自媒体同步曝光计划,分享自。原始发表:2024-07-11,如有侵权请联系 cloudcommunity@tencent 删除函数基础排序

#感谢您对电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格的认可,转载请说明来源于"电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格

本文地址:http://www.dnpztj.cn/biancheng/1237010.html

相关标签:无
上传时间: 2025-07-26 17:28:11
留言与评论(共有 17 条评论)
本站网友 今天油价多少
14分钟前 发表
1
本站网友 黄村租房
27分钟前 发表
所以行和最大就是行平均值最大)可见行和最大的探针是221599_at
本站网友 瑞兰2号多少钱一只
11分钟前 发表
4] 代码语言:javascript代码运行次数:0运行复制## GSM17577 GSM175774 GSM175775 GSM175776 ## DDR1 8.126595 8.75204 8.216957 8.909610 ## RFC2 6.02881 6.254986 6.517528 7.29964 ## HSPA6 6.97190 6.586626 6.58798 5.501578 ## PAX8 7.517 7.50148 8.15091 8.57925 可以看到已经变成基因为行名的表达矩阵了
本站网友 amf
2分钟前 发表
2.保留行和/行平均值最大的探针这个也是常见的去重策略之一
本站网友 草长莺飞二月天
15分钟前 发表
所以行和最大就是行平均值最大)可见行和最大的探针是221599_at
本站网友 1115
6分钟前 发表
会存在多个探针对应同一个基因的情况
本站网友 广州宝宝爬行比赛
28分钟前 发表
] identical(ids$probe_id
本站网友 华为中兴
4分钟前 发表
1
本站网友 qq家
16分钟前 发表
] #ids可以使用rowSums求和的顺序来排序
本站网友 哺乳期怎么减肥
9分钟前 发表
按照这种方法
本站网友 路路通的功效与作用
1分钟前 发表
这个探针的表达量应该被作为基因表达量
本站网友 花园宝宝下载
9分钟前 发表
会存在多个探针对应同一个基因的情况
本站网友 钢铁企业排名
10分钟前 发表
这个例子里就会保留第一个探针
本站网友 吃什么可以减肥
27分钟前 发表
这个例子里就会保留第一个探针
本站网友 上海网络公司
27分钟前 发表
] exp0 代码语言:javascript代码运行次数:0运行复制## GSM17577 GSM175774 GSM175775 GSM175776 GSM175777 ## 220268_at .801755 .951920 4.00415 .9421 4.21515 ## 221599_at 8.42928 8.96561 8.6902 7.495108 7.612667 ## 221600_s_at 7.922799 7.75878 7.76548 7.195104 7.262884 ## GSM175778 ## 220268_at 4.2421 ## 221599_at 7.46824 ## 221600_s_at 7.2711 代码语言:javascript代码运行次数:0运行复制library(tinyarray) exp1 = trans_array(exp
本站网友 麦奇教育集团
23分钟前 发表
就是按照symbol去重复