trans

2025-07-27 02:57:34

trans 0.背景知识1.随机去重2.保留行和/行平均值最大的探针.求平均值 0.背景知识trans_array这个函数的作用是将探针表达矩阵转换为基因表达矩阵。因为探针和基因不是一一对应的关系，会存在多个探针对应同一个基因的情况。例如AAMDC这个基因有三个探针：代码语言：javascript代码运行次数：0运行复制rm(list = ls()) load("exp_ids.Rda

trans

0.背景知识1.随机去重2.保留行和/行平均值最大的探针.求平均值

0.背景知识

trans_array这个函数的作用是将探针表达矩阵转换为基因表达矩阵。

因为探针和基因不是一一对应的关系，会存在多个探针对应同一个基因的情况。例如AAMDC这个基因有三个探针：

代码语言：javascript代码运行次数：0运行复制

rm(list = ls())
load("exp_ids.Rdata")
ids0 = ids[ids$symbol=="AAMDC",]
ids0

代码语言：javascript代码运行次数：0运行复制

##          probe_id symbol
## 24890   220268_at  AAMDC
## 26046   221599_at  AAMDC
## 26047 221600_s_at  AAMDC

首先，多个探针对应同一个基因的问题是必须要处理的，因为最终的分析是以基因为单位，一个基因在一个样本里只能有一个表达量，在一次差异分析中只能有一个logFC，不能有多个啊。

我只设置了一种转换方式，就是按照symbol去重复，只保留每个基因的第一个探针。

其实全部的处理的方法有三种：

1.随机去重，保留任何一个探针都可以

2.保留行和/行平均值最大的探针

.取多个探针的平均值

采取这三种方法都是可以的，没有标准答案哦！

1.随机去重

因为这些探针也没什么主次和顺序，所以直接用R语言里的去重复函数搞一下就可以。trans_array这个函数采用的就是直接去重，这个例子里就会保留第一个探针。

可以验证一下啊:

代码语言：javascript代码运行次数：0运行复制

exp0 = exp[ids0$probe_id,]
exp0

代码语言：javascript代码运行次数：0运行复制

##             GSM17577 GSM175774 GSM175775 GSM175776 GSM175777
## 220268_at    .801755  .951920  4.00415  .9421  4.21515
## 221599_at    8.42928  8.96561  8.6902  7.495108  7.612667
## 221600_s_at  7.922799  7.75878  7.76548  7.195104  7.262884
##             GSM175778
## 220268_at    4.2421
## 221599_at    7.46824
## 221600_s_at  7.2711

代码语言：javascript代码运行次数：0运行复制

library(tinyarray)
exp1 = trans_array(exp,ids)
exp1[1:4,1:4]

代码语言：javascript代码运行次数：0运行复制

##       GSM17577 GSM175774 GSM175775 GSM175776
## DDR1   8.126595  8.75204  8.216957  8.909610
## RFC2   6.02881  6.254986  6.517528  7.29964
## HSPA6  6.97190  6.586626  6.58798  5.501578
## PAX8   7.517  7.50148  8.15091  8.57925

可以看到已经变成基因为行名的表达矩阵了。把AAMDC对应的表达量提取出来，和第一个探针的表达量放一起：

代码语言：javascript代码运行次数：0运行复制

exp1["AAMDC",]

代码语言：javascript代码运行次数：0运行复制

## GSM17577 GSM175774 GSM175775 GSM175776 GSM175777 GSM175778 
##  .801755  .951920  4.00415  .9421  4.21515  4.2421

代码语言：javascript代码运行次数：0运行复制

exp["220268_at",]

代码语言：javascript代码运行次数：0运行复制

## GSM17577 GSM175774 GSM175775 GSM175776 GSM175777 GSM175778 
##  .801755  .951920  4.00415  .9421  4.21515  4.2421

一模一样的。

2.保留行和/行平均值最大的探针

这个也是常见的去重策略之一。因为我不想这样搞(此处省略一些理由)，所以就没在函数里设置直接的参数。

但是我收到学生许愿了！主打一个有求必应，所以就来写了。

办法就是

代码语言：javascript代码运行次数：0运行复制

load("exp_ids.Rdata")
ids = ids[ids$probe_id %in% rownames(exp),]
exp = exp[ids$probe_id,]
identical(ids$probe_id,rownames(exp)) #他俩的顺序已经相同了

代码语言：javascript代码运行次数：0运行复制

## [1] TRUE

代码语言：javascript代码运行次数：0运行复制

ids = ids[order(rowSums(exp),decreasing = T),] #ids可以使用rowSums求和的顺序来排序，从大到小排，最大的在上面
library(tinyarray)
exp2 = trans_array(exp,ids)

%in% 和order都是R语言基础里面顶呱呱的函数。可以自行查阅帮助文档

让我们来检查一下：

代码语言：javascript代码运行次数：0运行复制

rowSums(exp0)

代码语言：javascript代码运行次数：0运行复制

##   220268_at   221599_at 221600_s_at 
##    24.14879    47.76652    45.2218

（行平均值就是行和➗样本数量，样本数量是固定的，所以行和最大就是行平均值最大）

可见行和最大的探针是221599_at，按照这种方法，这个探针的表达量应该被作为基因表达量。check之：

代码语言：javascript代码运行次数：0运行复制

exp2["AAMDC",]

代码语言：javascript代码运行次数：0运行复制

## GSM17577 GSM175774 GSM175775 GSM175776 GSM175777 GSM175778 
##  8.42928  8.96561  8.6902  7.495108  7.612667  7.46824

代码语言：javascript代码运行次数：0运行复制

exp0["221599_at",]

代码语言：javascript代码运行次数：0运行复制

## GSM17577 GSM175774 GSM175775 GSM175776 GSM175777 GSM175778 
##  8.42928  8.96561  8.6902  7.495108  7.612667  7.46824

同样是一模一样哦

.求平均值

这个方法不需要tinyarray

代码语言：javascript代码运行次数：0运行复制

load("exp_ids.Rdata")
exp = exp[ids$probe_id,]
rownames(exp) = ids$symbol
exp[1:4,1:4]

代码语言：javascript代码运行次数：0运行复制

##       GSM17577 GSM175774 GSM175775 GSM175776
## DDR1   8.126595  8.75204  8.216957  8.909610
## RFC2   6.02881  6.254986  6.517528  7.29964
## HSPA6  6.97190  6.586626  6.58798  5.501578
## PAX8   7.517  7.50148  8.15091  8.57925

代码语言：javascript代码运行次数：0运行复制

exp = limma::avereps(exp)

这种方法计算出来的是平均值，check之：

代码语言：javascript代码运行次数：0运行复制

exp["AAMDC",]

代码语言：javascript代码运行次数：0运行复制

## GSM17577 GSM175774 GSM175775 GSM175776 GSM175777 GSM175778 
##  6.717961  6.702406  6.71288  6.211148  6.6022  6.41789

代码语言：javascript代码运行次数：0运行复制

colMeans(exp0)

代码语言：javascript代码运行次数：0运行复制

## GSM17577 GSM175774 GSM175775 GSM175776 GSM175777 GSM175778 
##  6.717961  6.702406  6.71288  6.211148  6.6022  6.41789

本文参与腾讯云自媒体同步曝光计划，分享自。原始发表：2024-07-11，如有侵权请联系 cloudcommunity@tencent 删除函数基础排序

#感谢您对电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格的认可，转载请说明来源于"电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格

本文地址：http://www.dnpztj.cn/biancheng/1237010.html

推荐阅读

留言与评论（共有 17 条评论）

本站网友今天油价多少	14分钟前发表
1
本站网友黄村租房	27分钟前发表
所以行和最大就是行平均值最大）可见行和最大的探针是221599_at
本站网友瑞兰2号多少钱一只	11分钟前发表
4] 代码语言：javascript代码运行次数：0运行复制## GSM17577 GSM175774 GSM175775 GSM175776 ## DDR1 8.126595 8.75204 8.216957 8.909610 ## RFC2 6.02881 6.254986 6.517528 7.29964 ## HSPA6 6.97190 6.586626 6.58798 5.501578 ## PAX8 7.517 7.50148 8.15091 8.57925 可以看到已经变成基因为行名的表达矩阵了
本站网友 amf	2分钟前发表
2.保留行和/行平均值最大的探针这个也是常见的去重策略之一
本站网友草长莺飞二月天	15分钟前发表
所以行和最大就是行平均值最大）可见行和最大的探针是221599_at
本站网友 1115	6分钟前发表
会存在多个探针对应同一个基因的情况
本站网友广州宝宝爬行比赛	28分钟前发表
] identical(ids$probe_id
本站网友华为中兴	4分钟前发表
1
本站网友 qq家	16分钟前发表
] #ids可以使用rowSums求和的顺序来排序
本站网友哺乳期怎么减肥	9分钟前发表
按照这种方法
本站网友路路通的功效与作用	1分钟前发表
这个探针的表达量应该被作为基因表达量
本站网友花园宝宝下载	9分钟前发表
会存在多个探针对应同一个基因的情况
本站网友钢铁企业排名	10分钟前发表
这个例子里就会保留第一个探针
本站网友吃什么可以减肥	27分钟前发表
这个例子里就会保留第一个探针
本站网友上海网络公司	27分钟前发表
] exp0 代码语言：javascript代码运行次数：0运行复制## GSM17577 GSM175774 GSM175775 GSM175776 GSM175777 ## 220268_at .801755 .951920 4.00415 .9421 4.21515 ## 221599_at 8.42928 8.96561 8.6902 7.495108 7.612667 ## 221600_s_at 7.922799 7.75878 7.76548 7.195104 7.262884 ## GSM175778 ## 220268_at 4.2421 ## 221599_at 7.46824 ## 221600_s_at 7.2711 代码语言：javascript代码运行次数：0运行复制library(tinyarray) exp1 = trans_array(exp
本站网友麦奇教育集团	23分钟前发表
就是按照symbol去重复

trans

trans

0.背景知识

1.随机去重

2.保留行和/行平均值最大的探针

.求平均值

详细总结实际物理机上安装 Ubuntu 22.04 双系统（Windows + Ubuntu）全过程

Elasticsearch搜索引擎在高性能PHP框架webman快速调用

PHP官方文档新增在线运行代码功能！

Think Container 3.0 发布！