如何用大语言模型做富集分析，这篇atMethods文章教你

2025-07-26 20:37:16

如何用大语言模型做富集分析，这篇atMethods文章教你 Basic Information 英文标题：Evaluation of large language models for discovery of gene set function中文标题：用于基因集合功能发现的大型语言模型评估发表日期：28 ovember 2024文章类型：Article所属期刊：ature Methods

如何用大语言模型做富集分析，这篇atMethods文章教你

Basic Information

英文标题：Evaluation of large language models for discovery of gene set function
中文标题：用于基因集合功能发现的大型语言模型评估
发表日期：28 ovember 2024
文章类型：Article
所属期刊：ature Methods
文章作者：Mengzhou Hu | Dexter Pratt
文章链接：

Abstract

Para_01

基因集富集是功能基因组学的主要手段，但它依赖于不完整的基因功能数据库。
在这里，我们评估了五个大型语言模型（LLMs）发现基因集中表示的共同功能的能力，并提供了分子推理和自我信心评估的支持。
对于来自Gene Ontology的经过整理的基因集，GPT-4在7%的情况下建议的功能与经过整理的名称相似，在自我信心较高的情况下预测出更高的相似性。
相反，随机基因集在87%的情况下正确地产生了零信心。
其他LLMs（GPT-.5、Gemini Pro、Mixtral Instruct和Llama2 70b）在功能恢复方面各不相同，但对于随机集合却错误地自信。
在来自组学数据的基因簇中，GPT-4为45%的情况识别出共同功能，少于功能富集，但具有更高的特异性和基因覆盖率。
对支持推理和引用的手动审查发现，这些功能大部分是可以验证的。
这些结果使LLMs成为有价值的组学助手。

Main

Para_01

组学科学的一个基本目标是识别负责生命、健康和疾病不同生物功能的基因。
在这一思路下，过去几十年里众多信使核糖核酸表达实验产生了在不同条件中差异表达或通过共同表达模式聚类的一组基因。
同样地，蛋白质组学实验产生了共丰度、共修饰或物理相互作用的蛋白簇，而基因敲除筛选实验则产生了对健康或特定反应所需的基因列表。
在所有这些情况下，基本前提是所识别的基因协同作用于同一生物过程或功能。

Para_02

通常解释组学实验中识别出的基因的方法是通过功能富集分析。
该方法旨在识别一组组学基因与来自大型预定义基因集合之间的相似性，这些基因集合按共享功能或通路类别组织。
这个预定义的集合可以来自文献整理的基因功能数据库，如基因本体（GO），京都基因和基因组百科全书（KEGG）或Reactome。
或者，可以对从先前独立实验注释的基因数据库进行富集分析，例如在全基因组关联研究目录中以前与相同疾病相关的基因，
在鼠基因组数据库中与相同敲除表型相关的基因，由共同转录因子调控的基因，或作为给定细胞类型经典生物标志物的基因。

Para_0

矛盾的是，一个与参考数据库中的基因组高度相似的基因簇可能不那么有趣，因为该簇及其功能已经被很好地表征。
更有趣的是那些以前未被牵连的基因簇，因为在这些情况下，新的生物学见解正是涌现出来的地方。
这些研究较少的情况要么在参考数据库中没有显著的富集，要么它们返回的富集在P值上具有显著性，但在基因组重叠上并不显著。
在这里，下一步是探索生物学文献以及互补的数据集，尽可能多地了解相关基因。
目标是从每个基因中挖掘相关的知识，然后利用这些知识来合成一个功能假设，这个功能可能是集合中的所有或许多基因共同持有的。
从数据和文献中辨别出相关发现，然后基于这些信息进行推理以合成功能假设这一漫长的过程尚未广泛自动化，但却是基因组科学家所执行的核心任务之一。

Para_04

生工智能（AI）模型的到来，特别是大型语言模型（LLMs），与这些任务高度相关。
从根本上讲，生成AI是一种机器学习方法，通过这种方法，模型被训练以识别数据中的潜在模式，使其能够生成具有与训练数据相似属性的新结果。
LLMs背后的核心技术是转换器架构1,2,，它使用自注意力机制来理解上下文并处理文本中的长距离依赖关系，在诸如文本翻译、摘要和生成等任务中取得了显著进展。
最近的人工智能研究产生了一系列通用的LLMs，如OpenAI的生成预训练转换器4（GPT-4）4、Meta的Llama25、MistralAI的Mixtral6以及Google的Gemini7，这些模型整合了来自包括生物医学文献在内的庞大资源库的信息。
基于这些发展，LLMs为辅助解释来自组学实验的基因集提供了重大机会8。

Para_05

我们评估了大型语言模型（LLMs）基于其嵌入的生物学知识和文本生成能力，在基因集功能分析方面的洞察力。
首先，我们开发了一个基于查询当前LLMs的基因集分析流程。
然后，我们测试每个LLM提出简洁地描述基因集功能名称的能力，并通过引用文本和支持这种选择的整体信心评估来支持这一选择。
最后，我们讨论了我们的发现及其对功能基因组学中LLMs通用使用的启示。

Results

Development of an LLM functional genomics pipeline

LLM功能基因组学管道的开发

Para_01

我们设计了一个流程，在这个流程中，LLM被指示分析一组基因，然后生成一个简短的生物学描述性名称、一份支持分析的文章和一个反映LLM对其结果‘信心’的分数（图1a和方法部分）。
使用了单独的LLM指令来验证分析文章中的陈述，并附上相关的文献引用（扩展数据图1和方法部分）。
对LLM的指示称为‘提示’，可以包括数据和示例以指导响应。
制定这种提示的最佳实践是正在进行的实验的主题9,40,41,42；在这里，我们的提示经过工程设计以捕捉所生成结果所需的属性，包括引导短语如"完成你的分析后，提出系统执行的最显著生物过程的简短描述性名称"。
经过工程设计的提示还包括一个单一（一次）示例，以帮助LLM模仿所需的格式和思维过程（图1a，扩展数据图1b和扩展数据表1）。
该LLM功能基因组学管道可通过基因集人工智能（GSAI）网络门户供一般使用（/）。

Fig. 1: Use and evaluation of LLMs for functional analysis of gene sets.

LLM提示（左侧框）包括系统内容、详细的思维链指令以及一个带有期望响应的示例基因集查询（完整提示见扩展数据表1）。
特定的基因列表在提示模板的末尾插入到‘用户输入的基因/蛋白质’字段中，从而生成一个建议的名称、支持的分析文章和置信度分数（右侧流程图）。
将LLM命名与GO分配的名称进行基准测试（评估任务1）。从五个LLM中的每个模型提出的名称（左侧机器人图标）与GO策展人分配的名称（握手图标）进行比较。
GPT-4（加冕）是该任务的最佳模型。
探索在组学数据中发现的基因集（评估任务2）。对GPT-4的名称和分析进行新颖性和准确性评分（右侧绿勾选标记）。
来自三种不同数据类型的基因集（左侧数据库图标）。

Para_02

我们寻求评估这个LLM管道，使用来自两个主要来源的参考基因集。
第一个来源是文献整理，我们评估了从GO术语中提取的基因集合（图1b，评估任务1）。
第二个数据来源是‘组学’分析，我们评估了由各种‘组学’平台识别的基因簇，包括转录组学和蛋白质组学（图1c，评估任务2）。
第一个任务的目标是基准测试LLMs恢复人类整理的参考数据库中先前记录的基因集功能的效果如何。
而第二个任务的目标是探索LLMs在多大程度上提供了超出此类数据库所能获得的互补见解。

Evaluation task 1

评估任务1

Recovery of literature-curated functi

文献注释的功能恢复

Para_01

为了完成第一个任务，我们从基因本体生物过程分支（GO-BP 202-11-15发布；扩展数据图2和方法部分）随机抽取了一个代表性的术语集合。
每个术语所注释的基因集被用来提示五个不同的大型语言模型（LLM）（GPT-4、Gemini Pro、GPT-.5、Mixtral Instruct 和 Llama2 70b；图1b），
然后比较了这些模型所建议的名称与基因本体注释员分配的术语名称。
在每种情况下，性能通过LLM名称与GO名称之间的语义相似度来衡量。
语义相似性是一种定量评分（范围0-1），它测量两个词或短语在含义上的接近程度，无论这些短语是否涉及不同的词汇或表达方式（方法部分）。
例如，单词‘袜子’在意义上更接近于‘鞋子’而不是‘飞机’。

Para_02

这五个大型语言模型处理一个基因集并返回一个建议的简洁名称、一个置信分数和支持分析文本所需的时间从7.9秒（Gemini Pro）到61.8秒（Llama2 70b）不等（扩展数据表2）。
语义相似性得分范围从最高可达1.0的情况（当LLM名称与GO名称完全匹配时，例如Gemini Pro：‘突触囊泡胞吐作用’，GO：0016079），到低于0.1的情况（当名称不直观相似时，例如GPT-.5：‘离子运输和细胞稳态的调节’与GO：‘CD8阳性、α–β T细胞分化的负向调控’，GO：00477相比）（表1和补充表1）。
我们发现GPT-4、Gemini Pro、GPT-.5和Mixtral Instruct在提出与GO名称相似的名称方面表现大致相当（中位相似度在0.45至0.50之间），而Llama2 70b的表现明显较差（中位相似度为0.40；图2a）。

Table 1 Best and worst LLM names for GO terms by semantic similarity 表1 最佳和最差的LLM名称按语义相似度排序的GO术语

Fig. 2: Evaluation of LLMs in recovering GO gene set names.

每个LLM（颜）的表现通过其为基因集提出的名称与GO策展人分配的名称之间的语义相似性进行评分。结果显示了100个GO术语的结果（点；水平黑线显示中位数语义相似性）。使用双侧Mann-Whitney U检验确定分布之间的显著差异。
对于基因集GO和GPT-4名称之间的语义相似性的百分位校准，在GO术语‘X射线反应’和相应的GPT-4名称‘DA损伤反应和修复’之间进行了展示。该图显示了这两个名称之间的语义相似性（垂直深绿线，0.54）与GPT-4名称与GO生物过程数据库（GO-BP，灰）中的每个名称之间的语义相似性得分分布之间的关系。将GPT-4名称得分转换为百分位，即GO中所有名称中具有较低相似性的百分比（在这里是99%）。虚线红线表示第95百分位阈值。
在给定的相似性百分位（x轴）下，GPT-4恢复的GO术语名称的累积数量（y轴）。0表示最不相似，100表示最相似。深绿曲线显示了GPT-4名称与分配的GO术语名称之间的语义相似性。虚线灰曲线显示了GPT-4名称与随机GO术语名称之间的语义相似性。点划红线标记了GPT-4在第95百分位相似性时恢复的GO名称数量。
饼图总结了GPT-4名称/GO名称相似性的比较结果。
GO术语‘甘油三酯分解代谢过程的负调控’及其祖先的层次视图。蓝框：基因集查询；黄框：最佳匹配GO名称的基因集（与GPT-4名称最相似的GO名称）；带箭头的虚线：名称之间的语义相似性；红文本：GPT-4提议的名称。

Para_0

为了理解这些相似性得分，我们将它们与背景语义相似性分布进行了校准，这些分布是通过将每个LLM提议的名称与GO-BP中记录的所有11,94个术语名称进行比较来定义的（方法）。例如，GPT-4提出的名称（"DA损伤反应和修复"）与GO名称（"对X射线的响应"）的语义相似性为0.54，这个分数高于GPT-4名称与GO-BP中所有其他术语名称之间的99%的语义相似性（图2b和补充表2）。使用这种方法，我们发现GPT-4提出的基因集名称中有60%与相应的GO术语名称接近匹配，语义相似性排名在第95百分位以上（图2c、d）。在大约三分之一的剩余案例中，LLM提出了一个匹配更广泛概念的名称（图2d和方法）。例如，对应于GO术语‘三酰甘油分解代谢过程的负调控’的基因集产生了GPT-4名称‘脂质代谢和转运’，其语义相似性为0.41，在第89百分位。GPT-4名称最接近于GO术语‘脂质代谢过程’，这是一个在本体中更不具体的类别，并由更大一组基因注释（图2e）。当分析来自细胞组分和分子功能分支的基因集时，观察到了类似的结果（扩展数据图和补充表2）。

Assessment of LLM confidence

LLM置信度评估

Para_01

我们接下来关注每个LLM报告的自信度。如上所述（图1a），我们要求每个LLM为每次基因集分析提供一个连续的置信分数，范围在0到1之间。
对于那些LLM赋予‘0’置信度的基因集，我们要求LLM返回‘不相关蛋白系统’而不是建议的名称，因为它无法自信地确定一个集体功能描述。
我们观察到这些定量置信分数不是均匀分布的，而是集中在不同的模式周围；因此，我们根据这个分布进一步将分数阈值化为高、中、低置信度结果（扩展数据图4a）。

Para_02

为了了解LLM自我信心评估是否具有信息性和实用性，我们在评估中引入了受污染基因集的概念。具体来说，以前使用的每个GO术语（‘真实GO术语’；图a）都被替换为一个合成基因集，该基因集包含从该GO术语中随机选择的50%的基因和从所有具有GO注释的背景基因池中随机选择的50%的基因（‘50/50混合’）。我们还检查了一个完全随机的变体，其中100%的基因从背景中随机选择（‘随机’）。

Fig. : Evaluation of LLM self-confidence.

调查模型分配的信心分数（聊天泡泡）以区分真实的GO术语与50/50混合和随机基因集（来自同一GO术语的浅DA链，从GO术语外随机选择的深DA链）。
条形图显示了每个模型为真实、污染或随机基因集分配的信心评分。
颜渐变的紫表示评分从低到高。
‘高信心’（深紫）：0.87-1.00；
‘中等信心’（中紫）：0.82-0.86；
‘低信心’（浅紫）：0.01-0.81；
‘未分配名称’（灰）：0。
为了与功能富集（最右边一组条形图）进行比较，基因集的‘高信心’定义为BH校正P≤0.05（深紫，g:Profiler46使用Benjamini–Hochberg校正），否则使用‘未分配名称’（灰）。
通过双侧卡方检验确定真实、50/50混合和随机之间的信心分布存在显著差异。

Para_0

我们观察到，除了 Llama2 之外，所有 LLM 模型在被要求为 50/50 混合和随机基因组生成名称时，自信心显著下降（图 b）。
GPT-4 是五个 LLMs 中最有可能将较低的信心与受污染的基因组关联起来的模型，并且对于大多数完全随机的基因组（87%），它给出了零信心（拒绝命名）。
相反，GPT-4 几乎将所有涉及真实基因组的分析评定为中等信心或更高（96%；图 b），并且定量的信心评分能够预测名称恢复的准确性（扩展数据图 4b）。
这些 GPT-4 的信心评估大致同意手动独立审查的结果，在这项审查中，一个人类审阅者对 25 个真实的基因组集进行了评级，以衡量 GPT-4 分析文章对其提出的基因组集名称的支持程度（扩展数据表）。

Para_04

最后，我们将这些结果与在同一真实、受污染和随机基因集上运行的经典功能富集分析结果进行了比较（g:Profiler46，Benjamini–Hochberg（BH）校正P ≤ 0.05；方法）。如预期所料，富集分析始终为真实基因集返回了正确的GO术语，而对大多数随机基因集，它未能达到显著性阈值（7%；图b）。相比之下，对于50/50混合受污染基因集，富集分析几乎总是返回显著的GO术语，这表明在这方面，它比GPT-4置信度评估更为宽松。
In contrast, enrichment analysis nearly always returned significant GO terms for 50/50 mix contaminated gene sets, indicating that in this respect it was less cervative than a GPT-4 confidence assessment.

Evaluation task 2

评估任务2

Exploration of omics gene clusters

基因簇的组学探索

Para_01

我们评估的第二大任务是为通过组学数据分析实验确定的基因集命名。
在这里，我们专注于GPT-4，因为它在任务1中的表现很好，尤其是在拒绝为不连贯的基因集命名方面的优越性。
这些组学基因簇包括：（1）在一系列药物响应下收集的转录组谱中差异表达的基因（n=126个基因簇，综合网络化细胞特征（LICS）L1000连接图谱特征）47,48；
（2）在被一系列病毒感染后差异表达的基因（n=48个簇，基因表达全景数据库（GEO）病毒感染差异表达基因特征）49；
以及（）在癌症蛋白质组学数据中编码相互作用蛋白复合物的基因（n=126个簇，肿瘤系统嵌套（eST））50（方法部分）。
这些来源共同构成了00个基因簇，大小从到100个基因不等（扩展数据图5）。

Para_02

当提示这些组学集中的每一个时，我们发现GPT-4在15个案例（45%）中提出了一个名称，而在其他情况下则没有信心地推迟。
作为比较基准，我们将每个集的功能富集分析应用于GO生物过程数据库，得到了229个集的显著GO术语名称（g:Profiler46，BH校正P ≤ 0.05；方法）。
初步检查这些命名结果表明，无论是GPT-4还是GO富集，都可以产生低特异性的名称，也就是说，这些名称只适用于集中的少数基因，或者相反，广泛适用于许多集外的基因。
为了量化这种特异性，对于每个集，我们描述了组成集的基因集合与所有与所提议名称相关的人类基因集合之间的重叠程度（杰卡德指数；方法）。
事实上，即使是适度的特异性要求也消除了大多数提出的集名称。
例如，要求最低特异性为10%，剩下由GPT-4命名的42个集和由功能富集命名的个集；将最低要求提高到20%，剩下由GPT-4命名的21个集和由功能富集命名的4个集（图4a和扩展数据表4）。
总体而言，GO富集更有可能命名一个集，而GPT-4往往会产生更多由集基因支持的名称（图4b）。

Fig. 4: Evaluation of GPT-4 in naming ‘omics gene clusters.

omics基因簇的数量（y轴，对数10标度）由GPT-4命名（深绿）或通过使用g:Profiler进行GO富集分析命名（黑；BH校正P≤0.05）与通过Jaccard指数测量的基因簇特异性阈值（x轴；方法）相对比。
垂直虚线红线条标记了扩展数据表4中显示的相同特异性阈值。
b，与支持GPT-4名称的基因数量（x轴）相对比，重叠于g:Profiler富集的GO术语关联基因的聚类基因数量（y轴）被绘制出来。
红点表示与显著的g:Profiler名称高度相似的GPT-4名称（语义相似性≥0.5）；否则使用藏青。
虚线黑对角线表示GPT-4和g:Profiler名称具有相同的特异性。
c，显示聚类eST:2-105的替代名称（行），黄框表示哪些名称支持每个聚类基因（列）。
首先用粗体显示GPT-4名称（顶部），而剩余行突出显示两个显著的g:Profiler结果：富集程度最佳的GO术语（中间）以及最概念上与GPT-4名称相似的术语（底部）。

Para_0

直接比较GPT-4与GO名称在各个簇中的情况显示，GPT-4名称通常在语义上与功能富集术语之一相似，但涉及更多的基因（65%的簇；图4b）。
例如，蛋白质相互作用簇eST:2-105产生了GPT-4名称‘调节cullin-RIG泛素连接酶（CRL）复合物’（图4c和图5）。
GPT-4分析文本和引用将泛素连接酶复合物与簇中的所有16种蛋白质联系起来，而最相关的GO术语匹配‘蛋白质泛素化’只涵盖了其中的8种蛋白质。
两种分析都将泛素化与钾通道四聚化结构域（KCTD）和Kelch样（KLHL）基因家族的成员关联起来，这两个家族已被认为是E泛素连接酶的底物适配器，并且两种分析也都指出了WK1。
此外，GPT-4分析还涵盖了RHOBTB蛋白，这些蛋白也被研究作为E适配器，另外的KCTD成员SHKBP1，以及额外的WK家族成员，并根据预测的泛素转移酶活性指出了鲜为人知的蛋白质AKRD9。
值得注意的是，术语‘蛋白质泛素化’既不是最显著富集的，也不是最高重叠的，因为它广泛涵盖了多种基因；相反，最匹配的术语是与胰腺汁分泌负调控无关的概念，基于包含簇中五个基因中的三个注释到该术语。
此外，通过两种方法（GPT-4和功能富集）将WK1与蛋白质泛素化关联起来的假设性说法需要进一步研究，以确定WK蛋白是否只是泛素连接的目标或机制的重要组成部分。

Fig. 5: Representative analysis for protein interaction clusters (eST:2-105).

输入基因集，16个基因（左上粉框）；GPT-4生成的聚类名称（右上绿框）；GPT-4置信分数（中右绿框）；GPT-4分析文本（下绿框）。每个生成的段落后面跟着由引用模块到的相关引用（扩展数据图1和方法部分）。

Assessment and validation of supporting analysis text

支持性分析文本的评估和验证

Para_01

一个重要问题是LLM输出可能会‘幻觉’，也就是说，可能会生成看似合理但无法验证或不真实的陈述。
因此，我们评估了GPT-4生成的支持其提议的基因簇名称的分析文章，以确定幻觉可能对其分析的影响程度。
为此，四名人类科学家参与了一个结构化的审查过程，审查了在对20组组学基因集分析中产生的40个句子（方法部分）。
作为一个保守的标准，我们认为只有当审稿人发现每个陈述的事实都有文献证据支持时，才认为该句子是‘已验证’的。
在评估的40个句子中，我们发现54个是完全可验证的（88％；补充表4）。
检查剩余的49个句子后，发现了两种主要的未验证事实：（1）基因功能的错误分类（n = 15，4％）和（2）基因功能的推测（n = 4，8％）。
在与类型1相关的一个案例中，GPT-4声称WDTC1"参与细胞周期和凋亡的调节……"，而实际上，它是一种E泛素连接酶，并且参与脂肪生成和肥胖（补充表4）。
与类型2相关，GPT-4推测RE"可能受囊泡运输过程影响"无法得到验证（补充表4）。

Para_02

为了便于陈述验证，我们开发了一个独立的基于GPT-4的系统，用于在分析文章中添加支持关键陈述的引文（扩展数据图1、补充表4和方法部分）。
在制定这项任务的人工智能提示时，我们没有规定出版物的标题或摘要必须主要关于该陈述；只要有支持的事实即可。
通过这个自动化系统，先前审查过的40个句子返回了489个引文。
在489个引文中，有8个论文的标题或摘要为所引用的陈述提供了明确的证据。
例如，‘RHOBTB2和RHOBTB"已被证明参与CRL复合物的调控"’这一陈述得到了Berthold等人（2008年）第54篇论文标题的支持，以及Ji和Rivero（2016年）第59篇论文摘要的支持（参见分析段落4及其在图5中的引文）。
剩下的106个引文（占22%）并未能明确支持它们对应的LLM陈述，尽管我们只审查了标题和摘要，并未对主要手稿文本进行系统性审查。
这些结果表明，虽然大多数但并非所有通过此程序到的引文都是可靠的，因此可以视为进一步研究的有用指导，但不能视为无可争议的事实。

Discussion

Para_01

此处进行的评估表明，大型语言模型（LLMs）作为理解基因集集体功能的自动化助手具有显著潜力。
在对GO中的基因集分析中，五种大型语言模型中有四种在提出与GO策展人分配名称相似的名称方面表现相当，为大多数基因集生成了高度相似的名称。
伴随的分析文本主要为事实性内容，尽管GPT-4偶尔会产生不可验证的陈述，这表明即使是最先进的大型语言模型也应与事实核查和/或参考验证结合使用，无论是自动化的还是手动的。

Para_02

GPT-.5在恢复GO基因集名称方面表现与GPT-4一样好（图2a）这一点有些出人意料。
在其他应用中，GPT-.5的表现通常比GPT-4低10%-0%4,60,61。
这种可比较的表现很重要，因为GPT-.5执行起来比GPT-4更快且成本更低（扩展数据表2）。
然而，在基因集命名方面，尽管GPT-.5表现良好，但它在评估答案的置信度方面遇到了困难（图b）。
在这里，GPT-4展示了明确的评估置信度的能力，尤其是在拒绝命名不一致的基因集方面。
随着大型语言模型（LLMs）的不断发展，速度、成本和输出质量的进步可能会对基因集分析的首选模型产生影响。

Para_0

当GO基因集的GPT-4名称与精心策划的名称不相似时，在大约三分之一的情况下，它的概念范围更广（图2d）。
对于其余命名不一致的基因集，这种不匹配可能反映了GPT-4未能恢复一个广泛记录的功能，或者表明GO术语不再反映最新的文献。
另外，有可能GPT-4和GO提供了有效但不同的解释。
我们确实发现了这一可能性的证据：例如，树突细胞树突组装（GO:0097026）被两种趋化因子（CCL19和CCL21）及其受体（CCR7）注释，但是这些蛋白质也对相关的淋巴细胞归巢过程至关重要，这与GPT-4建议的名称‘淋巴细胞归巢和免疫反应调节’一致（补充表2）。

Para_04

在基于组学研究的基因簇分析中，GPT-4 在00个案例中有15个提出了基因集功能。
由于这些簇反映了分子数据中的模式，这些模式可能是嘈杂的或包含较少研究的基因，因此并非所有簇都被赋予了自信的名称并不令人惊讶。
当没有主导主题时，LLM 的基于文本的分析仍将讨论定义该簇的生物过程范围。
功能富集分析命名了更多的簇（00个案例中有229个），但通常特异性或覆盖率较低（图4b），而且也更有可能命名随机基因集（图b）。
也就是说，当使用诸如Reactome、KEGG或表型本体等数据库时，功能富集分析可以访问更广泛的候选名称；在这里，我们选择专注于GO-BP分支，因为它是一个普遍接受的、全面的集合。
一个令人兴奋的可能性是将两者最好的方面结合起来，将富集分析的统计透明度与LLMs的最新文献知识和推理相结合。

Para_05

这项工作与最近的一篇预印本8有关，该预印本使用GPT从GO数据库中提取最能描述基因集的术语。这里，我们提供了广泛的大型语言模型（LLM），让它们在没有明确参考预定义数据库的情况下，开放地描述基因集的功能。我们还引入了一个新的指标，即LLM自信心评分，用于评估基因集的功能一致性以及其功能总结的质量。通过其自信心评估，LLM可以潜在地提醒生物学家，在某些情况下，他们应该对简单的‘最佳匹配’功能建议持怀疑态度。
Via its self-confidence assessment, an LLM can potentially alert biologists to cases in which they should be skeptical of a simple ‘best match’ function proposal.

Para_06

有必要强调的是，本研究的目标是评估大型语言模型（LLMs）在功能基因组学中的基线能力，使用通过非正式实验开发的单一查询和提示。
基于这一基线，未来的研究可能会寻求以多种方式增强能力。
一个主要方向将是进一步提高LLMs的准确性和可解释性，对于这一点，最近的技术如微调和检索增强生成显示出相当大的前景。
另一个方向将是系统地调查LLMs的提示策略，包括那些能够将LLMs与互补工具直接集成的提示，例如基因集富集和文献搜索。
未来的提示策略还可能评估并包含关于基因集被发现的生物学和实验背景的描述，这些信息似乎有可能提高分析的特异性、深度和质量。
由于基因集功能富集工具预先存在的基因集到功能术语的映射是静态的，并且不试图编码生物条件的实际上无限的空间，因此很难使用这些工具捕捉这种先验背景。

Methods

LLM installation

LLM安装

Para_01

五种大型语言模型被选中进行评估，包括来自OpenAI的GPT-.5和GPT-4、来自Google的Gemini Pro、来自MistralAI的Mixtral Instruct以及来自Meta的Llama2 70B。
我们使用了OpenAI GPT-4和GPT-.5大型语言模型的‘gpt-4-1106-preview’和‘gpt-.5-turbo-1106’版本，以及Google Gemini模型的‘Gemini Pro’版本，通过它们定义明确的应用编程接口（API）进行操作。
Mixtral Instruct和Llama2从Ollama（/）下载，并通过Ollama的API端点进行查询。

Controlling the variability of LLM respes

控制大型语言模型响应的变化性

Para_01

每个LLM允许查询设置一个‘温度’参数，该参数控制生成响应的变化性，较低的温度会产生更可重复和可靠的响应。
探索温度对LLM分析的影响超出了本研究的范围，因此我们的查询使用了最低的、最保守/可重复的温度值（0.0）。
在对温度为0.0的重复查询进行手动检查时，我们发现LLM名称和分析在概念上是等效的，但具体文本可能有所不同，从几乎相同到措辞上有相当大的差异。
所有模型和所有运行的‘种子’参数均设置为42。
此外，我们通过强制响应简洁来使我们的手动审查过程可控。
为此，我们将每个响应中的最大令牌数（大致对应于单词）设置为1,000。

Prompt engineering

提示工程

Para_01

LLM提示被组织成了七个部分（图1a；完整的提示见扩展数据表1）。
（1）系统内容部分：系统内容告诉了LLM在处理提示时的角。在这里，我们的分析与分子生物学相关，因此我们将角设定为‘分子生物学家的助手’。
（2）任务指令部分：指令设计以满足多个标准。值得注意的是，LLM首先被引导进行分析，然后再提出过程名称，鼓励一种结构化的‘思维链’。
（）置信度评分分配部分：这一部分提示LLM生成一个‘置信度得分’，表达它对自己选择的名称的信心，考虑到了参与相应生物学过程的基因比例。置信度得分被指定为介于0.00和1.00之间。提示还被设计用于处理一组基因关系不够密切而不值得命名的情况。特别是，在这种情况下，提示指示LLM输出零置信度得分和名称‘无关蛋白质系统’。
（4）格式指令部分：我们要求LLM将名称作为最终分析的标题放置，以便于提取。
（5）分析方法部分：该部分的指令指导LLM简洁、客观，并专注于寻共同点和关系。
（6）一次性示例部分：这部分包含了一个基因集的例子以及相应的名称、置信度得分和分析文本。这种格式遵循‘上下文学习’方法，其中示例提供了模板，帮助LLM生成符合期望行为和格式的输出。经过大量的手动测试，我们确定使用一个示例与使用多个示例时输出质量没有差异；因此，我们选择了使用‘一次性’单个示例策略，以最小化提示大小和相关成本。
（7）用户输入基因/蛋白质部分：最后一部分是用户的基因或蛋白质列表输入。

Download and parsing of GO

下载和解析GO

Para_01

GO（202-11-15 版本）是从基因ontology网站上获取的，采用开放生物医学本体格式71,72。随后，本体文件被分成三个组成部分：生物过程（BP）、细胞组分（CC）和分子功能（MF）。
与每个GO术语对应的基因集是通过聚合直接注释该术语的所有基因及其所有本体后代基因来确定的。
我们从每个分支中随机抽取了1,000个人类基因集进行评估任务1（从包含到100个基因的术语中抽样）。
我们发现1,000个基因集足以通过代表性分布实现统计显著性（扩展数据图2）。
由于大型语言模型查询的成本以及所需的计算时间，我们将数量限制为100个基因集，以便比较五种LLM之间的置信分数（扩展数据表2；与图2、图、扩展数据图和4及评估任务1相关）。
我们从每个分支中随机抽取了1,000个人类基因集进行评估任务1（从包含到100个基因的术语中抽样）。

Calculation of semantic similarity

语义相似性的计算

Para_01

语义相似性是通过 huggingface 的 SapBERT 模型7（cambridgeltl/SapBERT-from-PubMedBERT-fulltext）使用 transformers 包74（版本 4.29.2）确定的。SapBERT 为每个名称生成嵌入，然后计算这些嵌入之间的余弦相似度，得到的相似度分数范围从 0（没有相似性）到 1（完全相同）。
SapBERT 是一个针对生物医学领域的语言表示模型，它是在大规模生物医学数据上预训练的，包括拥有超过 400 万个概念的统一医学语言系统（Unified Medical Language System），这是一个包含大量生物医学本体的大规模集合。
由于像双向编码器表示来自变压器（BERT）这样的模型1是在大量的文本数据上进行训练的，因此它们可以学习到一般的模式和关系，并通过考虑周围的词语来捕捉上下文，从而提供了基于语义而非词汇匹配的相似性度量。
尽管 SapBERT 和 GPT-4 都是大型语言模型（LLMs），但它们是不同的模型，具有不同的用途、模型架构、训练目标和数据集。因此，SapBERT 提供了独立的相似性评估。

Calibrating the similarity between GPT-4 names and GO names

校准GPT-4名称与GO名称之间的相似性

Para_01

为了评估 GPT-4 模型在复述 GO 名称方面的表现，我们使用上述方法通过 SapBERT 计算了 GPT-4 名称与 GO 条目查询分配名称之间的语义相似度。
然后，我们对相同的 GPT-4 名称与生物过程分支（GO-BP）中的每个其他 GO 条目名称进行了这种语义相似度计算，从而为每个 GO 条目查询生成了一个背景分布的语义相似度分数。
实际相似度和背景相似度随后被合并到一个列表中，并按降序排列（从大到小），记录了实际相似度的排名并表示为百分位数。
因此，这个百分位分数就是比 GO 条目查询分配名称更不相似于 GPT-4 名称的 GO-BP 条目名称所占的百分比。

Definition of ‘broader concepts’

‘broader concepts’的定义

Para_01

据称，一个建议的名称比查询基因集所代表的概念更广泛，如下所述：

Para_02

目标基因集用于分析；

Para_0

i(X)：方法i提出的基因集X的名称，i={LLM, GO"};

Para_04

Pi=LLM: 完整的基因集被注释到与LLM提议的名称最接近的GO术语，也就是说，最大化sim(GO(Q), LLM(Q))；

Para_05

Pi=GO: 完整的基因集，这些基因被注释到由GO术语富集提出的名字上。

Para_06

提出的名称 i(Q) 表达了一个‘更广泛的概念’，如果 |Pi| > |Q| 并且 |Pi ∩ Q| ≥ 0.5|Q|，也就是说 Pi 比 Q 大并且包含至少一半的 Q。
我们选择 0.5 作为阈值，因为可以合理地认为适用于 Q 中大多数基因的概念（Pi）可以被认为是相关的。

Omics data processing

组学数据处理

Para_01

eST 数据是从一项关于癌症蛋白簇的先前研究中获得的原始文件，通过与 M. R. Kelly 的私人交流获得。
L1000 数据和病毒感染数据是从 Harmonizome 平台下载的（/Harmonizome/；LICS L1000 CMAP 显著性差异表达基因的小分子和 GEO 病毒感染显著性差异表达基因的签名）。
对于每个组学来源，我们选择了包含到 100 个基因的基因集。
此外，在 L1000 数据集中，我们选择了观察次数最多的上下文（细胞系 'MCF7'，持续时间 6.0 小时，剂量 10.0 微米）。
对于病毒疾病扰动数据集，我们使用了 2 的 Z 分数截止值。

Gene set enrichment analysis

基因集富集分析

错误！！！ - 待补充

Evaluation of specificity of naming for omics gene sets

omics基因集命名的具体性评估

Para_01

对于给定的LLM提出的名称和分析文章，我们提示GPT-4来分析这篇文章，以识别所有支持该名称的基因，并将它们作为列表GLLM返回。
这个提示（扩展数据表5）包括指示GPT-4仅考虑关于基因的确切断言，而不是推测。
通过大约20篇文章的手动检查，我们发现GPT-4能够可靠地执行此任务。
我们将LLM提出的名称与所有GO-BP术语名称（202-11-15版本）之间的语义相似度进行计算，以从最接近的GO-BP术语名称中提取基因集（Pi=LLM）。
特异性是基于Jaccard指数计算的。

Para_02

Q是用作查询的基因组集合。

Identification and validation of relevant references (citation module)

识别和验证相关引用（引文模块）

Para_01

我们遵循了一个五步流程来识别和评估LLM生成的分析文本中的陈述所引用的参考文献。
对于分析文本中的每个段落，我们执行了以下操作（扩展数据图1）：

(1) 提示LLM从分析段落中提取两类关键词：1. 段落中明确提到的基因符号。2. 与基因功能或生物学过程相关的最多三个关键词，按重要性排序。如果段落中未提取到至少一个基因符号和一个功能关键词，则跳过并返回“未知”。提示中包含一个段落及对应关键词的单例示例。
(2) 构建PubMed查询表达式，搜索标题或摘要中包含至少一个基因符号和一个功能关键词的科学文献。
() 通过PubMed的Web API查询文献，并按相关性对返回的文献列表进行排序。
(4) 根据摘要中匹配基因的数量进一步筛选文献，优先选择包含最多基因信息的文献。
(5) 针对前三篇文献，提示LLM评估其标题和摘要是否为分析段落中的一个或多个陈述提供证据。如果满足要求，则将文献作为参考返回。

Reviewer fact-checking of GPT-4 analysis text

GPT-4分析文本的审稿人事实核查

Para_01

我们对基于20个选定的组学基因集（补充表）生成的GPT-4分析文本中的40个句子进行了结构化审查。在这次审查中，每位评审员记录了每项分析中未经验证的事实陈述的数量。
如果在大约10分钟内没有到支持证据，则该陈述被视为‘未经验证’。

检查基因相关的简单陈述是否符合国家生物技术信息中心 (CBI) 基因数据库的内容
- ，由国家医学图书馆 (LM) 维护。

验证基因陈述 - a. 例如，“催产素 (OXT) 是一种结合其受体催产素受体 (OXTR) 的神经肽激素。” 可以通过CBI Gene条目快速验证两个基因的描述。 - b. 如果CBI条目验证了一个或多个陈述，则将条目对应的统一资源定位符 (URL) 添加到证据列中，例如： - LM: OXT
对于未被CBI Gene验证的陈述，使用PubMed搜索文献提供证据 - a. 使用基因–关键词对进行搜索，例如 “TP5 cell cycle”。 - b. 对于讨论多个基因的段落，搜索带有短语如 “acute phase respe proteins” 的综述文章。 - c. 一起搜索家族成员蛋白，例如 “TAS2Rs bitter taste”。

Reviewer evaluation of references

审稿人对参考文献的评价

Para_01

评审员根据在参考文献查过程中第5步中提示LLM的相同标准评估了参考文献。
评审员分别记录了标题或摘要是否成功提供了事实陈述的证据，以及段落中有多少不相关的参考文献。

Reporting summary

报告摘要

Data availability

Para_01

所有数据在此论文中使用均公开可获取。
完整的GO（202-11-15发布版）从.html下载。
选择的eST基因集可以从.edges下载。
本研究中使用的L1000数据可在/static/hdfs/harmonizome/data/lincscmapchemical/gene_attribute_gz获取。
病毒感染数据可在/static/hdfs/harmonizome/data/geovirus/gene_attribute_gz获取。
有关数据下载和解析程序的详细信息，以及本文中使用的所有数据集，均可在我们的GitHub存储库。

Code availability

Para_01

运行LLM基因集分析管道的代码以及用于重现评估任务结果的代码可在GitHub上通过获取，或在Code Ocean（.244/CO.7045777.v1）获取，并且遵循MIT许可。
请注意，LLM的输出本质上是随机的，模型产生的精确名称和分析文本在每次运行时可能不会相同。我们如‘控制LLM响应的变化性’部分所述，尽量减少了输出的变化性。

本文参与腾讯云自媒体同步曝光计划，分享自。原始发表：2025-01-16，如有侵权请联系 cloudcommunity@tencent 删除集模型数据数据库集合

#感谢您对电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格的认可，转载请说明来源于"电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格

本文地址：http://www.dnpztj.cn/biancheng/1174151.html

本站网友自驾游公司	7分钟前发表
我们在评估中引入了受污染基因集的概念
本站网友书柜书架	30分钟前发表
Para_0我们观察到
本站网友 animoji	0秒前发表
LLM 的基于文本的分析仍将讨论定义该簇的生物过程范围
本站网友腔静脉	0秒前发表
这个提示（扩展数据表5）包括指示GPT-4仅考虑关于基因的确切断言
本站网友酸奶面膜怎么做	21分钟前发表
他们应该对简单的‘最佳匹配’功能建议持怀疑态度
本站网友邛崃市市长信箱	3分钟前发表
例如
本站网友虹桥二手房	19分钟前发表
垂直虚线红线条标记了扩展数据表4中显示的相同特异性阈值
本站网友持久化	22分钟前发表
这些来源共同构成了00个基因簇
本站网友	4分钟前发表
000个人类基因集进行评估任务1（从包含到100个基因的术语中抽样）
本站网友替米沙坦	7分钟前发表
Calculation of semantic similarity语义相似性的计算Para_01语义相似性是通过 huggingface 的 SapBERT 模型7（cambridgeltl/SapBERT-from-PubMedBERT-fulltext）使用 transformers 包74（版本 4.29.2）确定的
本站网友 ccna视频教程	20分钟前发表
并专注于寻共同点和关系

如何用大语言模型做富集分析，这篇atMethods文章教你