通用多模态AI模型的兴起

2025-07-29 02:32:46

通用多模态AI模型的兴起通用的多模态模型 (GMM) 能够轻松地跨不同模态学习，并在不同类型的任务中表现良好。译自 The Emergence of Generalist Multimodal AI Models，作者 Kimberley Mok。过去一年左右，人们对多模态大型语言模型 (MLLMs) 的兴趣激增，这要归功于它们在处理多种类型数据（文本、图像和视频，以及时间序列和图数据）的

通用多模态AI模型的兴起

通用的多模态模型 (GMM) 能够轻松地跨不同模态学习，并在不同类型的任务中表现良好。

译自 The Emergence of Generalist Multimodal AI Models，作者 Kimberley Mok。

过去一年左右，人们对多模态大型语言模型 (MLLMs) 的兴趣激增，这要归功于它们在处理多种类型数据（文本、图像和视频，以及时间序列和图数据）的任务中的多功能能力。

由于MLLMs旨在学习、推理并根据上下文信息调整其行为——这与人类智力的运作方式非常相似——一些专家也认为，进一步发展多模态AI是迈向人工通用智能 (AGI) 的关键一步。

正是由于多模态AI潜在的下游影响，现在人们更加关注构建真正“通用”的多模态AI模型。这种通用多模态模型 (GMMs) 能够轻松地跨不同模态学习，并在面对不同类型任务时适应并表现良好。

当前通用多模态AI模型的示例包括：

ExT-GPT
OneLLM
Meta-Transformer
OFA+
Unified-IO

基础模型铺平道路

当前通向通用多模态模型的轨迹源于预训练的深度学习基础模型的发展，这些模型用于处理自然语言、视觉、时间序列和图结构数据。

最值得注意的是，2018年引入的基础语言模型 (FLMs)，例如BERT（来自Transformer的双向编码器表示），在为能够使用基于注意力的架构在海量文本数据集上进行预训练的模型奠定基础方面具有关键作用。这些Transformer模型最终为后来的大型语言模型铺平了道路，例如OpenAI的GPT系列。

同样，基础视觉模型 (FVMs)，例如视觉Transformer (ViT) 和视觉语言对齐模型，例如CLIP 和LLaVA，帮助推动了多模态AI模型的跨模态能力。

虽然语言和视觉领域的基础模型发展迅速，但由于此类模型的特殊性和它们在不同数据集之间的有限可迁移性，开发基础时间序列模型 (FTMs) 和基础图模型 (FGMs) 的工作进展较慢。

尽管如此，诸如Informer 和TimeGPT 之类的时间序列模型以及图神经网络 (Gs)，例如GROVER，的功能可能会转化为通用多模态模型——从而允许GMMs轻松地根据历史时间戳数据（即时间序列预测）进行未来预测，或分析各种实体及其相互作用（即图数据）。

典型的模型流程

根据最近太平洋西北国家实验室的一项调查，该调查考察了GMMs 的发展，一个具有通用能力的多模态模型通常具有以下组件：

输入数据预处理器；
通用学习模块（编码器、解码器）；以及
输出数据后处理器。

来自Munikoti等人的“通用多模态AI：架构、挑战和机遇综述”

不同模态的原始数据由输入数据预处理器预处理，将其转换为通用学习模块可以使用的一种形式。这可以通过序列化或标记化来实现，其中文本、音频或图像被转换为数字“标记”格式，以便可以将其馈送到通用学习模块的编码器中——该编码器充当学习和推理的“主干”。编码器将输入令牌转换为位于高维语义空间中的表征嵌入，用于通用学习。例如，基于文本的数据可以由任何大型语言模型处理，而图像可以由像CLIP这样的模型编码，或者各种模态可以由像ImageBind这样的多模态模型编码。

此外，可能需要一个投影器来转换或“投影”编码器的表征嵌入，使其能够被通用学习模块理解。

解码器然后将多模态表征嵌入转换为与任务相关的输出，并根据从先前步骤收集的跨模态上下文进行信息告知。

挑战

虽然通用多模态人工智能领域仍在不断发展，但仍有一些潜在问题需要考虑。

这些问题包括多模态数据集的短缺，相对于丰富的单模态、基于文本和基于图像的数据集而言。这是由于成本和对数据隐私的合理担忧，以及生成真正全面的多模态数据集的巨大计算和人力成本，这些数据集需要将海量文本数据与音频和图像数据（例如）准确匹配。

其他障碍包括缺乏足够复杂的基准来评估通用多模态模型（GMMs），而通常的基准主要针对文本和图像。

另一个障碍是当前的多模态学习严重偏向于跨模态学习，这往往偏向于图像和文本而不是其他模态。需要更多的研究来探索和创新，以捕捉代表性不足的模态——例如红外图像中的热信息——然后可以利用这些信息来进一步开发用于医疗应用的通用多模态人工智能模型。

尽管存在这些挑战，但进一步发展真正通用的多模态人工智能是一个至关重要的任务，尤其是在建立AGI必要基础方面。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。原始发表：2025-01-072，如有侵权请联系 cloudcommunity@tencent 删除模型数据音频人工智能基础

#感谢您对电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格的认可，转载请说明来源于"电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格

本文地址：http://www.dnpztj.cn/biancheng/1191615.html

推荐阅读

留言与评论（共有 18 条评论）

本站网友兵工集团	20分钟前发表
来自Munikoti等人的“通用多模态AI：架构
本站网友翠苑一区	9分钟前发表
这要归功于它们在处理多种类型数据（文本
本站网友菲利普	11分钟前发表
基于文本和基于图像的数据集而言
本站网友鳝鱼血	5分钟前发表
用于通用学习
本站网友郑州英语培训	7分钟前发表
将其转换为通用学习模块可以使用的一种形式
本站网友配货公司	2分钟前发表
现在人们更加关注构建真正“通用”的多模态AI模型
本站网友脚趾	5分钟前发表
但由于此类模型的特殊性和它们在不同数据集之间的有限可迁移性
本站网友天与	8分钟前发表
或者各种模态可以由像ImageBind这样的多模态模型编码
本站网友 sellin	21分钟前发表
并在不同类型的任务中表现良好
本站网友黄秋生伊波拉病毒	23分钟前发表
典型的模型流程根据最近太平洋西北国家实验室的一项调查
本站网友方案公司	11分钟前发表
挑战虽然通用多模态人工智能领域仍在不断发展
本站网友牙齿整形多少钱	30分钟前发表
分享自作者个人站点/博客
本站网友招行个人贷款	1分钟前发表
该调查考察了GMMs 的发展
本站网友微商号	12分钟前发表
例如
本站网友双11成交额	21分钟前发表
音频或图像被转换为数字“标记”格式
本站网友关节炎偏方	8分钟前发表
原始发表：2025-01-072
本站网友民众乐园环艺电影城	19分钟前发表
基于文本和基于图像的数据集而言

通用多模态AI模型的兴起