您现在的位置是:首页 > 编程 > 

港大&上海AI实验室

2025-07-23 08:39:54
港大&上海AI实验室 编辑:陈萍萍的公主@一点人工一点智能论文地址:.01428项目地址:/本文介绍了一种名为GPT4Scene的新方法,用于训练和推理视觉语言模型(VLM),以帮助其理解三维空间中的场景。传统的VLM在处理三维空间知识时存在局限性,主要原因是缺乏全局局部对应关系。为了解决这个问题,作者提出了GPT4Scene,它构建了一个三维鸟瞰图,并标记了视频帧中的一致对象ID。通过将

港大&上海AI实验室

编辑:陈萍萍的公主@一点人工一点智能

论文地址:.01428

项目地址:/

本文介绍了一种名为GPT4Scene的新方法,用于训练和推理视觉语言模型(VLM),以帮助其理解三维空间中的场景。传统的VLM在处理三维空间知识时存在局限性,主要原因是缺乏全局局部对应关系。

为了解决这个问题,作者提出了GPT4Scene,它构建了一个三维鸟瞰图,并标记了视频帧中的一致对象ID。通过将鸟瞰图像与视频帧连接起来输入模型,可以显著提高模型对室内场景的理解能力。实验结果表明,在零样本评估中,GPT4Scene比闭源VLM如GPT-4o表现更好。此外,作者还准备了一个包含165000个文本注释的视频数据集,用于微调开源VLM,取得了最先进的性能。

值得注意的是,经过GPT4Scene训练后,VLM能够在没有视觉提示和鸟瞰图像的情况下持续改进,这表明该方法有助于VLM发展内在的能力去理解三维场景,为扩展预训练VLM提供了一种非侵入式的方法。

论文方法

1.1 方法描述

该论文提出了一种名为GPT4Scene的框架,用于增强视觉语言模型(VLM)在理解三维场景中的能力。其主要思路是通过提供全局场景信息和对象级别的注释来改善VLM对三维场景的理解。

具体实现过程包括以下步骤:

1)对于给定的室内视频序列,从中均匀采样若干帧。

2)利用D重建技术将每个帧转换为点云,并将其渲染成鸟瞰图,以提供全局场景信息。

)在鸟瞰图上标记出特定物体的位置,并在原始视频帧中显示这些标记,以便VLM能够关注特定的物体。

4)将以上处理后的视频序列和鸟瞰图像输入到VLM中,以完成任务。

此外,论文还提出了两种方法来进一步提高VLM的能力:一种是使用零提示解锁强大的封闭源VLM,另一种是通过对ScanAlign数据集进行单阶段指令微调来增强开源、较小规模的VLM。

1.2 方法改进

论文提出的GPT4Scene框架和两种方法都针对VLM在理解三维场景方面的不足进行了改进。具体来说,它们提供了更多的全局场景信息和对象级别注释,使得VLM能够更好地理解三维场景。此外,论文还提出了零提示解锁和ScanAlign微调这两种方法,分别适用于不同的VLM类型,从而提高了不同VLM的能力。

1. 解决的问题

论文的主要目标是解决VLM在理解三维场景时存在的问题。由于VLM通常只能获得局部信息,因此很难准确地理解整个场景。为了解决这个问题,论文提出了GPT4Scene框架和两种方法,以提供更多全局场景信息和对象级别注释,从而使VLM能够更好地理解三维场景。这些方法可以应用于各种类型的VLM,从而提高了它们的能力。

论文实验

本文主要介绍了基于GPT-4的场景理解模型(GPT4Scene)在D问题回答、密集标注和视觉定位等任务上的表现,并进行了多个对比实验来验证其有效性。

首先,在D问题回答任务上,作者将方法分为三类:专注于D问答任务的经典模型、基于D点的LLM模型以及基于视觉的LLM模型。结果表明,使用GPT-4零样本优于所有专门针对D问答任务的方法,而开放源代码的LLM模型在零样本模式下表现不佳。通过使用GPT4Scene策略对Qwen2-VL-7B进行微调,可以显著提高问答性能,达到SOTA水平。

其次,在密集标注和视觉定位任务中,由于需要标记才能完成这些任务,因此与问题回答不同。作者还评估了模型在这两个任务中的性能,并发现经过GPT4Scene微调后的Qwen2-VL-7B显著提高了VLM的D标注和定位能力。此外,在高分辨率和更大帧设置(HD)下,该模型达到了SOTA性能,超越了所有现有方法。

最后,作者进行了多个Ablation研究来验证设计模块的有效性并分析因素如分辨率和帧数的影响。结果表明,BEV图像和STO标记增强了空间理解能力,删除它们会导致性能下降。同时,增加帧数可以增强室内场景的理解能力,对于定位任务效果更明显。

总之,本文证明了GPT4Scene在多种场景理解任务中的有效性,并提供了多个对比实验来支持这一结论。

方法创新点

本文的方法创新点在于将全局场景信息和视频帧与对象之间的对应关系纳入考虑范围,通过重构三维点云并生成鸟瞰图像来实现全局信息的提取。同时,通过添加空间时间对象标记(STO标记)来建立全局和局部数据的对应关系。这种方法使得VLM能够更好地理解三维场景信息,并取得了显著的性能提升。

未来展望

本文的研究成果为VLM在三维场景理解方面的应用提供了新的思路和方法。未来可以进一步探索如何结合其他传感器的数据(如激光雷达或深度相机),以提高VLM对三维场景的理解能力。此外,也可以尝试将该方法应用于其他领域,如自动驾驶或机器人导航等。

本文参与 腾讯云自媒体同步曝光计划,分享自。原始发表:2025-01-06,如有侵权请联系 cloudcommunity@tencent 删除论文模型视频性能对象

#感谢您对电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格的认可,转载请说明来源于"电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格

本文地址:http://www.dnpztj.cn/biancheng/1192846.html

相关标签:无
上传时间: 2025-07-23 01:27:34
留言与评论(共有 12 条评论)
本站网友 留给我一点温柔
20分钟前 发表
并将其渲染成鸟瞰图
本站网友 rofo
7分钟前 发表
VLM能够在没有视觉提示和鸟瞰图像的情况下持续改进
本站网友 健康小游戏
23分钟前 发表
未来展望本文的研究成果为VLM在三维场景理解方面的应用提供了新的思路和方法
本站网友 昆明货运公司
25分钟前 发表
论文实验本文主要介绍了基于GPT-4的场景理解模型(GPT4Scene)在D问题回答
本站网友 醋泡鸡蛋祛斑小窍门
30分钟前 发表
对于定位任务效果更明显
本站网友 笑脸图标
9分钟前 发表
作者还准备了一个包含165000个文本注释的视频数据集
本站网友 家居装饰设计
4分钟前 发表
原始发表:2025-01-06
本站网友 高光
16分钟前 发表
并发现经过GPT4Scene微调后的Qwen2-VL-7B显著提高了VLM的D标注和定位能力
本站网友 喜康素
29分钟前 发表
使用GPT-4零样本优于所有专门针对D问答任务的方法
本站网友 黑市场
23分钟前 发表
在零样本评估中
本站网友 何亮亮
14分钟前 发表
并在原始视频帧中显示这些标记