您现在的位置是:首页 > 编程 > 

每日学术速递12.19

2025-07-29 15:21:35
每日学术速递12.19 CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | LP 自然语言处理 Power by Kimi&苏神 编辑丨AiCharmSubjects: cs.CV 1.UniMed-CLIP: Towards a Unified Image-Text Pretraining Paradigm for Diverse Medical Imagin

每日学术速递12.19

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | LP 自然语言处理

Power by Kimi&苏神 编辑丨AiCharm

Subjects: cs.CV

1.UniMed-CLIP: Towards a Unified Image-Text Pretraining Paradigm for Diverse Medical Imaging Modalities

标题:UniMed-CLIP:面向多种医学成像模式的统一图像文本预训练范式

作者:Muhammad Uzair Khattak, Shahina Kunhimon, Muzammal aseer, Salman Khan, Fahad Shahbaz Khan

文章链接:.1072

项目代码:

摘要:

通过对比学习训练的视觉语言模型(VLM)在自然图像任务中取得了显着的成功。然而,由于缺乏可公开访问的大规模医学图像文本数据集,它们在医学领域的应用仍然受到限制。现有的医学 VLM 要么在闭源专有数据集上进行训练,要么在相对较小的开源数据集上进行训练,这些数据集不能很好地泛化。同样,大多数模型仍然特定于单个或有限数量的医学成像领域,这再次限制了它们对其他模式的适用性。为了解决这一差距,我们引入了 UniMed,这是一个大规模、开源多模态医学数据集,包含超过 50 万个图像文本对,涵盖六种不同的成像模式:X 射线、CT、MRI、超声、病理学和眼底。 UniMed 是使用数据收集框架开发的,该框架利用大型语言模型 ( LLMs ) 将特定模态的分类数据集转换为图像文本格式,同时合并来自医学领域的现有图像文本数据,从而促进可扩展的 VLM 预训练。使用 UniMed,我们训练了 UniMed-CLIP,这是一种针对六种模式的统一 VLM,其性能显着优于现有的通用 VLM,并与特定模式的医疗 VLM 相匹配,在零样本评估中取得了显着的成果。例如,UniMed-CLIP 比 BiomedCLIP(根据专有数据进行训练)提高了 +12.61 的绝对增益(对 21 个数据集进行平均),同时使用的训练数据少了 倍。为了方便未来的研究,我们在此 https URL发布 UniMed 数据集、训练代码和模型。

这篇论文试图解决什么问题?

这篇论文试图解决的主要问题是如何有效地将视觉-语言模型(Vision-Language Models, VLMs)应用于医学图像领域。具体来说,论文指出了以下几个关键问题:

  1. 数据稀缺性:在医学领域,公开可访问的、大规模的医学图像-文本数据集非常稀缺,这限制了VLMs在医学领域的应用和发展。
  2. 数据集封闭性:现有的一些高性能医学VLMs依赖于专有的封闭源数据集,这阻碍了数据为中心的研究,因为公众无法访问这些数据。
  3. 模型泛化能力有限:大多数现有的医学VLMs只能在单一或有限数量的医学成像领域中表现良好,限制了它们在其他模态中的适用性。
  4. 模型性能受限:由于训练数据规模小,一些VLMs的性能受到了限制。

为了解决这些问题,论文介绍了UniMed,这是一个大规模、开源的多模态医学数据集,包含超过50万张图像-文本对,覆盖了六种不同的成像模态:X光、CT、MRI、超声、病理和眼底图像。UniMed通过利用大型语言模型(LLMs)将模态特定的分类数据集转换为图像-文本格式,同时结合医学领域已有的图像-文本数据,促进了VLMs的可扩展预训练。此外,论文还训练了一个统一的VLM,称为UniMed-CLIP,它在多种基准测试中表现出,特别是在零样本评估中,与特定模态的医学VLMs相匹配,同时显著优于现有的通用VLMs。

论文如何解决这个问题?

论文通过以下几个步骤解决上述问题:

1. 创建UniMed数据集

  • 数据收集:作者收集了公开可用的医学图像数据,包括图像-文本对和仅含图像标签的数据集,以确保数据的多样性和覆盖多种医学成像模态。
  • 利用LLMs生成描述:对于仅含图像标签的数据集,使用大型语言模型(LLMs)将标签信息转换成描述性的文本,从而创建伪图像-文本对。这一步骤增加了数据集的规模,并使得数据集适用于VLM预训练。

2. 训练UniMed-CLIP模型

  • 双编码器架构:UniMed-CLIP采用双编码器架构,分别对图像和文本进行编码,并通过对比学习的方式进行预训练。
  • 多标题策略:在预训练过程中,对于来自标签数据的图像,UniMed-CLIP使用多个由LLM生成的描述,每次随机选择一个描述作为文本输入,增加了数据集的多样性。

. 实现显著的性能提升

  • 零样本评估:UniMed-CLIP在多个医学图像识别数据集上进行了零样本评估,显示出相比于现有通用VLMs和特定模态VLMs的显著性能提升。
  • 下游任务迁移:通过线性探测实验,评估了UniMed-CLIP在不同下游任务上的迁移能力,证明了其学习到的表示具有较好的泛化性。

4. 促进进一步研究

  • 开源资源:作者计划开源UniMed数据集、训练代码和模型检查点,以鼓励和促进医学VLMs领域的进一步研究和应用。

通过上述步骤,论文不仅提出了一个大规模、多模态、开源的医学图像-文本数据集,还展示了一个在该数据集上训练的统一VLM,有效地解决了医学图像领域VLMs的应用和发展中的关键问题。

论文做了哪些实验?

论文中进行了一系列实验来评估UniMed-CLIP模型的性能,包括零样本分类任务和下游任务迁移实验。以下是实验的具体内容:

零样本医学图像分类(Zero-shot Medical Imaging Classification)

  • 实验目的:评估UniMed-CLIP在未经见过的数据集上的表现,并与现有的视觉-语言模型(VLMs)进行比较。
  • 数据集:使用了21个覆盖6种不同医学成像模态(X光、CT、MRI、超声、病理和视网膜眼底图像)的数据集。
  • 任务:涉及多种诊断任务,包括疾病检测、器官分类、分级和肿瘤识别等。
  • 性能指标:对于平衡数据集使用准确率(Accuracy),对于不平衡数据集使用曲线下面积(AUC)作为评估指标。
  • 结果:UniMed-CLIP在多个数据集上显示出比现有通用VLMs更好的性能,并且与特定模态的VLMs性能相当。

下游任务迁移(Downstream Task Transfer)

  • 实验目的:评估UniMed-CLIP学到的表示在新任务上的迁移能力。
  • 方法:通过线性探测(linear probing)技术,冻结预训练的编码器,并在下游任务数据上微调一个线性层。
  • 数据集:使用与零样本评估相同的数据集。
  • 样本比例:在实验中,使用了从训练集中抽取的1%、10%和100%的数据点。
  • 结果:UniMed-CLIP在不同模态的数据集上表现出一致的性能提升,特别是在数据量有限的情况下,UniMed-CLIP的性能接近或超过了在完整数据集上训练的其他模型。

消融研究(Ablative Analysis)

  • 实验目的:分析不同设计选择对UniMed-CLIP性能的影响。
  • 文本描述多样性:研究了为图像-标签数据集使用多个描述的影响,以及随机选择单个描述来增加数据集多样性的效果。
  • 测试时提示集成(Test-time Prompt Ensembling):分析了在测试时使用多个提示模板对零样本性能的影响。
  • 模态特定数据的重要性:通过逐步移除模态特定数据集,研究了这些数据对UniMed-CLIP性能的贡献。

这些实验全面评估了UniMed-CLIP的性能,并验证了其在医学图像领域的有效性和泛化能力。通过这些实验,论文展示了UniMed-CLIP作为一个统一的预训练范式在多样化医学成像模态中的潜力。

论文的主要内容:

这篇论文的主要内容包括以下几个方面:

  1. 问题陈述
    • 论文指出在医学图像领域应用视觉-语言模型(VLMs)面临的挑战,包括公开可访问的大型医学图像-文本数据集的稀缺性、现有模型的泛化能力有限以及模型过于专一化于特定模态。
  2. UniMed数据集的创建
    • 为了解决上述问题,作者提出了UniMed,一个大规模、多模态、开源的医学数据集,包含超过50万张图像-文本对,覆盖六种不同的成像模态:X光、CT、MRI、超声、病理和眼底图像。
    • UniMed数据集是通过结合现有的图像-文本数据和利用大型语言模型(LLMs)将仅含图像标签的数据转换为图像-文本对来创建的。
  3. UniMed-CLIP模型的训练
    • 基于UniMed数据集,作者训练了一个统一的VLM,称为UniMed-CLIP,它采用对比学习的方法,并在多模态数据上进行预训练。
    • UniMed-CLIP模型在零样本评估中显示出显著的性能提升,并与特定模态的医学VLMs相匹配,同时在多个基准测试中优于现有的通用VLMs。
  4. 实验评估
    • 论文通过零样本分类任务和下游任务迁移实验来评估UniMed-CLIP的性能,并与现有的VLMs进行比较。
    • 实验结果表明,UniMed-CLIP在多个医学图像识别数据集上展现出了优越的性能,并且在数据受限的情况下也能很好地泛化。
  5. 开源贡献
    • 为了促进医学VLMs领域的进一步研究,作者计划开源UniMed数据集、训练代码和模型检查点。

总结来说,这篇论文通过创建一个大规模的多模态医学数据集UniMed,并基于此数据集训练了一个统一的VLM UniMed-CLIP,有效地解决了医学图像领域VLMs的应用和发展中的关键问题,并推动了该领域的研究进展。

2.GaussianWorld: Gaussian World Model for Streaming D Occupancy Prediction

标题: GaussianWorld:用于流式传输 D 占用预测的高斯世界模型

作者:Sicheng Zuo, Wenzhao Zheng, Yuanhui Huang, Jie Zhou, Jiwen Lu

文章链接:.107

项目代码:

摘要:

D 占用预测对于自动驾驶非常重要,因为它可以全面感知周围环境。为了合并顺序输入,大多数现有方法都会融合先前帧的表示来推断当前的 D 占用情况。然而,他们没有考虑驾驶场景的连续性,也忽略了 D 场景演化提供的强先验(例如,只有动态物体移动)。在本文中,我们提出了一个基于世界模型的框架来利用场景演化进行感知。我们将 D 占用预测重新表述为以当前传感器输入为条件的 4D 占用预测问题。我们将场景演化分解为三个因素:1)静态场景的自我运动对齐; 2)动态物体的局部运动; )完成新观察到的场景。然后,我们采用高斯世界模型 (GaussianWorld) 来明确利用这些先验,并考虑当前 RGB 观察来推断 D 高斯空间中的场景演化。我们评估了我们的框架在广泛使用的 nuScenes 数据集上的有效性。我们的 GaussianWorld 在不引入额外计算的情况下将单帧对应的性能提高了 2% 以上(以 mIoU 计算)。

这篇论文试图解决什么问题?

这篇论文试图解决的问题是如何在自动驾驶领域中有效地进行D语义占用预测。具体来说,论文关注以下几个关键点:

  1. 整合序列输入:大多数现有的D占用预测方法仅依赖单帧输入,而忽略了驾驶场景的时间连续性。论文提出利用序列输入(即时间信息)来提高预测性能。
  2. 考虑驾驶场景的连续性:现有的方法在融合来自先前帧的表示时,没有考虑到驾驶场景的连续性和简单性,这导致模型难以理解驾驶场景的发展。
  3. 减少计算开销:传统的多帧融合方法会增加额外的计算负担。论文提出的方法旨在不增加额外计算开销的情况下改善性能。
  4. 显式建模场景演变:论文提出了一个基于世界模型的框架,通过显式地建模场景演变(包括静态场景的自我运动对齐、动态对象的局部运动和新观测区域的完成)来改进D占用预测。

总的来说,论文旨在通过提出一个新的基于世界模型的框架(GaussianWorld),在保持计算效率的同时,提高D语义占用预测的性能,特别是在处理序列输入和场景演变方面。

论文如何解决这个问题?

论文通过提出一个基于世界模型的框架,称为GaussianWorld,来解决D语义占用预测问题。以下是该框架解决这个问题的关键步骤和方法:

  1. 将D占用预测重新定义为4D占用预测问题
    • 论文将传统的D占用预测问题扩展为一个4D问题,即在当前传感器输入的条件下预测场景的演变。
  2. 显式建模场景演变
    • 将场景演变分解为三个因素:静态场景的自我运动对齐、动态对象的局部运动和新观测区域的完成。
    • 利用D高斯(Gaussians)作为场景表示,显式和连续地建模对象运动。
  3. GaussianWorld模型
    • 采用GaussianWorld来处理上述分解的场景演变因素,并在D高斯空间中预测场景的演变。
    • 包括对历史D高斯的对齐、动态高斯的位置更新以及新观测区域的高斯完成。
  4. 处理静态场景和动态对象
    • 通过全局仿射变换对齐历史D高斯,以补偿自我运动的影响。
    • 区分动态和静态高斯,并分别对它们进行更新,以模拟动态对象的运动。
  5. 新观测区域的完成
    • 对于观测到的新区域,用随机初始化的高斯进行完成,以维持一致数量的D高斯表示。
  6. 迭代细化
    • 通过多个进化层(evolution layers)和细化层(refinement layers)迭代地细化D高斯表示,增强模型学习场景演变的能力。
  7. 流式训练策略
    • 采用流式训练策略,逐渐增加输入模型的图像序列长度,使模型适应于预测更长的序列。
  8. 效率和性能
    • GaussianWorld在不增加额外计算开销的情况下,相对于单帧模型提高了超过2%的mIoU性能。

通过这些方法,GaussianWorld能够有效地利用时间信息来改进D语义占用预测,同时保持了计算效率。

论文做了哪些实验?

论文中进行了以下实验来评估GaussianWorld模型的有效性:

  1. 数据集
    • 使用了广泛使用的nuScenes数据集进行实验,该数据集包含1000个不同的驾驶场景,分为700个训练序列、150个验证序列和150个测试序列。
  2. 评估指标
    • 使用了交集比并集(IoU)来评估模型的几何重建性能。
    • 使用了平均交集比并集(mIoU)来评估模型的语义感知能力。
  3. 实现细节
    • 设定输入图像分辨率为900×1600。
    • 使用Reset101-DC作为图像主干网络,并采用特征金字塔网络(FP)提取多尺度图像特征。
    • 使用总共25600个高斯来表示D场景,并使用4个高斯世界层来细化高斯的属性。
  4. 结果和分析
    • 在nuScenes验证集上与其他最先进的方法进行了全面的比较。
    • 展示了GaussianWorld在单帧设置下的变体(GaussianFormer-B)与当前最先进方法的比较性能。
    • 展示了引入时间融合变体(GaussianFormer-T)后的性能,并与GaussianWorld的性能进行了比较。
  5. 不同时间建模方法的比较
    • 探索了在GaussianFormer基础上实现的两种时间融合方法:D高斯空间中的时间融合和透视图空间中的时间融合。
    • 比较了这些方法的性能和效率,并展示了GaussianWorld在保持低延迟和内存消耗的同时显著提升性能。
  6. 分解场景演变因素的消融研究
    • 对GaussianWorld显式建模的三个场景演变因素进行了消融研究,以验证它们的效果。
  7. 不同序列长度的流式预测性能
    • 展示了使用不同流式长度时GaussianWorld的mIoU和IoU性能,并分析了性能变化的原因。
  8. 流式训练策略的消融研究
    • 探索了不同的流式训练策略,包括序列长度的增加、梯度累积方法以及是否使用概率建模。
  9. 可视化结果
    • 提供了GaussianWorld与现有方法相比的定性分析,展示了跨帧一致性,特别是对于静态元素的预测效果。

这些实验全面评估了GaussianWorld模型的性能,并与现有方法进行了比较,证明了其在D语义占用预测任务中的有效性和优越性。

论文的主要内容:

这篇论文提出了一个基于世界模型的框架,名为GaussianWorld,用于流式的D语义占用预测,主要贡献和内容可以总结如下:

  1. 问题定义
    • 针对自动驾驶中D占用预测问题,提出利用时间序列信息改善预测性能,同时避免额外的计算开销。
  2. 方法论
    • 将D占用预测问题重新定义为基于当前传感器输入的4D占用预测问题。
    • 将场景演变分解为三个因素:静态场景的自我运动对齐、动态对象的局部运动和新观测区域的完成。
    • 提出使用D高斯(Gaussians)作为场景表示,以显式和连续地建模对象运动。
  3. GaussianWorld模型
    • 采用GaussianWorld模型来处理分解的场景演变因素,并在D高斯空间中预测场景演变。
    • 包括对历史D高斯的对齐、动态高斯的位置更新以及新观测区域的高斯完成。
  4. 实验验证
    • 在nuScenes数据集上进行实验,验证了GaussianWorld模型的有效性。
    • 与单帧模型和其他时间融合方法相比,GaussianWorld在不增加额外计算开销的情况下提高了超过2%的mIoU性能。
  5. 未来方向和局限性
    • 提出了未来可能的研究方向,包括改进跨帧一致性、处理更复杂的动态场景等。
    • 指出了模型的局限性,包括无法完全实现静态场景的跨帧一致性。

总体而言,这篇论文通过引入世界模型的概念,并利用D高斯作为场景表示,提出了一个新颖的框架来改进D语义占用预测任务,特别是在整合时间信息和提高预测性能方面。

.GaussianAD: Gaussian-Centric End-to-End Autonomous Driving

标题: GaussianAD:以高斯为中心的端到端自动驾驶

作者: Wenzhao Zheng, Junjie Wu, Yao Zheng, Sicheng Zuo, Zixun Xie, Longchao Yang, Yong Pan, Zhihui Hao, Peng Jia, Xianpeng Lang, Shanghang Zhang

文章链接:.1071

项目代码:

摘要:

基于视觉的自动驾驶因其令人满意的性能和低廉的成本而展现出巨大的潜力。大多数现有方法采用密集表示(例如鸟瞰图)或稀疏表示(例如实例框)进行决策,这会在全面性和效率之间进行权衡。本文探讨了以高斯为中心的端到端自动驾驶 (GaussianAD) 框架,并利用 D 语义高斯来广泛但稀疏地描述场景。我们使用均匀的 D 高斯初始化场景,并使用周围视图图像逐步细化它们以获得 D 高斯场景表示。然后,我们使用稀疏卷积来有效地执行 D 感知(例如,D 检测、语义图构建)。我们用动态语义预测高斯的 D 流,并以未来场景预测的目标相应地规划自我轨迹。我们的 GaussianAD 可以通过可选的感知标签(如果可用)以端到端的方式进行训练。对广泛使用的 nuScenes 数据集进行的大量实验验证了我们的端到端 GaussianAD 在各种任务上的有效性,包括运动规划、D 占用预测和 4D 占用预测。

这篇论文试图解决什么问题?

这篇论文提出了一个名为GaussianAD的框架,旨在解决基于视觉的自动驾驶中的关键问题:如何设计一个既能全面描述场景又能保持计算效率的中间D场景表示。具体来说,论文试图解决以下几个问题:

  1. 现有方法的局限性:大多数现有方法采用密集表示(例如,鸟瞰图)或稀疏表示(例如,实例框)进行决策,这些方法在全面性和效率之间存在权衡。密集表示能够捕获更多的细节,但计算成本高;而稀疏表示虽然计算效率高,但可能遗漏关键信息。
  2. 端到端自动驾驶的挑战:传统的自动驾驶研究通常将任务分解为感知、预测和规划模块,并分别训练它们。这种方法可能导致信息丢失,并且不同任务关注的信息不同,可能导致规划模块获得的信息不全面。
  3. D场景表示的设计:为了实现端到端自动驾驶,需要设计一个能够从2D图像中推断出D结构信息的中间D场景表示。这个表示需要能够在保持计算效率的同时,传递尽可能多的信息,以支持决策过程。
  4. 未来场景预测:为了提高自动驾驶的安全性,需要预测场景的未来发展,包括动态和静态元素的演变。现有的方法主要关注动态对象的运动预测,而GaussianAD提出了一种新的方法来预测包括动态和静态元素在内的整个场景的演变。

综上所述,GaussianAD框架通过使用D语义高斯来稀疏但全面地描述场景,旨在提供一个既能有效保持细节又具有计算效率的D场景表示,以提高端到端自动驾驶的性能。

论文如何解决这个问题?

论文提出了一个名为GaussianAD的框架来解决上述问题,具体解决方案如下:

1. Gaussian-Centric Autonomous Driving Framework

  • D Scene Representation:GaussianAD框架使用D语义高斯(Gaussians)作为场景的中间表示方法。这些高斯分布在D空间中,能够稀疏但全面地描述场景,既保持了信息的全面性,又维持了计算的高效性。

2. 初始化和优化D Gaussians

  • Uniform Initialization:初始场景用一组均匀分布的D高斯来表示,然后通过周围视图图像逐步优化这些高斯,以获得D高斯场景表示。

. 利用稀疏卷积进行D感知

  • Sparse Convolution:利用稀疏卷积来高效执行D感知任务,例如D检测和语义地图构建。

4. 预测D Flows

  • Gaussian Flows:提出了D高斯流的概念,用于全面和显式地建模场景演变,预测每个高斯的未来位移。

5. 规划自我轨迹

  • Trajectory Planning:根据动态语义的D流预测结果,相应地规划自我(ego)轨迹。

6. 端到端训练

  • End-to-End Training:GaussianAD可以端到端地进行训练,并且在可用时可以选择性地使用感知标签进行训练。

7. 灵活性和适应性

  • Flexibility:框架能够适应不同的数据,并且可以根据不同的可用注释来施加密集或稀疏的监督,以指导场景表示的学习过程。

8. 实验验证

  • Experiments:通过在nuScenes数据集上进行广泛的实验,验证了GaussianAD框架在各种任务(包括运动规划、D占用预测和4D占用预测)上的有效性。

总结

GaussianAD框架通过利用D语义高斯作为中间表示,有效地平衡了信息的全面性和计算的效率。通过端到端的训练方式,该框架能够直接从图像输入预测未来的轨迹,减少了信息的丢失,并提高了自动驾驶系统的性能。此外,该框架的灵活性使其能够适应不同的训练数据和注释,进一步增强了其实用性。

论文做了哪些实验?

论文中进行了一系列的实验来评估GaussianAD框架的性能,实验主要围绕以下几个方面:

1. 数据集

  • nuScenes 数据集:这是一个广泛使用的自动驾驶数据集,包含1000个驾驶序列,每个序列提供20秒的视频,由RGB和LiDAR传感器捕获。该数据集提供了2Hz的关键帧标注,包括用于语义地图构建和D对象检测任务的标签。此外,SurroundOcc为nuScenes补充了D语义占用的标注。

2. 评估指标

  • L2位移误差:用于量化规划轨迹与真实轨迹之间的差异。
  • 碰撞率:指示自动驾驶车辆按照规划路径行驶时与其他代理发生碰撞的频率。

. 实施细节

  • 模型架构:使用Reset101-DC作为骨干网络,并采用特征金字塔网络生成多尺度图像特征。
  • 输入分辨率:输入图像分辨率为1600×900。
  • 高斯数量:默认使用25600个高斯。
  • 优化器和学习率:使用AdamW优化器,初始学习率为2e-4,按照余弦衰减策略调整。

4. 结果和分析

  • 端到端规划结果:与现有的端到端自动驾驶模型进行比较,展示了GaussianAD在L2误差和碰撞率上的性能。
  • D占用预测:评估了GaussianAD在D对象检测和D占用预测任务上的性能,使用了平均精度(mAP)和平均交并比(mIoU)作为指标。
  • 4D占用预测:评估了GaussianAD在预测未来D占用上的能力,测量了未来1s、2s和s时刻的D占用质量(mIoU和IoU)。
  • 不同监督信号的效果:分析了使用不同辅助监督信号(如D占用、D检测、地图构建、运动预测和场景预测标签)对规划性能的影响。
  • 高斯修剪:分析了进一步修剪高斯以减少冗余对性能的影响。

5. 可视化

  • 结果展示:提供了GaussianAD在D对象检测和规划任务中的可视化结果,展示了模型在多种场景下的有效性。

这些实验全面地评估了GaussianAD框架在不同任务上的性能,并与现有技术进行了比较,证明了其在端到端自动驾驶领域的有效性和竞争力。

论文的主要内容:

这篇论文提出了一个名为GaussianAD的框架,旨在解决基于视觉的自动驾驶中如何设计一个全面且高效的D场景表示问题。以下是论文的主要内容总结:

1. 问题背景

  • 自动驾驶系统需要从视觉输入中推断出D结构信息,并在决策过程中保持信息的全面性和计算的效率。

2. GaussianAD框架

  • 采用D语义高斯来稀疏但全面地描述场景,平衡了信息的全面性和计算效率。
  • 利用稀疏卷积进行D感知任务,如D检测和语义地图构建。
  • 提出D高斯流以全面显式地建模场景演变,预测每个高斯的未来位移。
  • 根据动态语义的D流预测结果规划自我轨迹。

. 端到端训练

  • GaussianAD可以端到端地进行训练,并且在可用时可以选择性地使用感知标签进行训练。

4. 实验验证

  • 在nuScenes数据集上进行了广泛的实验,验证了GaussianAD框架在运动规划、D占用预测和4D占用预测等任务上的有效性。
  • 与现有技术相比,GaussianAD在端到端规划任务上展现了竞争性能。

5. 灵活性和适应性

  • 框架能够适应不同的数据,并且可以根据不同的可用注释来施加密集或稀疏的监督。

6. 进一步探索的点

  • 探索基于D高斯场景表示的更大规模端到端模型。
  • 提高场景演变预测的准确性。
  • 考虑多模态数据融合和更复杂的场景环境。
  • 提高模型的泛化能力、可解释性和安全性。

总体而言,GaussianAD通过其创新的D高斯表示和端到端训练方法,为自动驾驶领域提供了一个新的视角,展示了在多个自动驾驶关键任务上的应用潜力。

本文参与 腾讯云自媒体同步曝光计划,分享自。原始发表:2024-12-19,如有侵权请联系 cloudcommunity@tencent 删除论文模型数据性能框架

#感谢您对电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格的认可,转载请说明来源于"电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格

本文地址:http://www.dnpztj.cn/biancheng/1241376.html

相关标签:无
上传时间: 2025-07-27 03:36:53
留言与评论(共有 11 条评论)
本站网友 肛瘘图片
5分钟前 发表
D占用预测和4D占用预测等任务上的有效性
本站网友 逍遥颗粒
10分钟前 发表
并推动了该领域的研究进展
本站网友 玉兰花的功效
29分钟前 发表
下游任务迁移(Downstream Task Transfer)实验目的:评估UniMed-CLIP学到的表示在新任务上的迁移能力
本站网友 乳鸽的营养价值
27分钟前 发表
指出了模型的局限性
本站网友 天鹅湖花园小区
2分钟前 发表
动态对象的局部运动和新观测区域的完成)来改进D占用预测
本站网友 杭州农药厂
3分钟前 发表
该框架的灵活性使其能够适应不同的训练数据和注释
本站网友 青岛皮肤病医院
16分钟前 发表
能够稀疏但全面地描述场景
本站网友 简悦
0秒前 发表
这是一种针对六种模式的统一 VLM
本站网友 shutter
26分钟前 发表
病理和眼底图像
本站网友 儿童营养菜谱
12分钟前 发表
这些数据集不能很好地泛化