福州网站建设嘉艺数字今天科技网站-河源市网站建设公司-Seo优化

福州网站建设嘉艺,数字今天科技网站,东莞现在好找工作吗,哈尔滨建设工程网纯图像也能搞定3D开放词汇感知#xff01;POP-3D让机器“看懂3D听懂人话” 先搞懂核心#xff1a;POP-3D到底解决了什么问题#xff1f; 核心目标#xff1a;本文的目标是基于输入的2D RGB图像集合#xff0c;预测环境的3D体素表示#xff0c;以支持零样本语义分割或自然…纯图像也能搞定3D开放词汇感知POP-3D让机器“看懂3D听懂人话”先搞懂核心POP-3D到底解决了什么问题核心目标本文的目标是基于输入的2D RGB图像集合预测环境的3D体素表示以支持零样本语义分割或自然语言查询驱动的概念搜索等开放词汇任务这个格子是空的还是被物体占用的占用预测被占用的话它对应哪个物体语义分类而且这个物体可以是训练时没见过的开放词汇。而它要解决的行业痛点的很直接成本高不用激光雷达仅靠相机就能实现3D感知标注难训练时不用人工标注3D数据靠LiDAR和预训练模型自动生成监督信号不灵活支持自然语言查询新增类别不用重新训练比如想识别“施工锥”直接输入文字就行。核心方法3个模块1个训练策略搞定纯图像3D开放词汇感知POP-3D的成功关键在于“简洁又精准”的架构设计和三模态自监督训练。不用复杂的模块堆叠核心就是“编码器两个预测头”再加上巧妙的训练方式。1. 模型架构2D转3D双头输出兼顾“占用判断”和“语言理解”整个模型的输入只有2D环视图像比如车顶上6个相机拍的画面输出是3D体素的“占用状态”和“语言对齐特征”架构分三部分2D-3D编码器f3df3df3d核心是把2D图像特征“升维”成3D体素特征。POP-3D用了TPVFormer作为骨干之前专门做3D占用预测的强基线能把多相机的2D画面融合成一个密集的3D体素特征网格。编码器f3D生成特征体素网格其中HV、WV和DV是体素网格的空间维度CV是每个体素的特征维度。该特征体素网格随后被输入到两个不同的预测头。占用头g专门判断每个体素“空不空”。它是一个简单的非线性网络输入3D体素特征输出每个体素的“空/占用”概率。比如某个体素里有车的一部分就会被预测为“占用”。其输出张量为该头采用非线性网络实现包含Nocc个隐藏块结构为Linear-Softplus-Linear每个隐藏块具有C个隐藏特征最后通过线性分类器输出占用概率。3D语言头h让每个体素“懂人话”的关键。它把每个体素的视觉特征转换成和自然语言对齐的特征比如512维向量。这个特征能直接和“车”“门”“轮胎”这些文字的特征做匹配——这也是“开放词汇”的核心体素特征和语言语义绑在了一起。其输出张量为与占用头类似3D语言头包含N个隐藏块结构为Linear-Softplus-Linear每个线性层输出C个特征最后通过线性层输出每个体素的Cftout维视觉-语言嵌入。2. 训练策略三模态自监督不用人工3D标注这是POP-3D最巧妙的地方用“图像LiDAR语言”三种模态自动生成监督信号完全不用人工标注3D数据。占用头的监督LiDAR自动标“空/占用”训练时用LiDAR点云当“免费标注工具”如果一个体素里有LiDAR点就自动标为“占用”没有的话标为“空”。然后用交叉熵Lovász-softmax损失训练解决“空体素远多于占用体素”的类别不平衡问题。不用人手动标3DLiDAR自己就能搞定。语言头的监督MaskCLIP提供“像素级语言特征”语言头需要知道“哪个体素对应哪个文字语义”但没法手动标所以POP-3D用了预训练的MaskCLIP把LiDAR点投影到2D图像上找到每个3D点在图像里的对应像素用MaskCLIP提取这个像素的“语言对齐特征”比如图像里“轮胎像素”的特征已经和“轮胎”文字对齐了在图像Ic上运行语言-图像对齐特征提取器fI并利用2D投影坐标从生成的特征图中采样把这个2D像素特征作为3D体素的“语言特征目标”用L2均方误差损失训练语言头让体素特征和像素语言特征对齐。最终损失:训练整个网络的最终损失是占用损失和语言-图像损失的加权和通过单一超参数λ平衡两个损失的权重3. 关键环节3D开放词汇测试时推理怎么“用”模型训练好的POP-3D核心价值在于“开放词汇推理”——不用重新训练输入文字就能完成3D语义分割或物体定位。具体分两个核心任务步骤简单又直观1零样本3D语义分割输入文字自动给3D体素分类比如想让模型在3D空间里分割“车、人、施工锥”其中“施工锥”没训练过步骤如下输入图像得到基础输出把环视图像喂给模型占用头输出O_occ每个体素“空/占用”语言头输出O_ft每个体素的语言对齐特征文字扩展生成稳定特征为了让模型更精准理解文字用预定义模板扩展查询比如“施工锥”扩展成“道路上的橙色警示锥”“临时交通锥”把这些句子输入语言编码器得到多个语言特征再求平均——避免单个句子描述片面相似度匹配给体素贴标签对每个“被占用”的体素计算它的O_ft特征和每个文字特征的相似度比如“施工锥”文字特征和体素特征的匹配分数把分数最高的文字类别贴给这个体素。2语言驱动3D接地输入文字精准定位3D区域比如想在3D场景里找“建筑门”“斑马线”步骤更简洁筛选占用体素从O_occ里挑出“被占用”的体素忽略空体素单句查询计算相似度输入单个文字查询比如“斑马线”编码成语言特征和每个占用体素的O_ft特征算相似度可视化或定位相似度分数可以做成热力图颜色越深匹配度越高也能设阈值筛选出目标区域——比如直接标出3D空间里“斑马线”对应的体素位置。实验亮点POP-3D的实验结果很有说服力核心亮点就是“纯图像输入干过带激光雷达或全监督的方法”占用预测超全监督在nuScenes数据集上类别无关的占用IoU判断空/占用的精度达到38.8比全监督的TPVFormer高11.5个点——说明纯图像自监督在“找物体位置”上比依赖3D标注的方法还强。零样本分割性能能打不用标注3D语义仅靠文字查询就能实现3D语义分割性能达到全监督方法的78%。比如想分割“车、人、树”不用提前训练这些类别输入文字就能自动标注3D体素。开放词汇检索更精准在自己构建的3D检索数据集上mAP达到18.4比直接把2D语言特征反投影到3D的MaskCLIP高3.5个点。比如输入“建筑门”“轮胎”模型能在3D空间里精准找到对应的区域还能用热力图可视化。推理时不用激光雷达这是最实用的点训练时用LiDAR生成监督信号实际部署时只需要相机——成本直接降下来普通车辆、机器人都能装。实际应用这些场景直接受益POP-3D的核心优势是“低成本高灵活”所以应用场景特别广自动驾驶不用激光雷达仅靠环视相机就能识别道路上的新物体比如施工锥、垃圾桶输入“前方橙色警示锥”就能3D定位并避让机器人导航配送机器人在陌生小区里输入“绿色垃圾桶”就能精准找到位置投递3D场景检索在3D城市模型里输入“所有消防栓”自动找出所有消防栓的3D坐标用于城市设施盘点增强现实ARAR眼镜识别现实场景时输入“会议室的门”就能在3D空间里标注出门的位置辅助导航。局限性与未来方向当然POP-3D也有不足体素分辨率较低对小物体比如钥匙、手机的识别效果一般不支持图像序列输入没法利用运动信息识别遮挡的物体文字查询的描述质量会影响结果比如太简洁的描述可能导致匹配不准。未来可以优化的方向提升体素分辨率、加入时序信息、支持更细粒度的语言查询比如“红色轿车的左后视镜”甚至自动优化文字描述模板。

福州网站建设嘉艺数字今天科技网站

不要钱的ppt模板网站建设网站公开教学视频下载

浙江绿建建设计院网站培训网络营销的机构

什么叫网站前台音乐 wordpress

网站里添加百度地图医疗卫生网站前置审批

网站空间每年继费到哪交seo网站建设规划

宝安高端网站建设公司外资公司注册代理

福州网站建设嘉艺数字今天科技 网站

不要钱的ppt模板网站建设网站公开教学视频下载

浙江绿建建设计院网站培训网络营销的机构

什么叫网站前台音乐 wordpress

网站里添加百度地图医疗卫生网站前置审批

网站空间每年继费到哪交seo网站建设规划

宝安高端网站建设公司外资公司注册代理

福州网站建设嘉艺数字今天科技网站