LangSplat:精准搜索3D世界中的对象 比LERF快199倍
划重点:
🚀 创新方法:LangSplat通过将CLIP特征映射到一组3D语言高斯中,实现了精准的3D语言场,比LERF快199倍。
🌍3D语言场:文章介绍了LangSplat,构建了一个3D语言场,支持在3D空间内进行精准高效的开放式语言查询。
🎨 视觉效果:LangSplat通过可视化学习特征,准确捕捉物体边界,无需后处理,同时在1440×1080分辨率下比LERF快199倍。
站长之家(ChinaZ.com)1月2日 消息:LangSplat 是一种3D 语言高斯模型,允许您按语言搜索3D 世界 。
清华大学和哈佛大学的研究人员开发了LangSplat,这是一种新的人工智能系统,可以在3D空间中高效、准确地搜索开放词汇。据称,该系统在速度和准确性方面显着优于之前最先进的方法LERF 。
加州大学伯克利分校的研究人员于2023年3月提出了语言嵌入式辐射场 (LERF)。该系统将大型语言模型集成到NeRF中,无需特殊训练即可在3D 环境中实现准确的物体识别。例如,书店 NeRF 环境中的用户可以根据愿景以自然语言搜索特定书名。该技术还可用于机器人技术、模拟中机器人的视觉训练以及人类与3D 世界的交互。
LangSplat 速度快了近200倍,而且更准确
然而,LERF 不适合实时搜索并且相对不准确。LangSplat 使用3D 高斯构建3D 语言场。研究人员表示,这种方法避免了 NeRF 所需的复杂渲染过程。在1440x1080像素的分辨率下,LangSplat 比 LERF 快199倍。
为了形成3D 语言场,LangSplat 使用 Meta 的Segment Anything Model从场景的多个图像中学习分层语义。具体来说,图像被分解为边界清晰的不同对象掩模,其中对象进一步分解为整体、部分和子部分。然后,学习到的掩模由 CLIP 进行处理,其嵌入训练一个自动编码器,然后用于训练 LangSplat 的3D 语言高斯函数。
LangSplat 可以区分汤的成分
LangSplat 更加准确:在一个示例中,团队要求标记“一杯茶”。LERF 标记两个杯子,而 LangSplat 标记玻璃杯中的液体。在另一个例子中,它可以标记一碗拉面汤中的各个成分。
研究人员在两个数据集(LERF 数据集和3D OVS 数据集)上测试了 LangSplat。在这两种情况下,LangSplat 在速度和准确性方面都明显优于 LERF。具体而言,LangSplat 在 LERF 数据集上的总体准确度为84.3%,在3D OVS 数据集上的总体准确度为93.4%,而 LERF 的总体准确度分别为73.6% 和86.8%。
该团队认为进一步提高速度是可能的,尤其是在更高分辨率的情况下。
项目体验网址:https://top.aibase.com/tool/langsplat