多模态文本视觉大模型机器人地形感知算法研究 - Details

author：

Abstract：

为提升机器人在动态复杂环境下对地形的智能感知能力，提出了一种基于多模态文本视觉大模型信息融合地形分割算法，集成了SLIC图像数据预处理、CLIP和SAM掩码生成模块、Dice系数后处理。首先，对原始输入图像进行SLIC预处理，得到图像分割子块，通过增加提示点提高后续掩码质量，可显著提高地形分类准确度。然后，通过文本-图像预训练大模型CLIP，将输入视觉图像和预设地形文本信息进行匹配，并借助其可解释性和零次学习，生成各地形提示点集合。由SAM大模型接受上述集合生成带有语义标签的掩码数据，并通过Dice系数后处理筛选可用掩码。以Cityscapes数据集为地形分割样本，验证了该算法相较于监督和无监督学习框架下主流分割算法的优越性，在无需标记数据的情况下，实现了76.58%的有效掩码生成率，IoU达到90.14%。针对四足机器人地形感知任务，添加U-net编/解码器网络量化验证模块。以生成掩码作为数据集，构建轻量化地形分割模型，部署在四足机器人的边缘计算设备，并在真实环境中开展地形分割实验。实验结果表明，2种掩码优化方法分别使模型MIo　U提升了2.36%和2.56%，最终轻量化模型MIoU达到96.34%，地形分割精度可靠，该算法有效指导了机器人快速地从起点安全行进到目标地，并有效避开草地等非几何障碍物。

Keyword：

地形感知文本视觉大模型深度学习计算机视觉足式机器人

Community：

[ 1 ] 福州大学机械工程及自动化学院
[ 2 ] 杭州智元研究院有限公司
[ 3 ] 福州大学计算机与大数据学院
[ 4 ] 哈尔滨工业大学机电工程学院
[ 5 ] 哈尔滨工业大学机器人技术与系统全国重点实验室

Reprint 's Address：

Email：

Show more details

Related Keywords：

Source ：

图学学报

Year： 2025

Issue： 03

Volume： 46

Page： 558-567

Cited Count：

WoS CC Cited Count：

SCOPUS Cited Count：

ESI Highly Cited Papers on the List： 0 Unfold All

WanFang Cited Count：

Chinese Cited Count：

30 Days PV： 0

Affiliated Colleges：

计算机与大数据学院、软件学院本学院/部未明确归属的数据

Get Fulltext

Library Discovery Baidu Scholar Search CNKI

Type
Departments

All Years Choose Year From to