具身智能机器人代表性成果

当前位置: 中文主页 >> 科学研究 >> 具身智能机器人代表性成果

智能机器人与无人系统

自主导航、控制及优化

研究愿景：面向复杂动态环境下的智能制造、仓储物流及无人作业等场景，致力于解决自动导引车(AGV)、

无人车(UGV)及具身智能机器人在实时最优控制、自主导航策略优化、语义理解及多智能体协同等方面的关键挑战。

近期代表性工作

※基于语义-几何-深度融合的可泛化工业零件自主抓取与分拣方法

💡 研究亮点：

1）构建开放词汇识别、几何理解、Depth3D 位姿估计与机械臂抓放闭环，实现多品种小零件分拣。

2）通过通用几何参数池与几何族映射支持新零件受控接入，减少逐类规则开发和换型调试成本。

3）融合语义、几何、深度和抓取可行性证据，实现候选目标排序、执行决策与桌面抓放演示。

4）引入语义复核机制：接入视觉语言模型实现对候选工件/盒子进行上下文复核，降低工具、笔、盒边等误检风险。

5）真机实验能够实现对螺栓、垫片、线缆、接头等不同形态工业零件的自适应分拣作业。

※基于强化学习与运动规划融合的机械臂自主操作策略学习方法

💡 研究亮点：

1）高保真仿真训练环境：基于机器人动力学仿真构建桌面操作任务，支持抓取、放置、回位等关键动作阶段的策略学习与评估。

2）规划-学习融合：强化学习策略用于生成操作意图或候选动作，IK 模块负责可达性。

3）Sim-to-Real系统闭环：打通仿真策略、视觉感知、抓取规划、机械臂控制，为后续sim-to-real 优化和数据闭环迭代提供基础。

※ 基于端侧大模型的城市级全场景无人环卫作业装备及规模化应用

面向智慧（园区）城市对环卫作业精细化、可视化、高效化、无人自主化需求，构建了具身智能无人环卫作业装备及应用解决方案，形成覆盖机动车道、人行道及复杂非结构化区域的全场景作业能力。通过V-Series L4级无人环卫车，结合云端数据平台，实现了从"人驱动"到"系统驱动"的模式重构。

💡 创新突破：
1）攻克光照巨变彻底解决光照巨变、雨雾等导致的感知失效难题，同时实现无GNSS遮挡环境的厘米级定位。
2）赋予设备精细化的“具身之眼”，实时检测不规则废弃物，跃迁至目标导向型作业。
3）告别“遇障即停”，实时高动态交互建模，连续决策与动态优化，实现高动态干扰下的连续流程作业。
4）自主研发核心算法，实现从“感知--决策--控制”的全链路技术闭环，形成代际优势。

无人环卫车PPT成果1.png

※ 基于大模型驱动主动感知与自适应混合控制的移动机器人零样本无图导航方法

面向未知大尺度环境，系统采用异步双流控制架构，跨越自然语言指令与底层物理执行的语义鸿沟，解决开放词汇目标感知难题。

异步双流零样本视觉语义导航方法与系统

🎯 核心内容： 未知大尺度环境下的开放词汇目标感知与自然语言指令导航。
🛠️ 研究方法： 采用异步双流控制架构，结合基于DBSCAN深度聚类的轻量化主动视觉-语义记忆网络。
💡 创新突破： 将低频的LLM/VLM语义推理计算与高频的底层运动控制在时间戳层面上实现解耦，彻底消除了机器人的“走停”现象；通过构建稀疏语义拓扑地图，实现了高抗噪的三维空间定位与零样本目标匹配。

视觉语言导航示意图.png QQ截图20260306125720.png

※ 基于深度强化学习的自主导航策略优化

在复杂动态多障碍环境中，传统强化学习（RL）面临训练不稳定与探索风险高的问题。本研究通过引入先验知识与多维度奖励机制，实现了高效、安全的导航策略。

1）移动机器人可行域约束与隐式策略强化学习

🎯 核心内容： 复杂动态多障碍环境下的移动机器人轨迹规划与自主导航。
🛠️ 研究方法： 提出基于行为克隆（BC）引导的策略优化方法（BCPO），以及基于李雅普诺夫函数的隐式策略RL框架。
💡 创新突破： 创新性地将行为克隆策略显式定义为动作可行域，约束RL探索；结合混合优先经验回放与稳定性先验，完美兼顾训练稳定性与系统安全自主探索能力。

2）多辅助奖励与动态更新增强的AGV导航

🎯 核心内容： 工业AGV在包含动态障碍物场景下的高效最优导航。
🛠️ 研究方法： 采用软演员-评论家(SAC)与双延迟深度确定性策略梯度(TD3)等算法，引入时间衰减型目标达成奖励、指数型安全惩罚等多维度复合辅助奖励。
💡 创新突破： 提出自适应探索噪声衰减与动态延迟更新机制，将隐式导航目标转化为显式优化动力，显著加快收敛并提升模型在未知动态场景下的泛化能力。

图片.png

※ 基于机器学习的AGV实时路径规划最优控制

利用海量数据与机器学习网络，解决传统最优控制（如高斯伪谱法）计算耗时长、无法满足底层设备实时响应的瓶颈。

1）AGV端到端实时最优避障控制

🎯 核心内容： 具有非完整运动学约束与物理障碍物限制的无人车/船最短时间(ZNP)轨迹规划。
🛠️ 研究方法： 离线利用高斯伪谱法(GPM)求解海量最优轨迹并构建状态-控制对数据集，在线使用深度神经网络(DNN)进行端到端实时控制。
💡 创新突破： 将复杂的动态同伦约束和碰撞避免约束转化为平滑的惩罚函数，实现了极具挑战的水面流场干扰及动态障碍物场景下USV的实时高保真最优控制拟合。

2）基于宽度学习的增量式在线重规划

🎯 核心内容： 适应仓储场景微调的轻量化AGV轨迹重规划技术。
🛠️ 研究方法： 采用宽度学习(BL)网络替代深层网络结构，并结合谱范数(Spectral Norm)正则化增强Lipschitz连续性。
💡 创新突破： 宽度网络极大地降低了模型训练与推理的算力消耗，赋予了底层控制器在面临突发环境变化时的在线增量式快速学习和实时重规划能力。

※ 无人系统拓扑运动规划与多智能体控制

在人机混行的复杂环境或多智能体集群中，单靠几何避障已无法满足安全性与社会伦理需求。

1）风险感知与社会规范拓扑预测控制 (SCU-T-MPC)

🎯 核心内容： 人机混行复杂环境下的移动机器人安全且符合社会礼仪的拓扑运动规划。
🛠️ 研究方法： 结合动态同伦类(Homotopy Classes)优化与模型预测控制框架。
💡 创新突破： 克服了传统T-MPC缺乏社会规范感知及对多模态不确定性障碍物预测不足的局限，实现了风险感知的全局同伦最优安全穿行。

2）多智能体一致性与运动原语轨迹规划

🎯 核心内容： 基于Motion Primitives的机器人安全轨迹生成，以及多智能体系统的有限时间一致性协同。
🛠️ 研究方法： 基于高斯混合模型(GMM)进行示教轨迹的概率密度表征，及随机微分方程驱动分析。
💡 创新突破： 在多智能体系统中创新性地将随机噪声转化为稳定控制力，实现有限时间内的快速一致性；从专家示教中提取具备Lyapunov稳定性的运动原语，在障碍环境下实现安全运动复现。

📚 代表性论著汇编

1. Haisen Guo, Zhigang Ren*, Jialun Lai, Zongze Wu, Shengli Xie. Optimal navigation for AGVs: A soft actor–critic-based reinforcement learning approach with composite auxiliary rewards. Engineering Applications of Artificial Intelligence, 2023.

2. Jialun Lai, Zongze Wu, Zhigang Ren*, Qi Tan, Shengli Xie. Trajectory planning of mobile robot: A Lyapunov-based reinforcement learning approach with implicit policy. Knowledge-Based Systems, 2025.

3. Jialun Lai, Zhigang Ren*, Zongze Wu, Qi Tan, Shengli Xie. Learning-based real-time optimal control of unmanned surface vessels in dynamic environment with obstacles. Ocean Engineering, 2025.

4. Zijianglong Huang, Zhigang Ren*, Tehuan Chen, Shengze Cai, Chao Xu. Autonomous Navigation and Collision Avoidance for AGV in Dynamic Environments: An Enhanced Deep Reinforcement Learning Approach With Composite Rewards and Dynamic Update Mechanisms. IET Cyber-Systems and Robotics, 2025.

5. Jialun Lai, Qi Tan, Hanzhen Xiao, Zongze Wu, Zhigang Ren*. Optimal Navigation of an AGV with Obstacle Constraints: A Broad Learning-Based Approach. IEEE Transactions on Emerging Topics in Computational Intelligence, 2025.

6. Jialun Lai; Zongze Wu; Zhigang Ren*; Ci Chen; Qi Tan; Shengli Xie; A Lyapunov-Based Framework for Trajectory Planning of Wheeled Vehicle Using Imitation Learning, IEEE Transactions on Automation Science and Engineering, 2025, 22: 12118-12133

个人信息

任志刚

同专业博导

同专业硕导

具身智能机器人代表性成果

智能机器人与无人系统

自主导航、控制及优化

近期代表性工作

※基于语义-几何-深度融合的可泛化工业零件自主抓取与分拣方法

※基于强化学习与运动规划融合的机械臂自主操作策略学习方法

※ 基于端侧大模型的城市级全场景无人环卫作业装备及规模化应用

※ 基于大模型驱动主动感知与自适应混合控制的移动机器人零样本无图导航方法

面向未知大尺度环境，系统采用异步双流控制架构，跨越自然语言指令与底层物理执行的语义鸿沟，解决开放词汇目标感知难题。

异步双流零样本视觉语义导航方法与系统

※ 基于深度强化学习的自主导航策略优化

在复杂动态多障碍环境中，传统强化学习（RL）面临训练不稳定与探索风险高的问题。本研究通过引入先验知识与多维度奖励机制，实现了高效、安全的导航策略。

1）移动机器人可行域约束与隐式策略强化学习

2）多辅助奖励与动态更新增强的AGV导航

※ 基于机器学习的AGV实时路径规划最优控制

利用海量数据与机器学习网络，解决传统最优控制（如高斯伪谱法）计算耗时长、无法满足底层设备实时响应的瓶颈。

1）AGV端到端实时最优避障控制

2）基于宽度学习的增量式在线重规划

※ 无人系统拓扑运动规划与多智能体控制

在人机混行的复杂环境或多智能体集群中，单靠几何避障已无法满足安全性与社会伦理需求。

1）风险感知与社会规范拓扑预测控制 (SCU-T-MPC)

2）多智能体一致性与运动原语轨迹规划

📚 代表性论著汇编

个人信息

任志刚

同专业博导

同专业硕导

具身智能机器人代表性成果

智能机器人与无人系统

自主导航、控制及优化

近期代表性工作

※基于语义-几何-深度融合的可泛化工业零件自主抓取与分拣方法

※基于强化学习与运动规划融合的机械臂自主操作策略学习方法

※ 基于端侧大模型的城市级全场景无人环卫作业装备及规模化应用

※ 基于大模型驱动主动感知与自适应混合控制的移动机器人零样本无图导航方法

面向未知大尺度环境，系统采用异步双流控制架构，跨越自然语言指令与底层物理执行的语义鸿沟，解决开放词汇目标感知难题。

异步双流零样本视觉语义导航方法与系统

※ 基于深度强化学习的自主导航策略优化

在复杂动态多障碍环境中，传统强化学习（RL）面临训练不稳定与探索风险高的问题。本研究通过引入先验知识与多维度奖励机制，实现了高效、安全的导航策略。

1）移动机器人可行域约束与隐式策略强化学习

2）多辅助奖励与动态更新增强的AGV导航

※ 基于机器学习的AGV实时路径规划最优控制

利用海量数据与机器学习网络，解决传统最优控制（如高斯伪谱法）计算耗时长、无法满足底层设备实时响应的瓶颈。

1）AGV端到端实时最优避障控制

2）基于宽度学习的增量式在线重规划

※ 无人系统拓扑运动规划与多智能体控制

在人机混行的复杂环境或多智能体集群中，单靠几何避障已无法满足安全性与社会伦理需求。

1） 风险感知与社会规范拓扑预测控制 (SCU-T-MPC)

2） 多智能体一致性与运动原语轨迹规划

📚 代表性论著汇编

1）风险感知与社会规范拓扑预测控制 (SCU-T-MPC)

2）多智能体一致性与运动原语轨迹规划