如何用强化学习算法让机器人双臂“默契配合不打架”?

2025-07-25

      随着社会科学与经济的迅猛进步,双臂机器人在众多领域展现出巨大潜力。然而,在实际应用中,如何让双臂机器人在执行任务时巧妙避开障碍物、维持运动协调性,成为双臂协调控制的核心难题。研究团队聚焦于双臂机器人无碰撞运动,基于CSPACE异构协同智脑系统进行开发,旨在通过深度强化学习技术与融合视觉定位算法,实现目标物体的精准识别与定位,让双臂系统在无碰撞的前提下平稳执行任务。


运动学建模与验证

       研究首先以宇树H1人形机器人的双臂系统为硬件实验平台,针对单机械臂展开深入研究。采用标准D-H参数法构建运动学模型,通过坐标变换矩阵完成正运动学解算,能够根据各关节角度精确计算出末端执行器的位姿。在逆运动学分析中,运用解析法推导显式解,并设计基于最短行程法的最优解筛选方法。为了验证这些算法的准确性,借助Simscape仿真平台构建虚拟实验环境,结果表明正/逆运动学算法准确无误,最优解选取方法也十分有效。这一环节为后续的研究奠定了坚实的理论基础。


图:双臂Simscape模型验证


深度强化学习助力避障运动

       基于深度强化学习算法,研究对双臂系统在空间中的避障运动展开探索。在深度确定性策略梯度算法(MADDPG)的基础上,引入优先级经验回放机制(PER)与后视经验回放算法(HER)。PER机制能够根据经验的重要性分配不同的采样概率,让模型更关注重要的经验,从而稳定训练过程;HER算法则通过将失败的经验转化为成功经验,加快模型的收敛速度。同时,针对双臂任务设计了复合型奖励函数,最终得到了适用于双臂机器人的改进型MADDPG算法,实现了无碰撞运动规划。在Pybullet + Stable-Baseline3环境下开展的仿真实验,充分验证了改进算法训练模型执行避障运动任务的有效性。


图:改进MADDPG执行避障任务



图:改进MAADDPG 1000回合训练曲线



视觉系统研究:精准识别与定位

       视觉系统是双臂机器人实现无碰撞运动的关键。研究从物体的定位与识别入手,完成了深度相机视觉的内部参数标定以及双臂系统的手眼标定。这一过程让双臂能够准确识别环境内物体的空间位置,并通过标定得到了相机的坐标系到机器人基础坐标系的相对位姿。在目标检测方面,利用YOLOv3构建目标检测网络模型,借助labelImg辅助工具标定目标获取采样数据集合,实现了相机对具有不同特征的目标物体的精确识别。这一系列操作让双臂机器人拥有了“慧眼”,能够清晰感知周围环境。



图:目标检测效果


多场景综合实验验证

       为了全面验证研究成果的可靠性,研究完成了双臂机器人多场景综合实验验证。涵盖双臂协调抓取实验、基于深度强化学习的双臂避碰实验以及结合视觉感知与深度强化学习的双臂分拣实验。在双臂协调抓取实验中,双臂能够默契配合,准确抓取目标物体;基于深度强化学习的双臂避碰实验里,双臂在复杂环境中灵活穿梭,成功避开障碍物;结合视觉感知与深度强化学习的双臂分拣实验中,双臂能够根据视觉系统识别到的物体信息,快速、准确地进行分拣。实验结果有力地证明了视觉定位方法与强化学习算法能够识别物体并引导双臂系统进行无碰撞的空间运动,保障双臂稳定地协调作业。


图:双臂系统分拣实验


       本研究有效解决了双臂机器人在复杂环境中协同作业时避免自碰撞的核心挑战。所开发的方法显著提升了双臂系统的自主协调能力、操作安全性及任务执行效率,为双臂机器人在自动化产线、精密装配、物流分拣等高价值场景的实际部署扫除了一项关键技术障碍。

       未来研究将进一步探索算法在更广泛任务类型及动态变化环境中的适应性与泛化能力,加速双臂协同解决方案在智能制造、医疗辅助、特种作业等领域的规模化应用,切实提升生产柔性与智能化水平,推动相关产业升级。


深谷开源智脑系统高效赋能科学研究


       中科深谷CSPACE异构协同智脑系统构架采取大模型、多模态感知、实时决策、建模与仿真和物理执行等,可以让智能体与物理环境动态实时信息交互,实现自主学习、决策与行动。系统以模块化、开放性为特点,用于解决智能体对环境和任务的建模、仿真、自主决策、自主控制过程,除了能控制单个智能体对象完成作业任务外,还具备群体智能控制能力,可以让更多的智能体融合到一起,开展分工协作任务。


        CSPACE智脑系统可为科研探索提供高效、可靠且通用便捷的综合性解决方案,有效助力前沿技术研究与创新突破。欢迎咨询!




二维码

版权所有 中科深谷科技发展有限公司 皖ICP备17007209号备案 

免责声明   技术支持:网新科技www.ibw.cn