浏览量:0

一种基于策略梯度的机器人学习控制方法

专利类型:发明专利 

语 言:中文 

申 请 号:CN201710321632.1 

申 请 日:20170509 

发 明 人:李军沈广田陈剑斌高杨建许阳 

申 请 人:重庆大学 

申请人地址:400044 重庆市沙坪坝区沙正街174号 

公 开 日:20170808 

公 开 号:CN201710321632.1 

代 理 人: 

代理机构: 

摘  要:本发明公开了一种适合机器人学习控制的策略梯度方法,涉及到机器人学习控制技术,包括数据采集模块,获取机器人运行过程中的信息数据;价值函数近似模块,以观测的状态信息和从环境获得的及时奖励为输入,获取价值函数的近似估计模型;策略梯度优化模块,将机器人学习控制策略参数化,通过对参数进行调整,优化,使机器人达到理想的运行状态。动作执行模块,将控制器输出的动作映射为机器人实际执行的动作命令。本发明提出的方法可用于不同类型机器人,尤其是多自由度机器人,具备学习复杂动作、求解随机性策略的能力,从而提高了机器人的智能性,降低了学习过程中的危险性,缩短了机器人学习时间,简化了控制器设计难度。 

主 权 项:基于策略梯度的机器人学习控制方法,其特征在于:包括以下步骤:S1:输入机器人运动过程中的状态信息数据以及与环境交互的感知信息数据;S2:根据机器人获取的状态信息数据以及环境感知信息数据,计算及时奖励以及价值函数的近似估计模型;S3:根据获得的累积奖励以及价值函数近似估计模型,对机器人学习控制器的策略参数进行调整,优化,使机器人达到理想的运行状态;S4:输出机器人实际执行的动作命令。 

关 键 词: 

法律状态:生效 

IPC专利分类号:B25J9/16;B25J9/00;B;B25;B25J;B25J9;B25J9/16;B25J9/00