浏览量:0

一种基于强化学习的机械车间任务调度节能优化系统

专利类型:发明专利 

语 言:中文 

申 请 号:CN201310205070.6 

申 请 日:20130528 

发 明 人:何彦王乐祥刘波李育锋鄢萍胡林明 

申 请 人:重庆大学 

申请人地址:400044 重庆市沙坪坝区沙正街174号 

公 开 日:20161109 

公 开 号:CN103390195B 

代 理 人:张先芸 

代理机构:重庆博凯知识产权代理有限公司 50212 

摘  要:本发明公开了一种基于强化学习的机械车间任务调度节能优化系统,包括调度目标函数模块、基础数据库、调度规则库、初次调度执行模块、节能优化规则库、节能优化模块、调度方案库。首先,在调度目标函数模块设定调度目标,通过从调度规则库中选取调度规则并利用基础数据库的基础数据,在初次调度执行模块执行初次调度,得到初次调度方案;然后,从系统外部知识拓展接口录入调度专家节能优化经验,得到节能优化规则;同时,在节能优化模块建立学习环境,包括车间能耗模型、加工时间模型及调度方案评价模型;最后,通过Q学习控制器和学习环境的交互为初次调度方案获取一个节能优化策略。该系统可以通过调度方法手段减少机械车间生产过程能量消耗,对于机械车间节能减排具有重大意义。 

主 权 项:一种基于强化学习的机械车间任务调度节能优化系统,包括:调度目标函数模块、基础数据库、调度规则库、初次调度执行模块、节能优化规则库、节能优化模块和调度方案库;其中,调度目标函数模块:设定调度目标为调度任务完成加工总能耗最小f1=min(EC)和总时间最小f2=min(T);基础数据库:包括工件信息、机床信息和加工信息;调度规则库:包括先到先服务(FCFS)规则;初次调度执行模块:利用从调度规则库选取的调度规则作为调度的运算法则,对调度任务包含的基础数据库的信息进行计算,确定各个工序的加工机床以及在机床上的加工顺序,从而得到初次调度方案;节能优化规则库:针对调度目标,对调度专家进行调研,统计节能优化经验,并把节能优化经验处理表示为if<判定条件>,then<执行动作1>,else<执行动作2>的语法形式,从系统外部知识拓展接口录入,存入节能优化规则库;节能优化模块:包括学习环境和Q学习控制器,通过Q学习控制器和学习环境的交互,为初次调度方案获取一个节能优化策略,其中:学习环境:包括车间能耗模型:加工时间模型:T=Tend?Tstart;调度方案评估模型值:en=g(f1,f2);即为调度目标函数模块:设定调度目标为调度任务完成加工总能耗最小f1=min(EC)和总时间最小f2=min(T);其中:ECijk为工件i的第j道工序在机床k上的加工所需要能耗;Pk是机床k的待机功率;ITk为机床k的待机时间;Tstart为当前调度方案下首先加工工件的第一道工序加工开始时刻,Tend当前调度方案下最后加工工件的最后一道工序加工结束时刻;Q学习控制器:包括定义Q学习算法的动作集、状态空间、惩罚函数和算法流程,以及最终整个Q学习算法的运行;其中,1)动作集和状态空间划分:Q学习算法动作集合由通过专家节能优化经验转化的节能优化规则组成;动作集用a表示即a={a1,a2,...,aq};其中每一个动作就是指执行节能优化规则集合R={R1,R2,...,Ri}相应的规则;状态空间S={S0,S1,S2,S3,S4,S5}是指把调度方案评估模型值e作为Q学习算法状态划分变量,利用初次调度方案的评估模型值e0作为参考值,状态划分为:状态S0简写为状态0:0<e<0.6e0,同理其他五个状态分别为状态1:0.6e0≤e<0.8e0,状态2:0.8e0≤e<e0,状态3:e0≤e<1.2e0,状态4:1.2e0≤e<1.4e0,状态5:1.4e0≤e;2)惩罚函数:Q学习算法中的立即回报r选择;惩罚函数为:其中r为立即回报,e为评价函数值即调度方案评估模型值;3)算法流程:Q学习算法流程如下:步骤0:初始化Q值,对于所有的状态S和动作a,令α=0.1,γ=0.9,Q(S,a)=1,en=e0,n=1;步骤1:根据en值的范围获取当前状态St可执行优化规则集合R,若结束;否则转至步骤2;步骤2:根据步骤1获取的系统当前状态St所处的循环次数,若n>N,结束;否则转至步骤3;步骤3:计算每个动作的选取概率选取概率最大的动作aqmax,其中aq表示第q个动作;aqmax表示选取概率p(aq/St)最大的动作,步骤4:执行选取概率最大的动作aqmax,计算新的en+1值,根据en+1获得立即回报r和系统下一个状态St+1;步骤5:按照式:Q(St+1,aq)=(1?α)Q(St,aq)+α(r+γV*)更新Q函数;步骤6:更新状态,令St=St+1,en=en+1,n=n+1;步骤7:转至步骤1,直到出现终止状态或者稳定状态;其中,N为算法循环次数,即学习周期;en为当前调度方案的调度方案评估模型值,en+1为执行了优化规则后新的调度方案的调度方案评估模型值;e0为初次调度方案的调度方案评估模型值;pmax(aq/St)为动作选择的概率的最大值,aqmax为pmax(aq/St)下的动作;在算法初始阶段,所有Q函数值均相等,但随着循环的反复,具有较大Q值的动作具有较大概率的被选中;学习率α的选择影响Q算法的学习效率;折扣系数γ越接近于0,学习越不考虑长远,更趋于接收即时奖惩;反之,越接近于1,学习越具有远见,能减少即时奖惩对学习策略的影响;调度方案库:用于存储初次调度方案和节能优化过程中不断更新的调度方案。 

关 键 词: 

法律状态:授权 

IPC专利分类号:G06F19/00(2011.01)I