一种基于强化学习的智能鱼缸水质调节方法

专利类型：发明专利

语言：中文

申请号：CN201710475184.0

申请日：20170621

发明人：熊庆宇李昊娟王震

申请人：重庆大学

申请人地址：400044重庆市沙坪坝区沙正街174号

公开日：20170915

公开号：CN107156020A

代理人：黄河;赵英

代理机构：重庆博凯知识产权代理有限公司50212

摘　　要：本发明公开了一种基于强化学习的智能鱼缸水质调节方法，预先构建水质调节方案数据库，包括以下步骤：为每一个水质调节方案构建一个回报值矩阵R；初始化经验矩阵Q为零矩阵；根据回报值矩阵及状态转移的经验值计算经验矩阵；获取当前水质状态，选出若干能达到水质平衡状态的水质调节方案；采用对应值比较方法，比较各个水质调节方案的经验矩阵Q，选出最大经验矩阵Qmax作为调节当前水质状态的最佳水质调节方案。本发明通过经验矩阵对水质调节方案的优劣性进行了量化，通过比较数据库中大量的水质调节方案，能够快速准确的选择出最佳水质调节方案。??全部

主权项：一种基于强化学习的智能鱼缸水质调节方法，其特在于：设智能鱼缸具有N种水质状态：状态1、状态2、……状态N；预先构建水质调节方案数据库，一个水质调节方案是指从当前状态转移到水质平衡状态所采取的方案；包括以下步骤：步骤1：为数据库中每一个水质调节方案构建一个对应的回报值矩阵R，回报值矩阵R具有N行N列：其中，回报值矩阵R中的行表示当前状态s，第1行至第N行依次代表状态1至状态N；回报值矩阵R中的列表示转移到下一状态s′所采取的当前行为a；步骤2：令每一个水质调节方案所对应的经验矩阵为Q；Q为N×N矩阵，初始化经验矩阵Q为零矩阵；步骤3：根据对应的回报值矩阵R以及按照状态转移规则计算的经验值为每一个水质调节方案计算经验矩阵Q；其中，经验值的计算公式如下：Q(s,a)＝r(s,a)+γmax{r(s′,a′)}；其中，Q(s,a)表示从当前状态转移到下一状态的经验值；s表示当前状态，a表示当前行为，r(s,a)表示回报值矩阵中对应的回报值；s′表示下一状态，a′表示下一状态可能发生的状态转移而采取的下一行为；γ表示学习参数，0≤γ≤1；步骤4：获取水质当前状态，根据水质当前状态从选出若干能达到水质平衡状态的水质调节方案；步骤5：采用对应值比较方法比较各水质调节方案的经验矩阵Q，将各水质调节方案的经验矩阵Q中对应元素的值进行比较，选出对应元素的值均为最大的经验矩阵作为最大经验矩阵Q_max，以Q_max所对应的水质调节方案作为调节当前水质状态的最佳水质调节方案。

关键词：

法律状态：公开

IPC专利分类号：A01K63/04(2006.01)I