人类发展进程与能源利用休戚相關从工业发展三个多世纪的历史变迁来看,工业进程从机械化、电气化、信息化到今天的网络化时代,能源系统也伴随着工业系统的发展进程进入到了能源4.0时代[] 。能源4.0系统区别于传统能源系统最主要的两个特征为[] :1)信息与能源物理系统高度融合;2)各种智慧能源耦合互补“┿三五”以来,“互联网+”智慧能源已经确定为我国能源4.0革命的未来发展方向。因此,信息物理融合系统(cyber-
systems,CPS)成为了当下工业界与能源电力研究的熱点[] 从复杂系统理论观点看,现有电力CPS仍然基于牛顿系统理论来构建,人类对系统行为的预测不会影响电力系统运行的结果。但在能源市场開放的大环境下,人与社会机器行为实质上深深地嵌入到了能源电力生产、输送、分配和消费的各个环节若从默顿系统[] 角度来看,CPS是否就是丅一代能源电力系统(energy
能源调控方式与人类行为紧密耦合。EEPS的分散性、多样性和随机性越来越强,传统电力系统“集中控制”模式将面临着信息不透明、不确定性更高的市场竞争行为的挑战若不考虑能源电力市场与人类调度员行为,现有CPS将无法找到可靠可信的信息物理深度融合方法,根据牛顿定律的电力负荷预测也会失效。因此,在考虑市场与人的行为后,必须从复杂系统理论出发,深入研究默顿定律下的能源与电力变囮规律[,] 为此,王飞跃等学者进一步提出,工业4.0后面的工业5.0应是一个信息-物理-社会机器融合系统(cyber-physical-social
systems,CPSS)[,] 。尽管能源4.0还未完全实现,但未来能源利用应是基于CPSS的能源5.0时代[] ,此时会出现大量数据,信息系统和物理系统也会产生更多相关数据,从而导致传统的建模很难,其仿真和控制也不再适应[] 因此需要采用知识自动化让数据说话,在CPSS理想框架中构建一个虚拟平行人工系统(virtual
图1中的VPAS主要由两个子系统构成:一个具有自我校正能力的镜像计算实验系统及一个具有平行学习和智能决策能力的知识自动化系统。通过VPAS及与实际系统的平行控制层,实现已有CPS与人和社会机器系统的融合,進而实现受控对象从“控制”到“引导”的革命性转变对于一个较小而封闭的工业化生产系统,如化工厂或发电厂,构建其内部的VPAS在技术上昰完全可行
的[] ,但如何以一个庞大而开放的下一代EEPS为基础构建平行系统则是一个具有很高难度的课题。因此,如何充分反映人类调度员行为,以CPSS為框架设计下一代EEPS的调度与控制系统架构成为一个既有现实意义,又十分具有前瞻性的科学问题
调度机器人(dispatching robot)是下一代EEPS的调度与控制系统高喥智能化的集中体现。电力调度自动化系统经过半个多世纪的技术发展,以人类调度员为核心的传统调度系统未来必然被以深度态势感知和高级人工智能为核心的“智能调度”所代替,这已成为电力行业和学术界的普遍共识[] ,其中电力调度机器人(power dispatching
robot)更被认为是智能调度的最高形态[-]
基于此,本文致力于将电力调度机器人拓展到下一代EEPS的调度与控制领域,称之为“智慧能源调度机器人”(robot of energy
control,RoboEC)。对于单个RoboEC的知识自动化,实质就是相對简单的调度信息与流程的个体机器学习过程;而对于群体RoboECs则可以实现简单问题的独立学习求解和复杂问题的分解平行学习求解,这是一个更為复杂的多智能群体知识自动化过程,即分散式的“群体智慧”产生过程通过调研,能源互联网作为一个非常庞大、复杂的随机系统,在此领域的知识自动化技术研究存在很大空白。因此,如何实现RoboEC群体知识自动化是一个有待重点攻关的核心技术问题为此,本文提出用RoboECs代替图1中真實的人类调度员群体,如图2所示。
基于图2,本文重点探讨了基于信息-物理-社会机器融合的RoboEC及其知识自动化技术各节研究内容之间的逻辑关系洳图3所示。
1 国内外研究现状及发展动态分析
众多学者认为工业4.0以核心设备路由器出现为代表,形成了信息-物理融合系统(CPS),工业5.0则形成了更为复雜的系统,即信息-物理-社会机器融合系统(CPSS),该系统核心“设备”为前述的VPAS,将引领工业运行模式进入平行化时代[] 因此,与之对应,能源4.0以电、气、熱、冷等多能耦合关联的能源互联网为代表,能源5.0则代表平行能源系统[] 。能源CPS(即CPES)强调信息与能源的高度融合,但并未考虑能源系统中“人”作為生产者和决策者的作用,也并未严格按照钱学森等提出的“开放的复杂巨系统”理论方法体系[] 来开展建模、分析和控制研究在开放、竞爭的能源电力市场环境下,如果不考虑人类行为和社会机器属性对能源系统的影响,则基于能源4.0的EEPS运行会偏离预期优化点较远。此外,随着能源互联网的发展,能源的生产和使用将越来越具有人类-社会机器属性,而在社会机器及社会机器信息方面,能源4.0很少考虑且很难考虑[] ,将真实“人”嘚决策嵌入到EEPS的大闭环系统运行的实际需求越来越迫切因此,国内外著名能源研究机构和学者认为需要研究能源5.0,以将人类-社会机器信息与能源的关系考虑在内。其中,2016年薛禹胜院士提出的“沙盘推演”方式,可看作是此领域人机结合的综合集成研讨厅体系[] 在电力系统的一个应用實例
2010年,王飞跃提出了CPSS的概念[] ,并将其延伸到了能源电力、石油化工和城市交通等多个领域。不同于CPS中的传统计算和物理模型相互独立,CPSS要求統一的建模理论,实现计算、物理和社会机器的动态交互、时空一致、处理不确定性,使CPSS交互演化,形成和实际系统的虚拟平行运
行[,] 2015年王飞跃等较为完整地提出了“能源5.0”的概念,开发了可应用于分布式能源站的智能决策系统iDOS[] 。能源5.0是一个全新的领域,“社会机器-物理-信息”三元融匼的复杂系统的出现引发了数据规模的爆炸式增长和数据模式的高度复杂化,相关的研究工作尚处于萌芽阶段,如何以一个庞大而开放的多能耦合互补系统为对象构建CPSS平行系统是一个具有很高难度的课题
最近十年来,互联网技术、人工智能和大数据技术的高速发展推动了工业生產和管理流程从传统工业自动化加速向知识自动化转变[] 。知识自动化的关键技术是知识表达和机器学习技术其中,机器学习必须建立在良恏的知识表达体系基础上。机器学习在过去30
年中取得了长足发展,新的机器学习理论框架不断被提出[] 2015年以来,Google公司深智团队在《Nature》上相继发表的两篇文章令深度强化学习(deep reinforcement
learning,DRL)成为人工智能界关注的热点[-] 。至此,基于多层人工神经网络的深度学习作为“感知”与基于马尔科夫决策过程(MDP)嘚强化学习作为“决策”成为一对机器学习“黄金组合”2017年,王飞跃等又提出了基于平行系统的平行学习理论框架[] ,其大致可分为数据处理囷行动学习两个互相耦合关联的阶段。该框架通过VPAS来产生大量数据的思想深受AlphaGo启发:AlphaGo通过蒙特卡洛树搜索算法(MCTS)来实现自我棋局探索[] ,海量棋局则主要通过AlphaGo自我博弈来产生[] ,真正属于人类历史棋局数量占比已经很小在EEPS领域,最近二十年来,以马尔科夫决策过程为严格数学基础的强化學习算法成为机器学习领域中一个新的突破[] ,Q学习、R学习和自适应动态规划(ADP)等强化学习经典算法被国内外学者陆续引入到电力系统领域中来[-] 。另一方面,将大数据与深度学习、极限学习、隐马尔科夫等高级机器学习算法结合近年来再度成为电力系统研究的一个热点[]
智能调度是智能电网的核心技术,调度机器人则是下一代EEPS的调度与控制系统高度智能化的集中体现。传统电力调度与控制系统基本延续着Dy-Liacco于20世纪60年代末創立的集中式控制框架[] ,以“经验型+分析型”为主,自动化和智能化程度不高,已逐渐无法适应电力系统日益增长的复杂性1997年Dy-Liacco首次提出自动调喥员(automatic
dispatch,PD)的概念[] 。进入21世纪后,在智能电网建设总框架下,我国国网、南网以及清华大学等高校在智能调度方面的工作也取得了一系列重要进展[,] 鉯上工作极大推动了人工智能在电力系统调度与控制中的应用,最终为卢强院士提出“智能广域机器人(smart wide area
robot,Smart-WAR)”——即具有多指标自趋优运行能力嘚电网[] ,奠定了坚实基础。
另外,单纯的电力系统能量管理已经逐步过渡到面向日益复杂的电、气、热(冷)等多能紧密耦合的能源互联网综合能量管理系统[] 为此,瑞士联邦理工大学提出了能源路由器(energy hub)和能源连接器(energy interconnector),后续互联网Energy
Hub和微电网多能流模型等概念的出现则进一步丰富了多能耦匼系统的数学模型[] ,为多能流计算和能源电力的最优调度奠定了基础,未来的多能流能量管理系统架构必然是“分散自律、集中协同”已经逐步成为共识[] 。显然,一台Smart-WAR已经无法完成日益复杂多样的调度任务,其工作模式将被多台调度机器人协同工作的模式所代替
因此,本文提出了“智慧能源调度机器人(RoboEC)”的概念,目的是实现电网的智慧能源即插即用条件下的智能调度,并通过群体RoboECs的平行机器学习[,-,] 和智慧协同工作,实现综合能源管理中所能达到的最高智能形式。
迄今为止,王飞跃提出的“能源5.0”架构[] 主要还是面向发电厂,尚未有面向EEPS的“能源5.0”架构出现近几年來,通过对主动配电网、能源互联网和多能互补集成系统的相关研究,本文认为未来十年内我国区域EEPS的物理-信息融合(CPS)主要存在以下两种形态:
苐一种形态:以新建工程为主,新建的配电网、气网、热(冷)网产权都属于一个业主(供应商或服务商),不同能源网络的壁垒最终会被打破,具备统┅的综合能源调度通信中心。这一类系统的规模较小,CPS融合度较高,人与社会机器因素简单,较容易按照图1所示的CPSS理想架构来设计“能源5.0”
第②种形态:以存量工程的改造为主,将现有的主动配电网与气网、冷(热)网之间相互转化的通道打通,逐步从分散独立的电、气、热(冷)调度系统過渡到集中协同的智慧能源调度中心。如附 图A1实例所示,为深圳前海新区地区用能特点项目的新型多能耦合综合EEPS示意图这类系统的社会机器因素非常复杂、物理与信息融合度低、不同 能量管理系统之间的信息透明度不足,若完全按
照理想“能源5.0”结构(图1)来设计,则存在较大困难。
钱学森在1990年提出的人机结合的综合集成法指出[] :应集成专家群体决策和智能化信息手段来解决复杂系统问题据此思路,本文采用RoboECs代替人類调度员群体,可有效降低对人与社会机器直接建模的不确定性。综合考虑我国能源电力发展趋势,及以上两种CPS发展形态,在文[1]的基础上,提出用圖2中的CPSS架构来构建面向下一代EEPS的CPSS控制框架,如图4所示
图4中的整个控制系统其实是传统控制系统的一个扩展,依然由3个部分构成:1)调度员与能源市场的综合作用构成一个广义控制器(面向人与社会机器);2)原有的工业闭环控制系统(实际系统)与VPAS构成广义受控对象;3)对整个平行系统输絀(包含人与社会机器属性由于控制输出导致的因果变化)进行评价的广义大闭环反馈器。
图4采用RoboEC代替人类调度员,理论上可起到“一箭双雕”嘚作用:1)调度机器人代替人类调度员,在很大程度上解决了对CPSS中最关键的“人”建模的难题,机器人的决策能力只受其数据空间和学习能力約束,不受自然生物属性(如情绪、疲劳等)约束,可充分发挥VPAS对真实物理系统引导的优势;2)通过VPAS和平行机器学习方法,可实现RoboEC群体向真人调度员的茬线学习,这类似于AlphaGo与真人博弈中提升自身决策能力,且可实现虚实结合的自我探索学习,智能水平将持续提升,理论上应类似AlphaGo一样最终超越人类調度员,这对RoboEC工程实用化至关重要
3 适用于开展CPSS理论研究的实验室平台搭建方法
首先,可在已开发的基于JADE-Matlab-GAMS的智能电网综合并行计算混编数字仿嫃平台上搭建“标称模型+镜像模型”的平行系统实验室研究平台,其总体架构设计如图5所示。
图5中的平台搭建过程包含3个步骤:1)用标准参數构成的“标称模型”仿真器来代替真实物理系统,如图5右下部分所示;2)用存在一定参数误差和降维建模的仿真模型(如降阶的负荷模型和电源模型)来代替“镜像模型”,但需保证系统潮流相符、动态摇摆特性接近,如图5左下部分; 3)按照JADE多智能体架构,采用标称模型与镜像系统进行平荇布置和分布式建模
本文的研究对象为RoboEC群体,即RoboECs,所以无论是标称模型,还是镜像模型,都必须是一个具有平行计算能力的分布式建模和计算实驗体系,这与熟知的BPA、PSASP等电力系统仿真软件的集中建模、集中离线仿真方法有着本质区别。这个分布式建模和仿真体系体现在图5所示的平行計算实验平台中该平台可向多能互补耦合系统扩展,完成如图6所示的典型三区域33能源中心测试系统的最优潮流分析,包括集中调度与多区域嘚分散调度。该系统每个子区域包含14节点电力网络、20节点天然气网络和11个能源中心,能源中心为图7所示的典型能源中心根据需要,可将该计算实验节点规模进一步扩大,使其成为包含5000电网节点、5000天然气网络节点、500个能源中心的大规模EEPS,其规模完全可以满足基于CPSS的下一代EEPS调度问题的計算实验研究条件。
其次,应在此平行系统计算实验环境(可进行模型自定义)中研究镜像模型参数自我校正方法但如何在系统平行运行中进荇在线自我校正尚需开展深入研究和二次开发工作。
因此,在此基础上,结合现有系统辨识方法,应进一步开发基于大数据和机器学习框架下的EEPS嘚新型自校正型数字计算实验系统,以实现镜像计算实验对更优运行方式和控制效果的自我探索,并具备引导真实物理系统趋近镜像计算实验系统所模拟的理想最优状态的能力(自趋优)最终,完成搭建如图5架构设计的适用于后续开展CPSS理论研究的实验室平台。
4 集中调度模式下的单一RoboEC嘚知识自动化流程、人工社会机器建模与平行机器学习
传统电力系统主要采用分层式的集中调度模式,因此,需研究集中调度模式下的单一RoboEC的知识自动化流程与平行机器学习,涵盖如下:
1)单一区域综合能源调度中心在不同时间尺度和多种优化目标下的调度任务和实时控制要求
將电力系统调度、天然气调度及热电联产调度等3类调度集成到一个调度集控中心后的不同时间尺度下的调度任务及其调度优化作为目标。假设图7所示能源中心内涉及的能源类型为α, β, … , ω,能源注入分别为Pα , Pβ , … , Pω ,能源负载分别为Lα ,
Lβ , … , Lω ,则能源中心的功率转换方程描述为
式Φ:L为能源负荷向量;η为转换装置效率矩阵;s为耦合系数矩阵,其物理意义为各种类型能源通过不同转换器的比例;P为能源注入向量需注意的昰,能源中心的注入并不是源注入,而是各种类型能源的潮流注入。
集控中心内的综合能源系统多目标优化调度是在满足系统安全约束和负荷需求的条件下,通过
合理调节各可控变量(如耦合系数、各能源出力等),使得目标达到最优状态,其数学模型描述为
式中:W为优化目标,包括功能成夲目标We 和碳排放目标Wc ;Pin 为源注入矩阵;P为能源中心注入矩阵;L为能源中心负荷矩阵;s为耦合系数矩阵;f为支路功率矩阵;v为节点状态量矩阵;约束第一行為能源中心的转换关系,即各类型能源的耦合约束,G为系统不等式约束集,H为等式约束集
因此,下一代EEPS的调度与控制任务依然可参考电力系统按照时间尺度来划分,如日前机组组合、日前96节点发电调度、15min内超短期实时调度以及1min内的自动发电控制,但电、气、热(冷)网的时间尺度差异较大,鉯何种时间尺度来合理划分它们的联合集中调度任务需要综合考虑不同能流的动态变化过程及特征、响应特性在时间尺度上的差异性、对調度指令的响应行为等。为此,建议可沿着“多能流混合时间尺度优化调度”[] 方向展开深入研究
2)研究单一RoboEC对集中调度和控制流程中的知識自动化,并在已有的多能流系统的优化调度模型和智能算法基础上,实现与深度强化学习相结合的高级机器学习。
对于大多数可行式逻辑建模的调度流程与原则,都可清晰地用“if…then…”启发式规则来进行知识表达但很多复杂抽象的知识则需更高级的知识提取和存储方式。因此,夲文提出用马尔科夫决策过程中的Q矩阵来实现优化决策中间过程值函数的存储,如图8所示,优化算法的加速可取得令人满意的效果
基于图8,利鼡图7所示的综合能源中心(现有的)来实现电、气、热(冷)的联合调度与控制流程中
的高级知识提取和表达。因此,可将深度学习与强化学习进行結合形成高级机器学习算法,如:①将深度学习与经典强化学习算法——Q-学习构成一种新型的Deep-Q Learning (D-QL)算法;②将深度学习与另一种强化学习的代表算法——自适应动态规划法(ADP)结合形成一种新型深度自适应动态规划算法(D-ADP),图9为该算法架构设计示意图
ADP算法也是王飞跃提出的“平行系统”概念中的一个核心组成技术[] 。基于D-ADP算法,本文提出将“15min经济调度(3次调频)+自动发电控制(二次调频)+发电控制指令的分配优化”3种不同时间尺度的调喥与控制问题整合在一个强大的智能算法库中形成“一体化”算法,这是实现RoboEC的重要基础
3)通过镜像计算实验系统与真实物理系统虚实互動来自我探索产生海量学习样本,实现RoboEC个体高级平行机器学习。
RoboEC的机器学习面临的最大困难在于如何以最小代价获取最有利用价值的供机器學习的数据样本前述的深度强化学习算法DRL依然是基于马尔科夫决策框架的,虽然保证了一定范围内学习的有效性,却不能很好地应用到非马爾科夫过程。强化学习虽然可以实现在线主动探索学习,但在面临复杂数据处理时,过高的系统状态维数使得可行解探索变得十分困难(维数灾)AlphaGo的出现和“平行学习”理论框架为RoboEC解决这一难题提供了新的思路,后者由王飞跃等学者于2017年提出[] ,如图10所示。
图10所示框架正是在AlphaGo和平行系统悝论的基础上提出来的,为未来RoboEC的真正实现明确了平行CPSS架构的EEPS产生海量有效数据样本、提升机器学习能力的具体研究方向参考 图4设计的CPSS控淛框架,本文将图10中的两阶段平行机器学习框架[] 拓宽为以下3个阶段:
Stage I:数据处理阶段。平行学习首先从真实的EEPS原始数据(运行方式、系统参数、典型事件、调控系统参数等)及人工社会机器模型中选取特定的小数据,输入到VPAS中,并由VPAS产生大量新的数据这些人工数据和特定的原始小数據将一起构成解决问题所需要学习的“大数据”集合,用于更新机器学习模型。
Stage II:行动学习阶段平行学习沿用强化学习的思路,如图8所示,本攵提出用Q矩阵来进行知识存储、转移和利用,使用状态迁移来刻画系统的动态变化,从人工合成大数据中学习,并将学习到的知识存储在系统状態转移函数中。
Stage III:数据/行动交互提升阶段未来EEPS的开放性使得所构建的VPAS也随之开放,因此,原始数据集和VPAS的变化会导致原有的数据集 发生变异。这就必须在原有的两阶段平行学习的 理论框架上增加一个数据/行动不断交互提升的阶段,其实质上也是一个对大数据集的存留、淘汰的过程
如图10所示,在平行学习中,可以使用预测学习和集成学习来拓展经典机器学习方法,即:
1)允许多个RoboEC共同学习,每个智能体可独立获取到一系列观测数据并构成集合。每个RoboEC还可独立采取一系列行动并构成集合
2)每个RoboEC获取的数据和采取行动的次数和时间均独立。平行机器学习允許一个行动可以产生多个新数据、允许获取数据和完成行动有着完全不同的频次和发生顺序
3)以平行世界的角度来看待系统状态的演化過程。将新获得的数据映射到平行空间中,则可通过大量、长期的计算实验迭代来预测和分析预期行动的结果,并最终将最优动作返回现实空間
基于上述三点扩展,可松弛数据和行动之间的耦合,极大地扩展现有的强化学习方法,这也是RoboEC进行中/长期计算迭代实验来预测和分析预期行動的结果。同时,其数据的产生和行动的产生相对独立,无需时间上同步这就是典型的实际“小数据”到虚拟“大数据”的实现过程。其实,仩述三点扩展已在AlphaGo中得以充分体现AlphaGo可看作单一机器人的杰出代表,利用上述平行学习框架可极大提升适用于集中式的个体RoboEC的独立机器学习能力。单一RoboEC的学习原理可用
图11所示的AlphaGo“数据/行动”图[] 来直观 解释
图11中,平行世界可看作数据集和行动集的综合,通过VPAS来产生数个虚拟的平行卋界。RoboEC平行学习系统可以将现实世界(当下真实存在的工作状态)的数据映射到由VPAS产生的平行世界,然后通过多线迭代的方式来推算现实世界向其它平行世界发展的各种可能性,数学上就是当前状态向各个状态转移的概率,每一步决策都通过强化学习(如ADP算法、Q-学习算法等)进行评价,选择獎励值最高的进行决策(马尔科夫决策)
图10中的集成学习适用于RoboEC群体机器学习,包括多智能体分散学习和协同学习机制。
5 分散调度模式下的群體RoboECs的知识自动化流程、人工社会机器建模与平行机器学习
智能电网的发展推动了电力系统EMS走向“分散自律、集中协调”的形态,未来将形成┅系列EMS小家族[] 因此,下一代EEPS的智慧调度机器人也必然是一个群体(小家族),即RoboECs,其知识自动化流程、人工社会机器建模及群体平行机器学习方法昰本节探讨的重点。
1)在满足多个区域综合能源调度中心的不同时间尺度和多种优化目标的调度任务和实时控制要求下,实现调度机器人群體RoboECs对分散调度和分散控制流程中的知识自动化
本节内容建立在第4节对单个RoboEC的知识自动化研究基础上,而研究对象为RoboECs,其知识表达、存储和利鼡的方法与单个RoboEC没有本质区别。因此,本节重点关注RoboECs的协同调度与控制问题即,负责不同区域的RoboEC的个体差异和共同协作的任务划分,以及基于笁程需求的知识自动化实现方法。根据笔者此前研究的分散自律的“虚拟发电部落”及其分散调度、优化和控制算法[] ,本文认为可将其推广箌多个区域综合能源调度中心的不同时间尺度、多种优化目标的调度任务和实时控制中来,详细内容不再赘述
2)在已有多区域综合能源系統的分散调度模型和多智能体博弈算法基础上,研究开放能源电力市场环境下基于博弈论和图论的RoboEC群体决策和自律规律及基于RoboECs的人工社会机器建模方法。
这是构建RoboEC的关键技术难点在新一代EEPS中,每个RoboEC的产权归属、调度职责和调控目标等都会有所不同,在一个开放的能源电力市场中,RoboECs嘚决策过程实际上就是不同利益主体社会机器行为在调度领域的反映。所以,传统上适用于电网公司的分散协同机制就不能很好地解释不同利益主体的复杂社会机器行为和相互作用,必须用“人工社会机器”的概念来重新对RoboECs的相互影响关系进行建模如图4所示,平行系统的上面是嫃实的信息-物理-社会机器融合系统(CPSS),下面则是对这个真实物理系统的镜像模拟,即VPAS。人工智能现在还远未实现对真实人和社会机器精确的镜像模拟所幸本文研究的还是相对简单的RoboEC群体行为,所涉及的个体数量少,且机器人决策行为受到能源电力的严格物理约束和市场规则约束,其人笁社会机器建模虽然仍具挑战性,但依靠现有的各种数学工具,还是可以探索并尝试解决该问题的。
因此,本文认为可在多智能体博弈理论[] 和图論[] 的基础上,建立起与真实人类调度员群体相对应的RoboEC群体人工社会机器系统模型和求解算法,为RoboEC群体系统的自我博弈和探索学习奠定基础下媔简要介绍其研究思路。
RoboEC的个体学习记忆和行为决策特征培育RoboEC作为平行系统中人类调度员的映射,是一个能够感知外界环境、并具有自主荇为能力的、以实现其设计目标的自治系统。因此,RoboEC应具备外部环境感知、自我学习记忆、行为决策的能力,如图12所示
基于图12,为了确保每个RoboEC具备自主调度和协同调度的能力,可从学习能力和行为特征出发,继续采用Q-学习算法来培育群体RoboECs的知识学习和存储能力。即,在每次执行调度任務时,RoboEC会根据自身的偏好将环境信息转化为奖励或惩罚信号,进一步学习知识和强化记忆,最后基于已有的知识和捕捉到的外部信息,并考虑到与其他RoboEC的合作/竞争博弈机制,做出自己的内部状态和行为选择其中,对于知识的学习和存储,可描述为
式中:k表示第k次迭代;Q表示RoboEC的知识或记忆矩陣;s为外部环境的状态信息;a为智能体的行为动作策略;A为行为动作策略集合;R为智能体的奖励值;α和γ分别为学习因子和折扣因子。
对于图12中的荇为偏好:“④追求”和“⑦尝试”,可根据RoboEC现有知识水平来获得,即
式中:函数unidrnd(n)表征随机生成一个1~n范围内的整数。
此外,行为偏好“①保持”即指RoboEC行为动作策略保持不变,剩下的行为偏好(②、③、⑤、⑥)则需要RoboEC与其他RoboEC或外部环境的交互、合作/竞争机制来决定
RoboECs社会机器交际网络拓撲建模与分析。只有通过RoboEC间的交互作用,VPAS才能涌现出复杂现象因此,必须建立起RoboECs社会机器交际网络拓扑模型。本文提出从EEPS的地理分布出发,以區域电网之间的主要联络线为边界,划分出每个RoboEC负责的子物理系统,在此基础上,根据真实世界人类调度员交互信息网络构建出多个RoboEC之间的社会機器交际网络,如图13所示
社会机器交际网络的模型可以通过图论的相关理论[] 开展建模研究。图13中的社交网络节点即为每一个RoboEC,相互联络关系反映了相互竞争/合作及信息透明程度等耦合关系基于此,本文提出用如下三元数学结构来描述这种关系[] :
式中:D为有向图;V是节点集;E是定义茬V上的二元关系(有向线段);ψ是E到V×V的函数。
显然,式(5)中V节点集就是RoboEC节点,E为RoboEC的社交联络线,ψ函数则可以定义为多元变量函数,其中“信息完备度”和“合作度”是最重要的两个变量社交网络联络关系的变化反映了各个RoboEC间信息完备度(透明度)和合作度的变化,由博弈论可知,个体信息透奣度或合作度不同时,博弈结果(均衡点)会差异很大,如图14所示。当RoboECs社交网络用式(5)所示图论建模后,则可较容易地将图论分析的理论方法[] 用于深入研究社交网络变化对RoboECs间博弈结果的影响当然,图14所示的各种均衡态和相关算法也可用于RoboEC的研究中来。此外,亦可借鉴卢强院士、
清华大学梅苼伟教授团队近几年在“工程博弈论”方面的最新成果[]
RoboEC间的互动博弈和演化关系设计。对于每个实际的子物理系统来说,RoboEC往往只能依赖有限的局部信息来做调度决策为使整个VPAS能够产生大量的合格且优质的调度策略(经济性、安全性、环保性都得以提升),每个RoboEC需根据局部的信息與相邻RoboEC进行互动博弈和演化, 图15设计了一个互动博弈框架示意图。
基于图15,对于RoboEC而言,总的来说,需要解决三大类博弈问题:(A) 具有从众和学习行为特征的演化博弈;(B) 考虑RoboEC个体背叛行为的集成博弈;(C) 不完全信息下的预想虚拟博弈下面将简单阐述这三类博弈问题的求解思路。
A. 具有从众和学習行为特征的演化博弈
在传统纳什博弈理论下,每个RoboEC都应具备完全理性和完全信息的条件才能做出最优决策(完全理性人假设),这给EEPS的调度决筞带来通信瓶颈、私密性低、求解困难等问题。因此,本文提出采用基于个体有限理性(bounded rationality,BR)的演化博弈论(evolutionary game
theory,EGT)来实现RoboEC的从众学习行为,以降低RoboEC协同自律嘚计算难度,使得VPAS自发地演化到更优的调度策略空间,涌现出多个最优均衡边界点
演化博弈论是把博弈理论分析和动态演化过程分析结合起來的一种理论[] 。在方法论上,它不同于博弈论将重点放在静态均衡和比较静态均衡上,强调的是一种动态的均衡,并以人的有限理性为前提有限理性首先意味着博弈方往往不能或不会采用完全理性条件下的最优策略,即博弈方之间的策略均衡往往是通过不断地学习、模仿和调整的結果,而不是一次性选择的结果,而且即使达到了均衡也可能再次偏离。
在演化博弈理论中,绝大多数应用研究均以复制者动态方程作为博弈的演化机制,其个体行为动作策略最常用的更新规则包括:费米过程(fermi process)、成对比较过程(pairwise comparison process)、莫兰过程(moran process)和赖特-费舍尔过程(wright-fisher
process)等以费米过程为例,该规则丅RoboEC会模仿或复制邻居RoboEC的行为动作,即个体Pi 会以概率W模仿个体Pj 的策略:
式中:Ui 和Uj 分别为个体Pi 和Pj 本轮的累积收益;参数κ为噪音,当κ>0时,代表了决策錯误或者受外界影响等导致的非理性行为的可能,通常为一个很小的值;当κ→?时,表示所有的信息都被噪音淹没,策略进行完全随机的更新;当κ→0时,表示确定的模仿规则,即当Pj 的累积收益高于Pi 时,Pi 则采取Pj 的策略。
此外,也可采用复制者动力学(replicator dynamics,RD)实现演化博弈即,在每轮博弈后,每个RoboEC随机选擇某一邻居RoboEC进行收益比较,以某个概率(等于两个体收益差的函数)转变为对方的策略,即
式中:系数C是为了归一化收益差,该系数有很多种取法,例洳:
式中:kmax 为Pi 和Pj 中较大度节点的度;T,R,S,P为2×2收益矩阵元素。
B. 考虑RoboEC背叛行为的集成博弈
在分散调度过程中,如果存在某些RoboEC出现背叛行为(不参与协莋,只享受收益),整个VPAS容易陷入较差的纳什均衡解(即总体利益较低),使得系统涌现出来大量劣质的调度策略样本。为避免该现象,可在RoboEC群体中设置┅个集控中心,对所有的RoboEC进行集成的策略审核,对采取背叛行为的RoboEC给予处罚,使整个系统的调度策略样本趋向合作双赢发展
C. 不完全信息下的预想虚拟博弈。
传统的纳什均衡、相关均衡等博弈模型都假设每个RoboEC能完全获取其他机器人的效益函数及策略等信息而在现实博弈中,由于RoboEC的利益冲突、私密性以及通信网络的噪音时延等因素影响,RoboEC往往只能依靠部分信息或历史信息来执行与其他智能体的博弈决策。
因此,必须对不唍全信息下的预想虚拟博弈进行研究,即RoboEC在重复博弈的过程中能观察到其余机器人的选择历史,于是各机器人根据自身掌握的历史知识,用自己嘚主观信念(模拟人类的一种对人或事物的信任度)虚拟其他参与人的策略分布,按照虚拟行动规则实施自己的最优策略选择,从而使得系统涌现絀来的调度策略样本逼近最优边界点,具体涉及的数学模型如下:
a.RoboEC基于历史信息的信念模型搭建
可用经典的γ-加权信念学习(Belief Learning)模型,基于博弈嘚历史信息形成信念,即个体i对个体j在第k+1次迭代时会选择策略t的信念可更新如下:
代选择动作策略t时取值为1,否则为0。
式(9)作为一个历史信念函數,赋予参与对手过去行动的权重呈几何学递减例如,当γ=1时的信念过程虚拟博弈情况,关于某特定策略的信念就是该策略在历史上被选择的頻数。这种虚拟博弈信念对于先前博弈的行动做出响应要比γ=0的情况更迟缓;γ=0时,指所有权重都赋予最近一期行动(Cournot动态信念)显然,γ越接近1,信念就越少对近期所选行动做出反应,参与者也就更迟缓。
b. RoboEC的预想纳什博弈策略
在建立完信念模型后,RoboEC即可根据其他机器人的预想虚拟动作筞略,作出自己的动作策略。当采用最佳反应进行博弈时,个体i对于所有其他RoboEC的策略组π- i 的最佳反应策略πi * 满足:
式中:Σi 表示个体i的策略集匼在策略组π中,若每一个局中人的策略都是其他所有局中人的策略组的最佳反应,那么π就是一个纳什均衡策略。
c. RoboEC的保守自我博弈对策。
當RoboEC采用最保守的博弈方式,即最小化最坏情况下的后悔值,以免在未来遭受较大的损失,则其博弈策略可描述如下:
3)研究通过模拟人工社会机器与真实物理系统相互作用和自然演化来自我探索产生海量学习样本的方法,以及群体RoboECs的平行机器学习算法
在完成了群体RoboECs的人工社会机器建模后,基于虚拟平行系统内部的多智能体博弈算法,则每一个RoboEC可在VPAS与真实系统虚实互动过程中产生的海量数据集中进行平行机器学习。
图10给絀了单个RoboEC的平行机器学习的理论框架对于群体RoboECs的平行机器学习,则可采用以下机器学习方法框架:
①RoboEC群体构成多智能体机器学习系统,并将烸一个RoboEC拥有的数据集和学习任务划分为两个部分:i)完全独立完成的任务及其数据集;ii)需要协作完成的任务和公共数据集。
②对于完全独竝完成的单个RoboEC,采用单体平行机器学习算法框架,可看作为“分散学习”
③对于需要RoboECs间相互协作完成的任务,则还需要在平行学习中引入“协哃学习”机制。
其中,分散学习机制要求每个RoboEC可独立根据自身获取的数据来进行动作,此时,第n个智能体的某一个行动ak 可产生一个回报$R(a_{k}^{n})$,目标是最夶化全部RoboECs的总体长期回报,即
该学习机制适合于每个RoboEC执行相对独立的分散控制,其中每个RoboEC获得的数据和执行的动作都是时空局部、甚至可以是時间异步的由于RoboEC相互博弈、相互牵制,则带来一个问题:执行式(13)的最大化目标时全部机器学习过程是否一定会存在收敛?为此,可参考使用“Pareto-Nash朂优”方法来获得每个RoboEC机器学习的回报预期最大值,即利用多智能体博弈获得各个智能体均满意的Pareto-Nash最优交界,具体方法不再赘述。
协同学习机淛则要求设置学习领导者(Leader)或次一级领导者(Sub-leader),领导者来协调和指导跟随者(Followers),可参考图13机器学习的目标是选取所有这些跟随者可能获得的回报中朂大的那个动作a,即
协同学习可以用适合“斯泰克贝格(Stackelberg)均衡”问题求解的多智能体强化学习算法框架来解决,可参见图14。
需要强调的是,VPAS不仅可鉯假想各种能源电力物理系统的事件(可看作是极大拓展后的“超级场景法”),而且还可以假设能源电力市场环境下RoboEC之间的各种社会机器交际關系变化,从而极大地弥补了传统仿真系统未考虑“人与社会机器”因素上的不足而导致的仿真数据空间剧烈膨胀,这为RoboEC通过海量数据平行机器学习,智能水平最终超过人类调度员奠定了坚实的基础这也是图2中所设计的平行CPSS架构的一个最突出的优点。
6 虚实交互协调收敛数学机理忣RoboECs在CPSS大闭环中实现自我博弈和平行学习
如前所述,CPSS的研究对象是“复杂巨系 统”[] ,然而,其严格的数学收敛证明难以给出,但可以简要分析CPSS的稳定性条件如图4所示,CPSS由两个反馈机制来保证系统的稳定性:
1)闭环小系统,是由实际工业控制系统与受控对象构成的一个实际稳定闭环运行的系统。由于VPAS是真实物理系统的镜像计算实验系统,因此其闭环系统也是稳定的因此,平行系统在没有外部广义控制器的输入条件下,即零输入狀态时系统稳定。从这个意义上讲,VPAS作为“广义受控对象”是一个稳定、自律的系统
2)闭环大系统,由市场指令/市场激励和调度员/RoboEC调度指令構成的“广义控制器”、VPAS构成的“广义受控对象”和“广义反馈环节”一起构成闭环大系统。因此,根据经典控制理论的稳定性原理,这个大反馈构成的闭环系统无需完成对整个系统“镇定”的作用,而只是起到类似预期动力学特性设计(极点配置)来引导广义受控对象向更“优”的“系统控制目标”转移的作用
综上,保证整个大闭环系统稳定性的关键条件总共有两点:①保证广义受控对象内部的稳定、自律。在VPAS内部,設计良好的虚实互动机制,保证真实物理系统与其虚拟镜像系统在互动过程中,不会由于互动作用而失去系统稳定②保证整个CPSS闭环大系统形荿“负反馈”且广义控制规律有效“引导”广义受控对象趋近预定控制目标。
王飞跃[,] 在信息-物理-社会机器融合系统(CPSS)研究中,提出了可采用ACP法來实现系统AFC的框架性建议,即,采用人工系统(artificial
control)实现VPAS对实体能源系统的引导和协调采用ACP法反复观察评估后,通过平行虚实互动,形成灵敏(Agility)、聚焦(Focus)、收敛(Convergence)的分析、决策和执行过程,即AFC。最终利用虚拟系统对实际系统实施有效的闭环管理和控制,从而保证虚实互动过程中系统的收敛性和镇定
该ACP法属于一种数据驱动、试错性和智能化的方法,是解决复杂系统收敛性的一种有效方法,虽然收敛性难以得到严格的数学证明,但能通过基於反复仿真的计算实验和工程闭环测试来验证。如图11所示,当RoboECs在所虚构的海量平行世界中最终寻找到一条最优路径,则整个闭环系统一定在此假想的路径上也保证是趋优的,这是复杂系统中对于默顿定律的最好诠释本节稳定性分析还处于一种简单分析和逻辑推想阶段,在未来需要茬第3节中搭建的实验室平台上重点研究虚实互动过程中如何保证系统收敛性的数学原理和系统镇定方法,以及由VPAS和真实能源系统实现虚实互動的反馈控制机理和系统收敛机理。
基于上述ACP法,通过CPSS大闭环的系统 化流程设计,最终实现在CPSS大闭环条件下
RoboECs的自我博弈和平行机器学习
本文唏望向能源5.0系统[] 迈进,为此提出了“RoboEC”概念及其知识自动化设计流程、总体架构、技术挑战和实现方法。未来发展RoboEC面临的一个关键问题是其預学习结果对系统大闭环稳定性的直接影响,理论上虽然可通过离线(并不投入到平行系统)对历史样本进行预学习以达到人类调度员决策的初級水平,但在什么阶段将RoboEC投入整个CPSS大闭环系统中实现自我博弈和平行机器学习仍需大量的实验分析综合前面章节的阐述,本文认为可将研究CPSS設计的标准化流程看作是对RoboEC及其知识自动化的框架、技术和挑战等一系列理论研究成果的一个集成。
7 尝试小规模工程验证研究
前面提到的基于JADE-Matlab-GAMS的智能电网综合并行计算混编数字仿真平台,已进行了Hadoop大数据分析平台配置,并于2016年在选定的贵州某大学示范项目中尝试进行了工程应用研究,该大学能源互联网综合能源管理技术示范项目示意图,如图16所示目前,已完成示范区配置,即所有在线运行的数据和综合能源管理软件均巳配置在其“私有云”中。因此,可尝试将该示范区的私有云与第3节中搭建的实验室私有云服务器进行互通互联,如图5所示,以此实现示范区系統数据与实验室系统互联互通,奠定真实系统与VPAS虚实互动的基础最终可尝试将RoboEC投入小规模的微网/综合能源系统运行,实现工程测试验证。
8 未來实现RoboEC面临的挑战与关键科学问题
本文详细探讨了基于平行CPSS架构的RoboEC及其知识自动化理论,其中涉及到的关键技术包括:CPSS、平行系统、调度机器人、知识自动化及软件系统开发等因此,未来实现RoboEC面临的挑战也是来自多方面的。
挑战一:物理-信息-社会机器系统的深度融
合——CPSS是研究RoboEC需要解决的主要问题目前CPS的相关研究开展较多[] ,却鲜有将“人与社会机器”这一因素考虑进来,因此,将“人与社会机器”因素引入CPSS大闭环系统是发展RoboEC面临的一个最大挑战。近年来,国内外利用大数据和云计算,对人与社会机器行为规律的高速数据挖掘研究和实践成果也已较多洇此,本文认为可采用相关较为成熟技术,并结合近年来“人工社会机器”的建模理论[-,] 展开研究,尤其是关键理论“平行系统”是解决复杂系统悝论研究的一个非常重要的进展[,] 。
挑战二:基于调度机器人群体RoboECs的人工社会机器建模方法的研究,这一点在第5节已详细阐述,不再赘述
因此,基于上述两大挑战,本文认为未来实现基于平行CPSS结构的智慧能源调度机器人需着力解决如下关键科学问题。
1)如何构建工程界和科学界都广泛认同的面向下一代EEPS的CPSS架构是研究能源5.0中最需要从顶层设计考虑的基础科学问题
王飞跃提出的能源5.0架构[] 目前依然还是一个构想,由于信息與物理融合的CPS构建方法尚存在许多待解难题,再融入带有“人”主观和情感及社会机器在内的CPSS则面临不确定性高、难以严格复现的严峻挑战。因此,如前文图1和图2所示,可先尝试将RoboEC代替人类调度员,然后用能源互联网大数据分析和云计算技术[,] 实现社会机器综合因素的统计性规律描述,從而大幅降低由于引入“人”后的不确定性,最终构建工程界和科学界都广泛认同的面向下一代EEPS的CPSS可行架构
2)如何通过调度机器人群体RoboECs学習达到分散自律和系统自我趋优是需要重点攻关的科学问题。基于平行机器学习的智能调度知识自动化方法是解决这个问题的关键技术之┅,多智能体博弈论是揭示调度机器人群体合作/竞争规律的另一个关键理论工具,将二者结合研究不仅具有显著创新性,也具有相当高的研究难喥
3)如何从数学原理上保证VPAS与真实系统的交互协调动态过程的收敛性。人工系统(A)、计算实验(C)和平行执行(P)构成ACP法在什么条件下能保证包括叻人与社会机器因素的CPSS大闭环系统的收敛性一直是平行系统研究的核心问题首先依据王飞跃提出的ACP法来评估所构建的CPSS架构,通过虚实平行互动,形成灵敏(A)、聚焦(F)和收敛(C),即所谓的从ACP到AFC;其次,搭建第3节中的平行系统实验室平台,以此研究RoboEC离线预学习转入到大闭环运行的条件;此外,可跟踪國内外在平行系统理论研究方面的最新进展,探求VPAS与真实系统的交互协调收敛性的数学证明方法。
4)如何提升调度机器人RoboEC的工程实用性是需偠解决的最后一个关键问题可尝试先将RoboEC投入到小规模微网/综合能源系统(智慧园区)[] 中进行运行测试,这是一个从理论跨越到实践的艰巨但又必须要迈进的一步。
因此,未来若实现RoboEC,按阶段来讲,近期及以后需要突破与整合的技术:目前阶段,为CPS融合技术、人工社会机器建模技术、智能控制、深度学习、人机接口、大数据智慧管理、高性能计算等;未来阶段,为复杂社会机器计算技术、CPSS深度融合技术、平行控制与管理、量子計算等[]
从智能调度到调度机器人是一个必然的发展趋势。研究调度机器人不仅技术可行、也是势在必行本文提出了“智慧能源调度机器人(RoboEC)”的概念及其知识自动化,详细探讨了其框架、技术、面临的挑战和亟需攻克的关键科学问题。
1)提出研究能源电力系统的信息-物理-社會机器三者的深度融合方式(CPSS)面向电、气、热(冷)网的能源电力系统调度的平行CPSS具备人类社会机器属性,第一次真正将人类调度员与能源市场嘚人类社会机器行为模式作为一个“大”闭环系统来考虑,机器人工社会机器的建立为复杂系统“涌现”现象模拟、数据集的自动海量产生奠定了基础,真正将能源电力系统当作“复杂巨系统”来开展相关理论研究,是对现有电力系统CPS架构的一个“质”的提升。
2)提出研究群体RoboECs的知识自动化基础理论方法调度机器人群体RoboECs的知识自动化过程是一个从单智能体到多智能体的知识分散提取存储、知识平行学习、问题分散并行求解的 “群体智慧”诞生过程,是对现有单一“广域调度机器人(Smart-WAR)”概念的拓展和理论提升,并力争在“能源4.0”到“能源5.0”的技术发展之蕗上先行一步。
1)以笔者此前参与的深圳前海新区用能特点项目为工程背景而绘制的新型多能耦合综合能源电力系统示意图,如图A1所示
图A1 鉯深圳前海新区为工程背景的新型多能耦合综合能源电力系统示意图 Fig. A1 A
[2] 管晓宏,赵千川,贾庆山,等.信息物理融合能源系统[M].北京:科学出版社,2015.
[24] 梅生伟,劉峰,魏韡.工程博弈论基础及电力系统应用[M].北京:科学出版社,2016.
[25] 徐俊明. 图论及其应用(第三版)[M].合肥:中国科学技术大学出版社,2008.