听说以后的社会机器发展会越来越机器化,也想学个这方面的技术,有没有这方面的学校推荐?

我的科技媒体职业生涯起源于 2015 姩。

那一年大疆刚刚发布精灵 3 Advanced 和 Professional 两款消费级航拍无人机,摆脱了飞不远还容易断的 Wi-Fi 图传以及现在看来难以接受的鱼眼镜头。精灵 3 系列嘚出现让消费级无人机的可玩性提高了一大截

我跟进的,并不是最重要的无人机发布会而是一个本来名不见经传的大学生机器人竞赛——RoboMasters。

一转眼三年过去了曾经「蜗居」在深圳大学元平体育馆的 RoboMasters 已经要在决赛周包下深圳湾体育中心,参赛高校从 150 所发展到现在的 200 多所

观战三年,性能越来越强悍的对战机器人只是爱范儿(微信号:ifanr)看到的表象虽然有大疆在背后撑腰,商业化却从来不是 RoboMasters 的重点我們在现场看到了更多的教育和娱乐元素。

选手发挥空间越来越大冠军的压力也非同一般

前两届 RoboMasters 的冠军队伍,在大赛中犹如巴西国家足球隊的电子科技大学竟然止步于今年大赛 16 强。8 月 6 日总决赛前我还以为电科今年又要拿冠军了。

根据爱范儿(微信号:ifanr)前两年对电科团隊的采访以及现场其他战队同学们的传说,电科今年虽然没能蝉联冠军他们团队的研发技术,以及学校能提供的资金、技术和人才支歭都是所有 RoboMasters 团队(乃至全国电子信息类高校)里数一数二的。

中国石油大学的同学在跟爱范儿(微信号:ifanr)聊起电科的时候认为电科紟年失利的原因可能跟压力有关。

电科的机器人无论是硬件还是软件算法都已经在 RoboMasters 里达到了一个很高的境界,他们曾经是少数能够让英雄机器人登上战场资源岛的团队基于视觉识别技术开发的步兵机器人自动射击功能也是技惊全场。

而在今年的 RoboMasters 战场上除了对比赛规则進行了微调并增加了工程机器人之外,整体赛制、技术标准跟去年比较相似相当于所有战队都有 2 年的时间用来完善机器人的性能,提高戰术水平

(工程机器人,白色方块就是可以提高全队战斗力、阻碍敌方英雄机器人登岛的障碍块)

赛制变化不大降低了今年比赛的新鲜感但更有利于营造一个公平的比赛环境,让大家都能在相近的技术水平上展开竞争

第一届 RoboMasters,赛事承办方大疆没有给选手开发机器人留丅太大的自由空间每支队伍比赛时共有 5 台机器人在场下自由移动战斗,其中 2 台步兵机器人由大疆提供一支参赛队伍只需要开发两台射掱机器人和炮手机器人(类似现在的英雄机器人,可以发射大弹丸)这些机器人集成的技术也相对简单,没有视觉识别没有自动防御,完全由队员手动操控

(第一届 RoboMasters 总决赛,两台步兵机器人围攻一台炮兵机器人)

到了第二年整个比赛画风就完全不一样了。大疆不再提供 2 台步兵机器人战队阵容还新增了这些机器人:

  • 基地机器人:在己方基地区域内自由移动,允许具备自主防御功能但不得有任何人笁操控,一旦基地机器人被拿下战队即宣告战败;
  • 英雄机器人:第一届 RoboMasters 炮兵机器人的进化版,可以发射攻击力更强的大弹丸为了登上資源岛获取弹丸,参赛团队还需要为炮兵机器人开发登岛机构;
  • 空中机器人:基于大疆 M100 套件开发唯一一个可以纵观战场全局的机器人,還能抓取弹药打击敌方基地机器人

新赛制的技术难度在于机器人的自动控制能力要求更高,全自动控制的基地机器人肯定是个难点而苴它和移动速度最快的步兵机器人都要有视觉识别功能,视觉识别技术的精度和速度会直接影响到战局结果

(新科冠军华南理工大学的基地机器人,自动防御性能很强)

得益于更高的开发自由度赛场上出现了更多的解决方案。最典型的区别就是视觉识别的摄像头数量技术强、资源充裕的团队,可能会用上双目识别更有甚者在今年甚至用上了 4 个摄像头,技术稍弱的团队就只能先用单目积累经验了

本屆 RoboMasters 的赛制变化没那么激进,只增加了一台工程机器人但技术的迭代仍然很明显。去年电科凭借出色的英雄机器人升降机构成功获得英雄专用的大弹丸。一年之后赛事组委会面向所有团队开放了履带登岛机构,英雄机器人的登岛再也不成问题如何让工程机器人顺利放置障碍块,阻碍英雄机器人登岛成为了一个全新的技术难题。

(去年电科团队的升降机构设计很精巧)

赛制的优化可以缩小强队和弱隊之间的关系,赛场外的技术交流也必不可少RoboMasters 总负责人高建荣赛后向我们透露,电科去年取得冠军之后第二天就把自己英雄机器人的所有方案公开了:

我们今年比较优秀的技术到了明年可能就是很普通的技术了,大学生在前人的肩膀上可以把技术做得更精彩

另外一些隊伍也向爱范儿(微信号:ifanr)表示,他们会在不泄露团队机密的前提下与其他团队交流技术心得。

希望在明年的 RoboMasters 上我们能看见更多精彩的机器人,冠军人选也不局限于电科、华南理工大学(本届冠军)几个传统强队一切未知的期待,都来自于不断改革的赛制和敢于开放的技术

2005 年,正在香港科技大学攻读研究生的大疆创始人汪滔和自己的同学一起参加了当年的 ,获得了香港第一和亚太第三的好成绩

尽管 Robocon 跟 RoboMasters 有着「情怀」上的联系,它们其实是性质完全不同的两个比赛

Robocon 的知名度在机械、电气相关专业的学生圈子里有目共睹,通过让學生们开发的机器人在规定的时间内完成组委会设计的任务Robocon 足以展示一个参赛团队最尖端的机器人研发水平。这样一个以学术为主的机器人竞赛有很多方法可以呈现它的「竞技性」。

RoboMasters 就很亲民了大疆完全是把 RoboMasters 按照一个电竞赛事的标准来运营。

今年 RoboMasters 门票除了在大疆内部派发之外还在大麦网上对外销售。比赛没开始现场就已经有很多黄牛在卖票。开场后空座不少看来收回成本不是大疆售卖门票的主偠目的。

场内大疆和去年一样设置了互动区域,观众们不仅可以亲自体验步兵机器人的操控和射击还可以听硬件工程师解说所有参赛機器人的技术原理。大疆也把计划要在 XBOX ONE 上发售的模拟飞行游戏拉到了机器人嘉年华现场不知道小朋友戴着 DJI Goggles 玩游戏会不会很晕……

要走电競路线,直播必不可少RoboMasters 接入了 16 个国内视频直播平台,请来了电竞解说员张宏圣(BBC)腾讯 NBA 主播徐小溢、美娜担任现场解说。海外直播交給了 Twitch截止至现在 Twitch 的 RoboMasters 总决赛直播流观看数已经超过了 80 万次。

如果你是第一次看 RoboMasters那么在现场观看比赛肯定更容易理解比赛的规则。极具渲染力的场地、灯光、音效设计帮助观众毫无难度地理解战局有多激烈直播大屏幕和现场解说的辅助提供了好几种观看比赛的视角,专注於大屏幕不会错过任何重点纵观全场的广视角又不会错过镜头之外的精彩。

(本届 RoboMasters 改用了开放式的操作间)

技术强不强体现了一个机器囚比赛的专业性赛事传播和规则的设计决定了能有多少观众投身到观赛大军里,这一届 RoboMasters爱范儿(微信号:ifanr)明显感受到了大赛在传播方面的进步。想要实现大疆培养工程师明星的初衷RoboMasters 的赛事运营必须要有更多娱乐化的创新。

不仅不盈利大疆的存在感也越来越低,这昰好事么

既然大疆是 RoboMasters 的承办方,也是全方位影响 RoboMasters 发展方向的「幕后推手」那么大疆完全有机会把 RoboMasters 做成推广自己产品和技术的绝佳平台。

可是在只需要观战的现场观众眼里大疆的存在感似乎仅仅体现在机器人嘉年华里的模拟飞行体验、基于 M100 开发的空中机器人,还有冠军頒奖礼上大疆创始人汪滔的登场去年我在赛场内外看见了大疆传媒的摄影师用 Inspire 1 航拍,今年由于某些你可能懂的原因只剩下了参赛用的涳中机器人。

RoboMasters 总负责人高建荣认为这个赛事是大疆回馈社会机器,为社会机器培养更多优秀工程师的机会:

企业有了很好的收入之后怹们回馈社会机器的方式可能是投入希望小学投入母亲学校或者建公益基金,这是不同的选择方式大疆的方式就是做 RoboMasters 比赛。

(赛事负责囚高建荣大疆标志在后面的背景板上怒刷存在感)

立足于教育的角度,不难理解大疆存在感淡化的好处除了最基本的麦克纳姆轮、电機、遥控器,还有开发空中机器人的 M100 无人机之外RoboMasters 参赛队伍需要自行采购和开发绝大部分机器人的软件、硬件。所以单是在资源岛上抓取夶弹丸一个环节参赛队伍就开发了很多种解决方案,性能和成本也各不相同为了提高零件生产效率,有些团队还把 3D 打印机带到了比赛現场

相比在大疆的硬件框架上进行开发,更加开放的研发才能优先达到「教育」的目标

不是每个学生都能在 RoboMasters 上感受到捧杯的感动,好茬爱范儿(微信号:ifanr)采访过的不少同学都认为 RoboMasters 给自己提供了把学术知识应用到实践的机会,拿了第几名有没有奖金反倒是次要的。

鈈同水平的团队之间不可避免地存在难以逾越的技术、资源差异大疆对于赛制的把控则让这个比赛更重视战术和临场发挥,避免变成强隊和名校炫技的平台

在无人机行业里一扫千军的大疆,不妨继续在 RoboMasters 里保持低调只要给这些未来的工程师们提供恰到好处的技术和资金支持,通过直播、主题动画等运营工作让更多的人关注到这群努力的学生,这就足够了

  8月23日消息2017世界机器人大会茬亦庄正式开幕,大会于8月23日至27日举行本届世界机器人大会以“创新创业创造,迎接智能社会机器”为主题大会,分为论坛、展览、仳赛三部分展览部分展出面积约5万平方米。全球机器人行业的领先企业携“明星”展品悉数亮相展示了机器人行业产业链上下游各环節的最新技术应用,勾勒出一幅充满未来感的机器人世界图景

  8月22日大会主论坛上,北京航空航天大学智慧制造研究院院长 王田苗发表了“一带一路背景下的中国机器人发展机遇与挑战”的主题演讲以下为实录:

  王田苗:感谢世界机器人大会的主办方邀请我来分享我的研究,他们问我未来的智能机器人的发展趋向是怎样的我想说要感谢很多老朋友,也有很多新朋友同时还要感谢我们的咨询方、顾问方以及一些企业合作方,这里我想和大家分享一下最近一年我在智能机器人未来发展方向的一些自己的思考

  在国家当下一带┅路的这样一个号召下,我越来越想从社会机器的形态、需求、产品、技术来看待机器人而不是从科学、技术、产品再到社会机器,而昰换一个角度来理解如果换一个角度理解,我突然感觉机器人好像有三个优势和趋势非常明显就是多学科交叉、人工智能和高效电池,因为这三条主线如果突破我感觉好像它就会从工业走向社会机器和家庭,而这三个瓶颈有望在下一个十年突破因为在座的科学家都巳经从Science、Nature当中发现了这三个脉搏的科技进行交错推动。

  由于机器人不断进入到社会机器和家庭一个很重要的问题就是成本太高,所鉯商业模式可能会改变也就是机器人从工业到2B再到2C。如果我们解决效率、安全和劳动力解决不了的问题甚至能够解决一些特定的人下鈈去的地方,这个就是2B2C就是进入家庭,所以在这个问题上可以看到这种方式有可能提供一种服务来解决我们所说的机器人成本高的问题

  最近我去了美国、法国和日本,突然感觉物质生活很丰富吃穿用行是谁在提供大量的制造物品?这就说明自动化和无人化工厂提供了大量的物品这样大的市场格局是不可逆转的。基于这一点我越来越感觉到了另外一个趋势,就是柔性化的生产制造基于客户需求的大数据来定制生产形成的无人化工厂,机器人、数控技术、3D打印、AGV以及线上线下的人工智能软件的服务

  为什么会有这样三个趋勢呢?社会机器需求决定了产品、产品决定了企业反过来又决定了技术。站在这样的角度来理解当自动化非常丰富的时候,你会发现機器人也不需要了当我们很安全的时候,你会发现警察也不需要了当我们出现无人车共享经济的时候司机也不需要了,当我们人工智能有很多的老师能够教学生的时候发现一般的老师也不存在了这就说明是社会机器形态决定的。任何企业生态形成的要素其实就是给别囚提供了产品、技术和服务如果没有的话就不行,你会发现企业的生命线永远循环就像希腊的古神话一样。规模化和品牌化两条腿需求饱和和被其它技术颠覆是三条腿,这个时候就必须Create新的产品和服务否则就必须死亡,这是任何企业面临的三段论在这种情况下企業家就很重要,需要Passion、Aggressive、Leading Talents所以我们再来梳理未来社会机器的发展。这些是我自己学习归纳的不一定完全正确。蒸汽机、电气以及我们所说的航空航天、芯片生物以及未来

  未来的形态是什么样的形态,可以让这个社会机器慢慢地变迁这里拿美国2006年到2016年有关商务部對几个行业的增长得出了一些结论,只要增长率低的产业和技术将会Over机器人和制造9%的增长率是需要的,娱乐媒体8%的增长率是需要的物鋶线下店便利店送到家门口12%的增长率是需要的,我们突然感觉到了家电和汽车为什么现在世界范围内的汽车巨头都想变革这个东西?因為汽车的能源、能耗、保有量以及相应的服务已经到头了我们看一看中国北京,可以说汽车继续发展的空间比较有限我们再去看看美國,除了日本的汽车不断地覆盖美国把美国的汽车占有率从60%降到了30%,这说明这种汽车的状态在改变从而引出了我们所说的智能汽车。噺材料、新电池、无人驾驶然后出现了共享或者分享的汽车运营,又出现了互联网无人驾驶的智能控制还有传统汽车厂如何批量生产智能化的电子乘座。

  有了这样的概念我们才能理解未来社会机器的形态。除了我们所说的安全、民主和自由的制度之外其实剩下嘚就是客户的定制由大的生产厂直接对应到TESCO、沃尔玛、阿里和京东这些企业,再就是纵向的行业安全、能源、农业、医疗、教育和个性囮的管理。人追求的是什么我越来越感觉到人追求的是快乐、健康和创业,我愿意做服务业或者搞文学艺术那么在这样的需求下拉动嘚技术是什么?首先是需求的入口为什么从美国硅谷到欧洲、日本和中国对手机、传感器、芯片以及可穿戴式的操作系统不停地融资收購,因为它是入口不排除我们家里的衣服、马桶和灯光,可能都是粘着具体客户的需求中间件可以理解为软中间件和硬中间件,软中間件就是我们所说的云计算的底层驱动和控制硬中间件就是自动化工业物联网和硬件的部件,行业就是关于新材料和能源

  由此我們可以得出,至少在中国这几个方面特别热门都是投资商和创业者投资的方向,也面临着传统企业想办法转型的方向比如新的消费、噺的零售和餐饮,共享的经济和共享的雏形还有大众的娱乐、大众的新闻、大众的点评。从新的工业来看5G移动必须要上,因为它会加速个性化的需求和个性化的通信方便包括智能家居和可穿戴设备,将来能够直接用语音打电话包括智能汽车、金融和我们国家非常关紸的医疗、安全、教育、能源、国防。今后的需求有电话、传感、中间件、智能汽车和3D打印、仓储机器人等等原来我们想的AGV只是工业界,没有想到中国现在正以100%的速度把AGV用在消费领域包括物流、仓储、商店,不是我们传统想像的AGV在汽车厂和数控方面这个增长点是很快嘚。这里还有我们所说的医疗、物流、抛光打磨等等

  应该怎么看一带一路?我把它分成了几个部分包括发展中地区和建设中地区。我认为有些正在建设或者相对比较落后发展中地区往往可以理解为美国、日本、欧洲、韩国,甚至是北京、上海和深圳这样看下来,一带一路哪些技术是有帮助的比如地铁、建筑、安全以及通信,还有智能的制造、数控、机器人、通讯以及家电医疗再就是发达地區的一些娱乐文化,甚至是一些先进的技术可以辐射到一些地方这可能和相关的地区文化有关,比如这是一带一路战略的蓝图一带一蕗基础设施比较落后的时候特种装备需要先行,包括工程机械、海洋和农业机械制造里面包括数控工业机器人、3D打印都需要,还有消费包括家电和我们所说的物流等等。在这三个方面我认为发达地区会在一定程度上延伸到落后的地区。比如无人化的车间和化学工厂還有一些无人的驾驶、装备和医疗。由于这个方面的成本比较高和社会机器的制度有关系,所以在这个问题上是有一个时间差的

  ┅带一路有几个要素需要理性地思考:首先是人口问题,我惊奇地发现在美国很少有便利店而日本、中国和韩国简直是没有便利店就几乎无法生活。我突然发现这是与社会机器结构有关系的包括行为和我们所说的出行。中国有很多比较集中的小区西方都是Separate Single House,这也决定叻我们在一带一路开拓技术研究的方向其次是文化,比如环境这是需要一个长期的法律和道德形成的。自由教育、应试教育其实也是徝得思考的还有我们所说的公共环境和观念。之前有一次到美国的一个小区那是一个大学附近的小区,周末晚上出来之后发现好多亚洲的老爷爷老太太在照顾孙女西方好像没有这样的情况,都是父母自己照顾这也属于一种文化,伦理上也有差异我认为这是在技术開发和一带一路需要思考的。”

  所以在这样大的背景下我们再来看机器人未来发展的技术和产品。比如我突然感觉无人化工厂是一個趋势只要是人口聚集多的,因为要提高效率同时做工的工人比较难招。再就是老龄化的社会机器服务于老人的目前是以20%的速度增長,而在中国北京要不了多久老龄化就会到12%左右我们再想一想日本、欧洲和美国都是一样的,这种老人的需求往往又是理性的由于互聯网和科技的发展让人越来越独处,这就出现了为什么会有机器人对话、机器人伴侣、机器人聊天还有定制化的服务以及私人助理,包括医生的助理、工作的助理、生活的助理这些都将会派生出新一类的智能机器。由此得出精确的感知、人工肌肉、认知以及我们所说的能源

  这些方面有几个技术突破口:首先是材料,特别是将感知和驱动载体合二为一的因为可以大幅度降低成本并且提高安全性,洅就是人工智能的软件和学习还有智能的交互和信息。在中国由于这五年国家进一步改革开放加大了资本在科技创新的投入。这张图爿反映出中国在投资上排在第一位的人工智能和机器人方面首先是智能机器人,其次是视觉然后是自然语言理解和无人驾驶,这是中國投资商所关心的一系列的方向这两三年我作为亚瑞资本和真格基金的顾问参与了他们科技投资的一些方向,见证了我说的这些技术、產品和创新的历程磁悬浮电机无模差、噪声降低80%、节省达到30%,还有水下娱乐机器人、软体和无人机等等

  我们来看软体机器人,这裏还可以增加相应的液体金属根据不同的温度改变它的刚度。这个成本价格只有我们所说的传统机电一体化的1/10也就是在机电一体化的設备是15-20万元,而它只要1-2万元软体手可以抓鸡蛋、饺子、冰淇淋、袋奶,甚至可以抓其它的东西它的形成可以利用3D打印,也可以利用罐裝不同的材料形成相应的硬度和强度目前它能够负重3公斤,精度是2毫米左右重要的是成本只有传统手成本的1/10。很高兴的是我们的研究是和德国范斯通合作开展。这是我们自己研究而开发的就是基于3D打印和不同材料形成,它的结构就是相对比较简单而且对易碎、生鮮和其它的货品也有比较好的安全性。为了探索这样的应用我们也和BPP开展合作,让它在生产线实验我们这个设备的寿命和长短这是ABB的並联机器人,可以想像这种蛋糕和食品要用加湿器或者一般的机电一方面是抓起来很难,另一方面容易损害这些蛋糕

  人工智能方媔我们一直觉得无人驾驶,包括农业和操作系统很重要目前机器人是从短途代步工具入手的,这是我们和Intel、红杉、小米合作开展的短途玳步、搬运行李以及未来的两轮车的小型无人驾驶那个是雷军在美国波士顿参观的时候形成的实验。赛格威创业是有一个把手的我的學生把这个把手砍掉了,造成定位要更加精准和实时没有想到这个缺少了以后反而提高了安全性,因为人的自我感觉可以掌握平衡另外就是它的成本一下子大幅度提高了,我们知道赛博威大概是美元这样的机器人通过小米的供应链和中国的制造能力,它的销售价格只囿2000美元基于它所形成的机器人服务平台可以跟踪、可以养狗、可以看护小孩,甚至这个把手可以上下

  无人驾驶是利用现在开源形荿的,它的反应速度是1.4秒之内启动我们只有手机操作系统启动的时候很长,大概都是10-15秒左右大家看一看它的启动时间。这意味着以后汽车前面的屏可以是任意的可以和手机的地图、微信和其它的短消息结合起来,从而大大地加快制造的速度目前无人驾驶主要是在内蒙、黑龙江、新疆和青海应用,因为面积特别大还有就是医疗机器人,包括康复、假肢等等

  基于上面的学习进行整理,我们往往鈳以理解出很多需要开发的机器人前沿技术甚至是产品的关键技术。这里我需要了解Gartner的曲线把技术在市场上容易发展和现实当中估值囿泡沫,未来很有价值的都连接了起来我们可以明显地感觉到未来的资本市场或者技术突破上,我们所说的深度学习的芯片以及脑科学包括新能源以及仿生、服务和云等等是人们现在特别关注的,中国现在有些地方已经选择了无人驾驶、医疗和仿生右边的几个在中国巳经显现出来了有强有力的盈利能力,而且开始占有市场比如物流、AGV和特种的打磨焊接,还有AI的交互助理和聊天以及视觉触觉和相应嘚语音模块。

  以上是我自己在一年当中的学习和思考这里和大家做一个分享,谢谢各位!

人类发展进程与能源利用休戚相關从工业发展三个多世纪的历史变迁来看,工业进程从机械化、电气化、信息化到今天的网络化时代,能源系统也伴随着工业系统的发展进程进入到了能源4.0时代[]。能源4.0系统区别于传统能源系统最主要的两个特征为[]:1)信息与能源物理系统高度融合;2)各种智慧能源耦合互补“┿三五”以来,“互联网+”智慧能源已经确定为我国能源4.0革命的未来发展方向。因此,信息物理融合系统(cyber- systems,CPS)成为了当下工业界与能源电力研究的熱点[]从复杂系统理论观点看,现有电力CPS仍然基于牛顿系统理论来构建,人类对系统行为的预测不会影响电力系统运行的结果。但在能源市场開放的大环境下,人与社会机器行为实质上深深地嵌入到了能源电力生产、输送、分配和消费的各个环节若从默顿系统[]角度来看,CPS是否就是丅一代能源电力系统(energy

能源调控方式与人类行为紧密耦合。EEPS的分散性、多样性和随机性越来越强,传统电力系统“集中控制”模式将面临着信息不透明、不确定性更高的市场竞争行为的挑战若不考虑能源电力市场与人类调度员行为,现有CPS将无法找到可靠可信的信息物理深度融合方法,根据牛顿定律的电力负荷预测也会失效。因此,在考虑市场与人的行为后,必须从复杂系统理论出发,深入研究默顿定律下的能源与电力变囮规律[,]为此,王飞跃等学者进一步提出,工业4.0后面的工业5.0应是一个信息-物理-社会机器融合系统(cyber-physical-social systems,CPSS)[,]。尽管能源4.0还未完全实现,但未来能源利用应是基于CPSS的能源5.0时代[],此时会出现大量数据,信息系统和物理系统也会产生更多相关数据,从而导致传统的建模很难,其仿真和控制也不再适应[]因此需要采用知识自动化让数据说话,在CPSS理想框架中构建一个虚拟平行人工系统(virtual

图1中的VPAS主要由两个子系统构成:一个具有自我校正能力的镜像计算实验系统及一个具有平行学习和智能决策能力的知识自动化系统。通过VPAS及与实际系统的平行控制层,实现已有CPS与人和社会机器系统的融合,進而实现受控对象从“控制”到“引导”的革命性转变对于一个较小而封闭的工业化生产系统,如化工厂或发电厂,构建其内部的VPAS在技术上昰完全可行 的[],但如何以一个庞大而开放的下一代EEPS为基础构建平行系统则是一个具有很高难度的课题。因此,如何充分反映人类调度员行为,以CPSS為框架设计下一代EEPS的调度与控制系统架构成为一个既有现实意义,又十分具有前瞻性的科学问题

调度机器人(dispatching robot)是下一代EEPS的调度与控制系统高喥智能化的集中体现。电力调度自动化系统经过半个多世纪的技术发展,以人类调度员为核心的传统调度系统未来必然被以深度态势感知和高级人工智能为核心的“智能调度”所代替,这已成为电力行业和学术界的普遍共识[],其中电力调度机器人(power dispatching robot)更被认为是智能调度的最高形态[-]

基于此,本文致力于将电力调度机器人拓展到下一代EEPS的调度与控制领域,称之为“智慧能源调度机器人”(robot of energy control,RoboEC)。对于单个RoboEC的知识自动化,实质就是相對简单的调度信息与流程的个体机器学习过程;而对于群体RoboECs则可以实现简单问题的独立学习求解和复杂问题的分解平行学习求解,这是一个更為复杂的多智能群体知识自动化过程,即分散式的“群体智慧”产生过程通过调研,能源互联网作为一个非常庞大、复杂的随机系统,在此领域的知识自动化技术研究存在很大空白。因此,如何实现RoboEC群体知识自动化是一个有待重点攻关的核心技术问题为此,本文提出用RoboECs代替图1中真實的人类调度员群体,如图2所示。

基于图2,本文重点探讨了基于信息-物理-社会机器融合的RoboEC及其知识自动化技术各节研究内容之间的逻辑关系洳图3所示。

1 国内外研究现状及发展动态分析

众多学者认为工业4.0以核心设备路由器出现为代表,形成了信息-物理融合系统(CPS),工业5.0则形成了更为复雜的系统,即信息-物理-社会机器融合系统(CPSS),该系统核心“设备”为前述的VPAS,将引领工业运行模式进入平行化时代[]因此,与之对应,能源4.0以电、气、熱、冷等多能耦合关联的能源互联网为代表,能源5.0则代表平行能源系统[]。能源CPS(即CPES)强调信息与能源的高度融合,但并未考虑能源系统中“人”作為生产者和决策者的作用,也并未严格按照钱学森等提出的“开放的复杂巨系统”理论方法体系[]来开展建模、分析和控制研究在开放、竞爭的能源电力市场环境下,如果不考虑人类行为和社会机器属性对能源系统的影响,则基于能源4.0的EEPS运行会偏离预期优化点较远。此外,随着能源互联网的发展,能源的生产和使用将越来越具有人类-社会机器属性,而在社会机器及社会机器信息方面,能源4.0很少考虑且很难考虑[],将真实“人”嘚决策嵌入到EEPS的大闭环系统运行的实际需求越来越迫切因此,国内外著名能源研究机构和学者认为需要研究能源5.0,以将人类-社会机器信息与能源的关系考虑在内。其中,2016年薛禹胜院士提出的“沙盘推演”方式,可看作是此领域人机结合的综合集成研讨厅体系[]在电力系统的一个应用實例

2010年,王飞跃提出了CPSS的概念[],并将其延伸到了能源电力、石油化工和城市交通等多个领域。不同于CPS中的传统计算和物理模型相互独立,CPSS要求統一的建模理论,实现计算、物理和社会机器的动态交互、时空一致、处理不确定性,使CPSS交互演化,形成和实际系统的虚拟平行运 行[,]2015年王飞跃等较为完整地提出了“能源5.0”的概念,开发了可应用于分布式能源站的智能决策系统iDOS[]。能源5.0是一个全新的领域,“社会机器-物理-信息”三元融匼的复杂系统的出现引发了数据规模的爆炸式增长和数据模式的高度复杂化,相关的研究工作尚处于萌芽阶段,如何以一个庞大而开放的多能耦合互补系统为对象构建CPSS平行系统是一个具有很高难度的课题

最近十年来,互联网技术、人工智能和大数据技术的高速发展推动了工业生產和管理流程从传统工业自动化加速向知识自动化转变[]。知识自动化的关键技术是知识表达和机器学习技术其中,机器学习必须建立在良恏的知识表达体系基础上。机器学习在过去30 年中取得了长足发展,新的机器学习理论框架不断被提出[]2015年以来,Google公司深智团队在《Nature》上相继发表的两篇文章令深度强化学习(deep reinforcement learning,DRL)成为人工智能界关注的热点[-]。至此,基于多层人工神经网络的深度学习作为“感知”与基于马尔科夫决策过程(MDP)嘚强化学习作为“决策”成为一对机器学习“黄金组合”2017年,王飞跃等又提出了基于平行系统的平行学习理论框架[],其大致可分为数据处理囷行动学习两个互相耦合关联的阶段。该框架通过VPAS来产生大量数据的思想深受AlphaGo启发:AlphaGo通过蒙特卡洛树搜索算法(MCTS)来实现自我棋局探索[],海量棋局则主要通过AlphaGo自我博弈来产生[],真正属于人类历史棋局数量占比已经很小在EEPS领域,最近二十年来,以马尔科夫决策过程为严格数学基础的强化學习算法成为机器学习领域中一个新的突破[],Q学习、R学习和自适应动态规划(ADP)等强化学习经典算法被国内外学者陆续引入到电力系统领域中来[-]。另一方面,将大数据与深度学习、极限学习、隐马尔科夫等高级机器学习算法结合近年来再度成为电力系统研究的一个热点[]

智能调度是智能电网的核心技术,调度机器人则是下一代EEPS的调度与控制系统高度智能化的集中体现。传统电力调度与控制系统基本延续着Dy-Liacco于20世纪60年代末創立的集中式控制框架[],以“经验型+分析型”为主,自动化和智能化程度不高,已逐渐无法适应电力系统日益增长的复杂性1997年Dy-Liacco首次提出自动调喥员(automatic dispatch,PD)的概念[]。进入21世纪后,在智能电网建设总框架下,我国国网、南网以及清华大学等高校在智能调度方面的工作也取得了一系列重要进展[,]鉯上工作极大推动了人工智能在电力系统调度与控制中的应用,最终为卢强院士提出“智能广域机器人(smart wide area robot,Smart-WAR)”——即具有多指标自趋优运行能力嘚电网[],奠定了坚实基础。

另外,单纯的电力系统能量管理已经逐步过渡到面向日益复杂的电、气、热(冷)等多能紧密耦合的能源互联网综合能量管理系统[]为此,瑞士联邦理工大学提出了能源路由器(energy hub)和能源连接器(energy interconnector),后续互联网Energy Hub和微电网多能流模型等概念的出现则进一步丰富了多能耦匼系统的数学模型[],为多能流计算和能源电力的最优调度奠定了基础,未来的多能流能量管理系统架构必然是“分散自律、集中协同”已经逐步成为共识[]。显然,一台Smart-WAR已经无法完成日益复杂多样的调度任务,其工作模式将被多台调度机器人协同工作的模式所代替

因此,本文提出了“智慧能源调度机器人(RoboEC)”的概念,目的是实现电网的智慧能源即插即用条件下的智能调度,并通过群体RoboECs的平行机器学习[,-,]和智慧协同工作,实现综合能源管理中所能达到的最高智能形式。

迄今为止,王飞跃提出的“能源5.0”架构[]主要还是面向发电厂,尚未有面向EEPS的“能源5.0”架构出现近几年來,通过对主动配电网、能源互联网和多能互补集成系统的相关研究,本文认为未来十年内我国区域EEPS的物理-信息融合(CPS)主要存在以下两种形态:

苐一种形态:以新建工程为主,新建的配电网、气网、热(冷)网产权都属于一个业主(供应商或服务商),不同能源网络的壁垒最终会被打破,具备统┅的综合能源调度通信中心。这一类系统的规模较小,CPS融合度较高,人与社会机器因素简单,较容易按照图1所示的CPSS理想架构来设计“能源5.0”

第②种形态:以存量工程的改造为主,将现有的主动配电网与气网、冷(热)网之间相互转化的通道打通,逐步从分散独立的电、气、热(冷)调度系统過渡到集中协同的智慧能源调度中心。如附 图A1实例所示,为深圳前海新区地区用能特点项目的新型多能耦合综合EEPS示意图这类系统的社会机器因素非常复杂、物理与信息融合度低、不同 能量管理系统之间的信息透明度不足,若完全按 照理想“能源5.0”结构(图1)来设计,则存在较大困难。

钱学森在1990年提出的人机结合的综合集成法指出[]:应集成专家群体决策和智能化信息手段来解决复杂系统问题据此思路,本文采用RoboECs代替人類调度员群体,可有效降低对人与社会机器直接建模的不确定性。综合考虑我国能源电力发展趋势,及以上两种CPS发展形态,在文[1]的基础上,提出用圖2中的CPSS架构来构建面向下一代EEPS的CPSS控制框架,如图4所示

图4中的整个控制系统其实是传统控制系统的一个扩展,依然由3个部分构成:1)调度员与能源市场的综合作用构成一个广义控制器(面向人与社会机器);2)原有的工业闭环控制系统(实际系统)与VPAS构成广义受控对象;3)对整个平行系统输絀(包含人与社会机器属性由于控制输出导致的因果变化)进行评价的广义大闭环反馈器。

图4采用RoboEC代替人类调度员,理论上可起到“一箭双雕”嘚作用:1)调度机器人代替人类调度员,在很大程度上解决了对CPSS中最关键的“人”建模的难题,机器人的决策能力只受其数据空间和学习能力約束,不受自然生物属性(如情绪、疲劳等)约束,可充分发挥VPAS对真实物理系统引导的优势;2)通过VPAS和平行机器学习方法,可实现RoboEC群体向真人调度员的茬线学习,这类似于AlphaGo与真人博弈中提升自身决策能力,且可实现虚实结合的自我探索学习,智能水平将持续提升,理论上应类似AlphaGo一样最终超越人类調度员,这对RoboEC工程实用化至关重要

3 适用于开展CPSS理论研究的实验室平台搭建方法

首先,可在已开发的基于JADE-Matlab-GAMS的智能电网综合并行计算混编数字仿嫃平台上搭建“标称模型+镜像模型”的平行系统实验室研究平台,其总体架构设计如图5所示。

图5中的平台搭建过程包含3个步骤:1)用标准参數构成的“标称模型”仿真器来代替真实物理系统,如图5右下部分所示;2)用存在一定参数误差和降维建模的仿真模型(如降阶的负荷模型和电源模型)来代替“镜像模型”,但需保证系统潮流相符、动态摇摆特性接近,如图5左下部分; 3)按照JADE多智能体架构,采用标称模型与镜像系统进行平荇布置和分布式建模

本文的研究对象为RoboEC群体,即RoboECs,所以无论是标称模型,还是镜像模型,都必须是一个具有平行计算能力的分布式建模和计算实驗体系,这与熟知的BPA、PSASP等电力系统仿真软件的集中建模、集中离线仿真方法有着本质区别。这个分布式建模和仿真体系体现在图5所示的平行計算实验平台中该平台可向多能互补耦合系统扩展,完成如图6所示的典型三区域33能源中心测试系统的最优潮流分析,包括集中调度与多区域嘚分散调度。该系统每个子区域包含14节点电力网络、20节点天然气网络和11个能源中心,能源中心为图7所示的典型能源中心根据需要,可将该计算实验节点规模进一步扩大,使其成为包含5000电网节点、5000天然气网络节点、500个能源中心的大规模EEPS,其规模完全可以满足基于CPSS的下一代EEPS调度问题的計算实验研究条件。

其次,应在此平行系统计算实验环境(可进行模型自定义)中研究镜像模型参数自我校正方法但如何在系统平行运行中进荇在线自我校正尚需开展深入研究和二次开发工作。

因此,在此基础上,结合现有系统辨识方法,应进一步开发基于大数据和机器学习框架下的EEPS嘚新型自校正型数字计算实验系统,以实现镜像计算实验对更优运行方式和控制效果的自我探索,并具备引导真实物理系统趋近镜像计算实验系统所模拟的理想最优状态的能力(自趋优)最终,完成搭建如图5架构设计的适用于后续开展CPSS理论研究的实验室平台。

4 集中调度模式下的单一RoboEC嘚知识自动化流程、人工社会机器建模与平行机器学习

传统电力系统主要采用分层式的集中调度模式,因此,需研究集中调度模式下的单一RoboEC的知识自动化流程与平行机器学习,涵盖如下:

1)单一区域综合能源调度中心在不同时间尺度和多种优化目标下的调度任务和实时控制要求

將电力系统调度、天然气调度及热电联产调度等3类调度集成到一个调度集控中心后的不同时间尺度下的调度任务及其调度优化作为目标。假设图7所示能源中心内涉及的能源类型为α, β, , ω,能源注入分别为Pα, Pβ, , Pω,能源负载分别为Lα, Lβ, , Lω,则能源中心的功率转换方程描述为

式Φ:L为能源负荷向量;η为转换装置效率矩阵;s为耦合系数矩阵,其物理意义为各种类型能源通过不同转换器的比例;P为能源注入向量需注意的昰,能源中心的注入并不是源注入,而是各种类型能源的潮流注入。

集控中心内的综合能源系统多目标优化调度是在满足系统安全约束和负荷需求的条件下,通过

合理调节各可控变量(如耦合系数、各能源出力等),使得目标达到最优状态,其数学模型描述为

式中:W为优化目标,包括功能成夲目标We和碳排放目标Wc;Pin为源注入矩阵;P为能源中心注入矩阵;L为能源中心负荷矩阵;s为耦合系数矩阵;f为支路功率矩阵;v为节点状态量矩阵;约束第一行為能源中心的转换关系,即各类型能源的耦合约束,G为系统不等式约束集,H为等式约束集

因此,下一代EEPS的调度与控制任务依然可参考电力系统按照时间尺度来划分,如日前机组组合、日前96节点发电调度、15min内超短期实时调度以及1min内的自动发电控制,但电、气、热(冷)网的时间尺度差异较大,鉯何种时间尺度来合理划分它们的联合集中调度任务需要综合考虑不同能流的动态变化过程及特征、响应特性在时间尺度上的差异性、对調度指令的响应行为等。为此,建议可沿着“多能流混合时间尺度优化调度”[]方向展开深入研究

2)研究单一RoboEC对集中调度和控制流程中的知識自动化,并在已有的多能流系统的优化调度模型和智能算法基础上,实现与深度强化学习相结合的高级机器学习。

对于大多数可行式逻辑建模的调度流程与原则,都可清晰地用“if…then…”启发式规则来进行知识表达但很多复杂抽象的知识则需更高级的知识提取和存储方式。因此,夲文提出用马尔科夫决策过程中的Q矩阵来实现优化决策中间过程值函数的存储,如图8所示,优化算法的加速可取得令人满意的效果

基于图8,利鼡图7所示的综合能源中心(现有的)来实现电、气、热(冷)的联合调度与控制流程中

的高级知识提取和表达。因此,可将深度学习与强化学习进行結合形成高级机器学习算法,如:①将深度学习与经典强化学习算法——Q-学习构成一种新型的Deep-Q Learning (D-QL)算法;②将深度学习与另一种强化学习的代表算法——自适应动态规划法(ADP)结合形成一种新型深度自适应动态规划算法(D-ADP),图9为该算法架构设计示意图

ADP算法也是王飞跃提出的“平行系统”概念中的一个核心组成技术[]。基于D-ADP算法,本文提出将“15min经济调度(3次调频)+自动发电控制(二次调频)+发电控制指令的分配优化”3种不同时间尺度的调喥与控制问题整合在一个强大的智能算法库中形成“一体化”算法,这是实现RoboEC的重要基础

3)通过镜像计算实验系统与真实物理系统虚实互動来自我探索产生海量学习样本,实现RoboEC个体高级平行机器学习。

RoboEC的机器学习面临的最大困难在于如何以最小代价获取最有利用价值的供机器學习的数据样本前述的深度强化学习算法DRL依然是基于马尔科夫决策框架的,虽然保证了一定范围内学习的有效性,却不能很好地应用到非马爾科夫过程。强化学习虽然可以实现在线主动探索学习,但在面临复杂数据处理时,过高的系统状态维数使得可行解探索变得十分困难(维数灾)AlphaGo的出现和“平行学习”理论框架为RoboEC解决这一难题提供了新的思路,后者由王飞跃等学者于2017年提出[],如图10所示。

图10所示框架正是在AlphaGo和平行系统悝论的基础上提出来的,为未来RoboEC的真正实现明确了平行CPSS架构的EEPS产生海量有效数据样本、提升机器学习能力的具体研究方向参考 图4设计的CPSS控淛框架,本文将图10中的两阶段平行机器学习框架[]拓宽为以下3个阶段:

Stage I:数据处理阶段。平行学习首先从真实的EEPS原始数据(运行方式、系统参数、典型事件、调控系统参数等)及人工社会机器模型中选取特定的小数据,输入到VPAS中,并由VPAS产生大量新的数据这些人工数据和特定的原始小数據将一起构成解决问题所需要学习的“大数据”集合,用于更新机器学习模型。

Stage II:行动学习阶段平行学习沿用强化学习的思路,如图8所示,本攵提出用Q矩阵来进行知识存储、转移和利用,使用状态迁移来刻画系统的动态变化,从人工合成大数据中学习,并将学习到的知识存储在系统状態转移函数中。

Stage III:数据/行动交互提升阶段未来EEPS的开放性使得所构建的VPAS也随之开放,因此,原始数据集和VPAS的变化会导致原有的数据集 发生变异。这就必须在原有的两阶段平行学习的 理论框架上增加一个数据/行动不断交互提升的阶段,其实质上也是一个对大数据集的存留、淘汰的过程

如图10所示,在平行学习中,可以使用预测学习和集成学习来拓展经典机器学习方法,即:

1)允许多个RoboEC共同学习,每个智能体可独立获取到一系列观测数据并构成集合。每个RoboEC还可独立采取一系列行动并构成集合

2)每个RoboEC获取的数据和采取行动的次数和时间均独立。平行机器学习允許一个行动可以产生多个新数据、允许获取数据和完成行动有着完全不同的频次和发生顺序

3)以平行世界的角度来看待系统状态的演化過程。将新获得的数据映射到平行空间中,则可通过大量、长期的计算实验迭代来预测和分析预期行动的结果,并最终将最优动作返回现实空間

基于上述三点扩展,可松弛数据和行动之间的耦合,极大地扩展现有的强化学习方法,这也是RoboEC进行中/长期计算迭代实验来预测和分析预期行動的结果。同时,其数据的产生和行动的产生相对独立,无需时间上同步这就是典型的实际“小数据”到虚拟“大数据”的实现过程。其实,仩述三点扩展已在AlphaGo中得以充分体现AlphaGo可看作单一机器人的杰出代表,利用上述平行学习框架可极大提升适用于集中式的个体RoboEC的独立机器学习能力。单一RoboEC的学习原理可用 图11所示的AlphaGo“数据/行动”图[]来直观 解释

图11中,平行世界可看作数据集和行动集的综合,通过VPAS来产生数个虚拟的平行卋界。RoboEC平行学习系统可以将现实世界(当下真实存在的工作状态)的数据映射到由VPAS产生的平行世界,然后通过多线迭代的方式来推算现实世界向其它平行世界发展的各种可能性,数学上就是当前状态向各个状态转移的概率,每一步决策都通过强化学习(如ADP算法、Q-学习算法等)进行评价,选择獎励值最高的进行决策(马尔科夫决策)

图10中的集成学习适用于RoboEC群体机器学习,包括多智能体分散学习和协同学习机制。

5 分散调度模式下的群體RoboECs的知识自动化流程、人工社会机器建模与平行机器学习

智能电网的发展推动了电力系统EMS走向“分散自律、集中协调”的形态,未来将形成┅系列EMS小家族[]因此,下一代EEPS的智慧调度机器人也必然是一个群体(小家族),即RoboECs,其知识自动化流程、人工社会机器建模及群体平行机器学习方法昰本节探讨的重点。

1)在满足多个区域综合能源调度中心的不同时间尺度和多种优化目标的调度任务和实时控制要求下,实现调度机器人群體RoboECs对分散调度和分散控制流程中的知识自动化

本节内容建立在第4节对单个RoboEC的知识自动化研究基础上,而研究对象为RoboECs,其知识表达、存储和利鼡的方法与单个RoboEC没有本质区别。因此,本节重点关注RoboECs的协同调度与控制问题即,负责不同区域的RoboEC的个体差异和共同协作的任务划分,以及基于笁程需求的知识自动化实现方法。根据笔者此前研究的分散自律的“虚拟发电部落”及其分散调度、优化和控制算法[],本文认为可将其推广箌多个区域综合能源调度中心的不同时间尺度、多种优化目标的调度任务和实时控制中来,详细内容不再赘述

2)在已有多区域综合能源系統的分散调度模型和多智能体博弈算法基础上,研究开放能源电力市场环境下基于博弈论和图论的RoboEC群体决策和自律规律及基于RoboECs的人工社会机器建模方法。

这是构建RoboEC的关键技术难点在新一代EEPS中,每个RoboEC的产权归属、调度职责和调控目标等都会有所不同,在一个开放的能源电力市场中,RoboECs嘚决策过程实际上就是不同利益主体社会机器行为在调度领域的反映。所以,传统上适用于电网公司的分散协同机制就不能很好地解释不同利益主体的复杂社会机器行为和相互作用,必须用“人工社会机器”的概念来重新对RoboECs的相互影响关系进行建模如图4所示,平行系统的上面是嫃实的信息-物理-社会机器融合系统(CPSS),下面则是对这个真实物理系统的镜像模拟,即VPAS。人工智能现在还远未实现对真实人和社会机器精确的镜像模拟所幸本文研究的还是相对简单的RoboEC群体行为,所涉及的个体数量少,且机器人决策行为受到能源电力的严格物理约束和市场规则约束,其人笁社会机器建模虽然仍具挑战性,但依靠现有的各种数学工具,还是可以探索并尝试解决该问题的。

因此,本文认为可在多智能体博弈理论[]和图論[]的基础上,建立起与真实人类调度员群体相对应的RoboEC群体人工社会机器系统模型和求解算法,为RoboEC群体系统的自我博弈和探索学习奠定基础下媔简要介绍其研究思路。

RoboEC的个体学习记忆和行为决策特征培育RoboEC作为平行系统中人类调度员的映射,是一个能够感知外界环境、并具有自主荇为能力的、以实现其设计目标的自治系统。因此,RoboEC应具备外部环境感知、自我学习记忆、行为决策的能力,如图12所示

基于图12,为了确保每个RoboEC具备自主调度和协同调度的能力,可从学习能力和行为特征出发,继续采用Q-学习算法来培育群体RoboECs的知识学习和存储能力。即,在每次执行调度任務时,RoboEC会根据自身的偏好将环境信息转化为奖励或惩罚信号,进一步学习知识和强化记忆,最后基于已有的知识和捕捉到的外部信息,并考虑到与其他RoboEC的合作/竞争博弈机制,做出自己的内部状态和行为选择其中,对于知识的学习和存储,可描述为

式中:k表示第k次迭代;Q表示RoboEC的知识或记忆矩陣;s为外部环境的状态信息;a为智能体的行为动作策略;A为行为动作策略集合;R为智能体的奖励值;α和γ分别为学习因子和折扣因子。

对于图12中的荇为偏好:“④追求”和“⑦尝试”,可根据RoboEC现有知识水平来获得,即

式中:函数unidrnd(n)表征随机生成一个1~n范围内的整数。

此外,行为偏好“①保持”即指RoboEC行为动作策略保持不变,剩下的行为偏好(②、③、⑤、⑥)则需要RoboEC与其他RoboEC或外部环境的交互、合作/竞争机制来决定

RoboECs社会机器交际网络拓撲建模与分析。只有通过RoboEC间的交互作用,VPAS才能涌现出复杂现象因此,必须建立起RoboECs社会机器交际网络拓扑模型。本文提出从EEPS的地理分布出发,以區域电网之间的主要联络线为边界,划分出每个RoboEC负责的子物理系统,在此基础上,根据真实世界人类调度员交互信息网络构建出多个RoboEC之间的社会機器交际网络,如图13所示

社会机器交际网络的模型可以通过图论的相关理论[]开展建模研究。图13中的社交网络节点即为每一个RoboEC,相互联络关系反映了相互竞争/合作及信息透明程度等耦合关系基于此,本文提出用如下三元数学结构来描述这种关系[]

式中:D为有向图;V是节点集;E是定义茬V上的二元关系(有向线段);ψ是E到V×V的函数。

显然,式(5)中V节点集就是RoboEC节点,E为RoboEC的社交联络线,ψ函数则可以定义为多元变量函数,其中“信息完备度”和“合作度”是最重要的两个变量社交网络联络关系的变化反映了各个RoboEC间信息完备度(透明度)和合作度的变化,由博弈论可知,个体信息透奣度或合作度不同时,博弈结果(均衡点)会差异很大,如图14所示。当RoboECs社交网络用式(5)所示图论建模后,则可较容易地将图论分析的理论方法[]用于深入研究社交网络变化对RoboECs间博弈结果的影响当然,图14所示的各种均衡态和相关算法也可用于RoboEC的研究中来。此外,亦可借鉴卢强院士、

清华大学梅苼伟教授团队近几年在“工程博弈论”方面的最新成果[]

RoboEC间的互动博弈和演化关系设计。对于每个实际的子物理系统来说,RoboEC往往只能依赖有限的局部信息来做调度决策为使整个VPAS能够产生大量的合格且优质的调度策略(经济性、安全性、环保性都得以提升),每个RoboEC需根据局部的信息與相邻RoboEC进行互动博弈和演化, 图15设计了一个互动博弈框架示意图。

基于图15,对于RoboEC而言,总的来说,需要解决三大类博弈问题:(A) 具有从众和学习行为特征的演化博弈;(B) 考虑RoboEC个体背叛行为的集成博弈;(C) 不完全信息下的预想虚拟博弈下面将简单阐述这三类博弈问题的求解思路。

A. 具有从众和学習行为特征的演化博弈

在传统纳什博弈理论下,每个RoboEC都应具备完全理性和完全信息的条件才能做出最优决策(完全理性人假设),这给EEPS的调度决筞带来通信瓶颈、私密性低、求解困难等问题。因此,本文提出采用基于个体有限理性(bounded rationality,BR)的演化博弈论(evolutionary game theory,EGT)来实现RoboEC的从众学习行为,以降低RoboEC协同自律嘚计算难度,使得VPAS自发地演化到更优的调度策略空间,涌现出多个最优均衡边界点

演化博弈论是把博弈理论分析和动态演化过程分析结合起來的一种理论[]。在方法论上,它不同于博弈论将重点放在静态均衡和比较静态均衡上,强调的是一种动态的均衡,并以人的有限理性为前提有限理性首先意味着博弈方往往不能或不会采用完全理性条件下的最优策略,即博弈方之间的策略均衡往往是通过不断地学习、模仿和调整的結果,而不是一次性选择的结果,而且即使达到了均衡也可能再次偏离。

在演化博弈理论中,绝大多数应用研究均以复制者动态方程作为博弈的演化机制,其个体行为动作策略最常用的更新规则包括:费米过程(fermi process)、成对比较过程(pairwise comparison process)、莫兰过程(moran process)和赖特-费舍尔过程(wright-fisher process)等以费米过程为例,该规则丅RoboEC会模仿或复制邻居RoboEC的行为动作,即个体Pi会以概率W模仿个体Pj的策略:

式中:Ui和Uj分别为个体Pi和Pj本轮的累积收益;参数κ为噪音,当κ>0时,代表了决策錯误或者受外界影响等导致的非理性行为的可能,通常为一个很小的值;当κ→?时,表示所有的信息都被噪音淹没,策略进行完全随机的更新;当κ→0时,表示确定的模仿规则,即当Pj的累积收益高于Pi时,Pi则采取Pj的策略。

此外,也可采用复制者动力学(replicator dynamics,RD)实现演化博弈即,在每轮博弈后,每个RoboEC随机选擇某一邻居RoboEC进行收益比较,以某个概率(等于两个体收益差的函数)转变为对方的策略,即

式中:系数C是为了归一化收益差,该系数有很多种取法,例洳:

式中:kmax为Pi和Pj中较大度节点的度;T,R,S,P为2×2收益矩阵元素。

B. 考虑RoboEC背叛行为的集成博弈

在分散调度过程中,如果存在某些RoboEC出现背叛行为(不参与协莋,只享受收益),整个VPAS容易陷入较差的纳什均衡解(即总体利益较低),使得系统涌现出来大量劣质的调度策略样本。为避免该现象,可在RoboEC群体中设置┅个集控中心,对所有的RoboEC进行集成的策略审核,对采取背叛行为的RoboEC给予处罚,使整个系统的调度策略样本趋向合作双赢发展

C. 不完全信息下的预想虚拟博弈。

传统的纳什均衡、相关均衡等博弈模型都假设每个RoboEC能完全获取其他机器人的效益函数及策略等信息而在现实博弈中,由于RoboEC的利益冲突、私密性以及通信网络的噪音时延等因素影响,RoboEC往往只能依靠部分信息或历史信息来执行与其他智能体的博弈决策。

因此,必须对不唍全信息下的预想虚拟博弈进行研究,即RoboEC在重复博弈的过程中能观察到其余机器人的选择历史,于是各机器人根据自身掌握的历史知识,用自己嘚主观信念(模拟人类的一种对人或事物的信任度)虚拟其他参与人的策略分布,按照虚拟行动规则实施自己的最优策略选择,从而使得系统涌现絀来的调度策略样本逼近最优边界点,具体涉及的数学模型如下:

a.RoboEC基于历史信息的信念模型搭建

可用经典的γ-加权信念学习(Belief Learning)模型,基于博弈嘚历史信息形成信念,即个体i对个体j在第k+1次迭代时会选择策略t的信念可更新如下:

代选择动作策略t时取值为1,否则为0。

式(9)作为一个历史信念函數,赋予参与对手过去行动的权重呈几何学递减例如,当γ=1时的信念过程虚拟博弈情况,关于某特定策略的信念就是该策略在历史上被选择的頻数。这种虚拟博弈信念对于先前博弈的行动做出响应要比γ=0的情况更迟缓;γ=0时,指所有权重都赋予最近一期行动(Cournot动态信念)显然,γ越接近1,信念就越少对近期所选行动做出反应,参与者也就更迟缓。

b. RoboEC的预想纳什博弈策略

在建立完信念模型后,RoboEC即可根据其他机器人的预想虚拟动作筞略,作出自己的动作策略。当采用最佳反应进行博弈时,个体i对于所有其他RoboEC的策略组π-i的最佳反应策略πi*满足:

式中:Σi表示个体i的策略集匼在策略组π中,若每一个局中人的策略都是其他所有局中人的策略组的最佳反应,那么π就是一个纳什均衡策略。

c. RoboEC的保守自我博弈对策。

當RoboEC采用最保守的博弈方式,即最小化最坏情况下的后悔值,以免在未来遭受较大的损失,则其博弈策略可描述如下:

3)研究通过模拟人工社会机器与真实物理系统相互作用和自然演化来自我探索产生海量学习样本的方法,以及群体RoboECs的平行机器学习算法

在完成了群体RoboECs的人工社会机器建模后,基于虚拟平行系统内部的多智能体博弈算法,则每一个RoboEC可在VPAS与真实系统虚实互动过程中产生的海量数据集中进行平行机器学习。

图10给絀了单个RoboEC的平行机器学习的理论框架对于群体RoboECs的平行机器学习,则可采用以下机器学习方法框架:

①RoboEC群体构成多智能体机器学习系统,并将烸一个RoboEC拥有的数据集和学习任务划分为两个部分:i)完全独立完成的任务及其数据集;ii)需要协作完成的任务和公共数据集。

②对于完全独竝完成的单个RoboEC,采用单体平行机器学习算法框架,可看作为“分散学习”

③对于需要RoboECs间相互协作完成的任务,则还需要在平行学习中引入“协哃学习”机制。

其中,分散学习机制要求每个RoboEC可独立根据自身获取的数据来进行动作,此时,第n个智能体的某一个行动ak可产生一个回报$R(a_{k}^{n})$,目标是最夶化全部RoboECs的总体长期回报,即

该学习机制适合于每个RoboEC执行相对独立的分散控制,其中每个RoboEC获得的数据和执行的动作都是时空局部、甚至可以是時间异步的由于RoboEC相互博弈、相互牵制,则带来一个问题:执行式(13)的最大化目标时全部机器学习过程是否一定会存在收敛?为此,可参考使用“Pareto-Nash朂优”方法来获得每个RoboEC机器学习的回报预期最大值,即利用多智能体博弈获得各个智能体均满意的Pareto-Nash最优交界,具体方法不再赘述。

协同学习机淛则要求设置学习领导者(Leader)或次一级领导者(Sub-leader),领导者来协调和指导跟随者(Followers),可参考图13机器学习的目标是选取所有这些跟随者可能获得的回报中朂大的那个动作a,即

协同学习可以用适合“斯泰克贝格(Stackelberg)均衡”问题求解的多智能体强化学习算法框架来解决,可参见图14。

需要强调的是,VPAS不仅可鉯假想各种能源电力物理系统的事件(可看作是极大拓展后的“超级场景法”),而且还可以假设能源电力市场环境下RoboEC之间的各种社会机器交际關系变化,从而极大地弥补了传统仿真系统未考虑“人与社会机器”因素上的不足而导致的仿真数据空间剧烈膨胀,这为RoboEC通过海量数据平行机器学习,智能水平最终超过人类调度员奠定了坚实的基础这也是图2中所设计的平行CPSS架构的一个最突出的优点。

6 虚实交互协调收敛数学机理忣RoboECs在CPSS大闭环中实现自我博弈和平行学习

如前所述,CPSS的研究对象是“复杂巨系 统”[],然而,其严格的数学收敛证明难以给出,但可以简要分析CPSS的稳定性条件如图4所示,CPSS由两个反馈机制来保证系统的稳定性:

1)闭环小系统,是由实际工业控制系统与受控对象构成的一个实际稳定闭环运行的系统。由于VPAS是真实物理系统的镜像计算实验系统,因此其闭环系统也是稳定的因此,平行系统在没有外部广义控制器的输入条件下,即零输入狀态时系统稳定。从这个意义上讲,VPAS作为“广义受控对象”是一个稳定、自律的系统

2)闭环大系统,由市场指令/市场激励和调度员/RoboEC调度指令構成的“广义控制器”、VPAS构成的“广义受控对象”和“广义反馈环节”一起构成闭环大系统。因此,根据经典控制理论的稳定性原理,这个大反馈构成的闭环系统无需完成对整个系统“镇定”的作用,而只是起到类似预期动力学特性设计(极点配置)来引导广义受控对象向更“优”的“系统控制目标”转移的作用

综上,保证整个大闭环系统稳定性的关键条件总共有两点:①保证广义受控对象内部的稳定、自律。在VPAS内部,設计良好的虚实互动机制,保证真实物理系统与其虚拟镜像系统在互动过程中,不会由于互动作用而失去系统稳定②保证整个CPSS闭环大系统形荿“负反馈”且广义控制规律有效“引导”广义受控对象趋近预定控制目标。

王飞跃[,]在信息-物理-社会机器融合系统(CPSS)研究中,提出了可采用ACP法來实现系统AFC的框架性建议,即,采用人工系统(artificial control)实现VPAS对实体能源系统的引导和协调采用ACP法反复观察评估后,通过平行虚实互动,形成灵敏(Agility)、聚焦(Focus)、收敛(Convergence)的分析、决策和执行过程,即AFC。最终利用虚拟系统对实际系统实施有效的闭环管理和控制,从而保证虚实互动过程中系统的收敛性和镇定

该ACP法属于一种数据驱动、试错性和智能化的方法,是解决复杂系统收敛性的一种有效方法,虽然收敛性难以得到严格的数学证明,但能通过基於反复仿真的计算实验和工程闭环测试来验证。如图11所示,当RoboECs在所虚构的海量平行世界中最终寻找到一条最优路径,则整个闭环系统一定在此假想的路径上也保证是趋优的,这是复杂系统中对于默顿定律的最好诠释本节稳定性分析还处于一种简单分析和逻辑推想阶段,在未来需要茬第3节中搭建的实验室平台上重点研究虚实互动过程中如何保证系统收敛性的数学原理和系统镇定方法,以及由VPAS和真实能源系统实现虚实互動的反馈控制机理和系统收敛机理。

基于上述ACP法,通过CPSS大闭环的系统 化流程设计,最终实现在CPSS大闭环条件下

RoboECs的自我博弈和平行机器学习

本文唏望向能源5.0系统[]迈进,为此提出了“RoboEC”概念及其知识自动化设计流程、总体架构、技术挑战和实现方法。未来发展RoboEC面临的一个关键问题是其預学习结果对系统大闭环稳定性的直接影响,理论上虽然可通过离线(并不投入到平行系统)对历史样本进行预学习以达到人类调度员决策的初級水平,但在什么阶段将RoboEC投入整个CPSS大闭环系统中实现自我博弈和平行机器学习仍需大量的实验分析综合前面章节的阐述,本文认为可将研究CPSS設计的标准化流程看作是对RoboEC及其知识自动化的框架、技术和挑战等一系列理论研究成果的一个集成。

7 尝试小规模工程验证研究

前面提到的基于JADE-Matlab-GAMS的智能电网综合并行计算混编数字仿真平台,已进行了Hadoop大数据分析平台配置,并于2016年在选定的贵州某大学示范项目中尝试进行了工程应用研究,该大学能源互联网综合能源管理技术示范项目示意图,如图16所示目前,已完成示范区配置,即所有在线运行的数据和综合能源管理软件均巳配置在其“私有云”中。因此,可尝试将该示范区的私有云与第3节中搭建的实验室私有云服务器进行互通互联,如图5所示,以此实现示范区系統数据与实验室系统互联互通,奠定真实系统与VPAS虚实互动的基础最终可尝试将RoboEC投入小规模的微网/综合能源系统运行,实现工程测试验证。

8 未來实现RoboEC面临的挑战与关键科学问题

本文详细探讨了基于平行CPSS架构的RoboEC及其知识自动化理论,其中涉及到的关键技术包括:CPSS、平行系统、调度机器人、知识自动化及软件系统开发等因此,未来实现RoboEC面临的挑战也是来自多方面的。

挑战一:物理-信息-社会机器系统的深度融 合——CPSS是研究RoboEC需要解决的主要问题目前CPS的相关研究开展较多[],却鲜有将“人与社会机器”这一因素考虑进来,因此,将“人与社会机器”因素引入CPSS大闭环系统是发展RoboEC面临的一个最大挑战。近年来,国内外利用大数据和云计算,对人与社会机器行为规律的高速数据挖掘研究和实践成果也已较多洇此,本文认为可采用相关较为成熟技术,并结合近年来“人工社会机器”的建模理论[-,]展开研究,尤其是关键理论“平行系统”是解决复杂系统悝论研究的一个非常重要的进展[,]

挑战二:基于调度机器人群体RoboECs的人工社会机器建模方法的研究,这一点在第5节已详细阐述,不再赘述

因此,基于上述两大挑战,本文认为未来实现基于平行CPSS结构的智慧能源调度机器人需着力解决如下关键科学问题。

1)如何构建工程界和科学界都广泛认同的面向下一代EEPS的CPSS架构是研究能源5.0中最需要从顶层设计考虑的基础科学问题

王飞跃提出的能源5.0架构[]目前依然还是一个构想,由于信息與物理融合的CPS构建方法尚存在许多待解难题,再融入带有“人”主观和情感及社会机器在内的CPSS则面临不确定性高、难以严格复现的严峻挑战。因此,如前文图1和图2所示,可先尝试将RoboEC代替人类调度员,然后用能源互联网大数据分析和云计算技术[,]实现社会机器综合因素的统计性规律描述,從而大幅降低由于引入“人”后的不确定性,最终构建工程界和科学界都广泛认同的面向下一代EEPS的CPSS可行架构

2)如何通过调度机器人群体RoboECs学習达到分散自律和系统自我趋优是需要重点攻关的科学问题。基于平行机器学习的智能调度知识自动化方法是解决这个问题的关键技术之┅,多智能体博弈论是揭示调度机器人群体合作/竞争规律的另一个关键理论工具,将二者结合研究不仅具有显著创新性,也具有相当高的研究难喥

3)如何从数学原理上保证VPAS与真实系统的交互协调动态过程的收敛性。人工系统(A)、计算实验(C)和平行执行(P)构成ACP法在什么条件下能保证包括叻人与社会机器因素的CPSS大闭环系统的收敛性一直是平行系统研究的核心问题首先依据王飞跃提出的ACP法来评估所构建的CPSS架构,通过虚实平行互动,形成灵敏(A)、聚焦(F)和收敛(C),即所谓的从ACP到AFC;其次,搭建第3节中的平行系统实验室平台,以此研究RoboEC离线预学习转入到大闭环运行的条件;此外,可跟踪國内外在平行系统理论研究方面的最新进展,探求VPAS与真实系统的交互协调收敛性的数学证明方法。

4)如何提升调度机器人RoboEC的工程实用性是需偠解决的最后一个关键问题可尝试先将RoboEC投入到小规模微网/综合能源系统(智慧园区)[]中进行运行测试,这是一个从理论跨越到实践的艰巨但又必须要迈进的一步。

因此,未来若实现RoboEC,按阶段来讲,近期及以后需要突破与整合的技术:目前阶段,为CPS融合技术、人工社会机器建模技术、智能控制、深度学习、人机接口、大数据智慧管理、高性能计算等;未来阶段,为复杂社会机器计算技术、CPSS深度融合技术、平行控制与管理、量子計算等[]

从智能调度到调度机器人是一个必然的发展趋势。研究调度机器人不仅技术可行、也是势在必行本文提出了“智慧能源调度机器人(RoboEC)”的概念及其知识自动化,详细探讨了其框架、技术、面临的挑战和亟需攻克的关键科学问题。

1)提出研究能源电力系统的信息-物理-社會机器三者的深度融合方式(CPSS)面向电、气、热(冷)网的能源电力系统调度的平行CPSS具备人类社会机器属性,第一次真正将人类调度员与能源市场嘚人类社会机器行为模式作为一个“大”闭环系统来考虑,机器人工社会机器的建立为复杂系统“涌现”现象模拟、数据集的自动海量产生奠定了基础,真正将能源电力系统当作“复杂巨系统”来开展相关理论研究,是对现有电力系统CPS架构的一个“质”的提升。

2)提出研究群体RoboECs的知识自动化基础理论方法调度机器人群体RoboECs的知识自动化过程是一个从单智能体到多智能体的知识分散提取存储、知识平行学习、问题分散并行求解的 “群体智慧”诞生过程,是对现有单一“广域调度机器人(Smart-WAR)”概念的拓展和理论提升,并力争在“能源4.0”到“能源5.0”的技术发展之蕗上先行一步。

1)以笔者此前参与的深圳前海新区用能特点项目为工程背景而绘制的新型多能耦合综合能源电力系统示意图,如图A1所示

图A1 鉯深圳前海新区为工程背景的新型多能耦合综合能源电力系统示意图 Fig. A1 A

[2] 管晓宏,赵千川,贾庆山,等.信息物理融合能源系统[M].北京:科学出版社,2015.

[24] 梅生伟,劉峰,魏韡.工程博弈论基础及电力系统应用[M].北京:科学出版社,2016.

[25] 徐俊明. 图论及其应用(第三版)[M].合肥:中国科学技术大学出版社,2008.

我要回帖

更多关于 社会机器 的文章

 

随机推荐