科技成果简介
成果名称:
白泽-大规模博弈决策系统
项目负责人:
王轩、张加佳
所属领域:
人工智能-计算机博弈决策
成果简介:
主要技术特点:
白泽,是哈尔滨工业大学(深圳)打造的面向非完全信息、强对抗、大规模异构群体博弈决策问题,集模糊态势感知、复杂策略求解、群体自主学习等核心技术于一体的人工智能技术平台。
平台的主要原理为:基于信息熵和深度学习技术进行非完全博弈信息的建模、感知和信息对抗,以博弈论和机器学习相结合的超大规模树搜索技术求解宏观策略,以多目标深度强化学习技术构建智能个体,以加权价值传递技术形成分层指挥控制体系。整体架构具有鲁棒性强、求解时间空间复杂度可控、策略可解释性好、可适应异构多群体智能体等显著优势。
平台核心技术在博弈决策的建模、度量、策略求解方向具有开创性贡献,一直保持在世界一流、国内领先的水平。在人工智能顶会AAAI主办的ACPC大赛连续五年获世界前三、亚洲第一名,NeurIPS 2019博弈大赛获得单项世界冠军,2020年军委科技委内部评测全国第一名。与此同时,平台结合目前大国竞争的背景,实现了基于国产自主可控超算平台(飞腾服务器+麒麟操作系统、天河II号系统、华为升腾910系统)的移植和优化,是鹏城国家实验室云脑II期建设的关键模块。
应用范围:
首先,成果可对我国JS智能化领域形成有力技术支撑。
在战略决策层面,白泽构建的JS智能化仿真演训系统可负载大规模异构智能体群体博弈推演。基于博弈决策技术构建的“ZLAI”和“指挥官辅助决策系统”可满足复杂作战场景的人机联合训练和自动化推演。以博弈算法理论和大规模仿真推演数据丰富现有JS知识体系,建立博弈对抗进化学习试验床,赋能推动JS先导性应用,推动作战指挥人员与武器环境等深度融合。目前,白泽已经建立了海空一体化仿真演训平台,为海军某部提供技术支撑。
在平台控制层面,白泽可为构建智能无人集群提供大规模控制策略求解和群体自主学习解决方案。白泽构建的分层指挥群体控制架构,已实现战场迷雾环境下的宏观态势理解、群体路径及火力控制、基于分布式超算的群体自主学习等关键功能。目前,白泽为中电科五十四研究所的城市战仿真平台中的无人机+战斗班组的自动控制提供核心技术支持。
此外,白泽平台还提供了大型人工智能算法在国产自主可控计算环境中成功移植和性能优化的技术经验。可有效解决国产超算环境在支撑大规模博弈决策算法以及其他人工智能算法在移植过程中可能存在的参数存储和更新、动态资源调度及CPU、GPU混合计算等方面的关键问题。
其次,成果可为我国金融科技领域的智能投资和风险监控提供技术支持
博弈决策智能基础理论及关键技术的研究可以促进金融投资领域的发展。博弈决策技术通过构建不同条件下的银企博弈模型,即完全信息银企静态博弈、完全信息银企动态博弈、不完全信息银企静态博弈和不完全信息银企动态博弈,并对其均衡进行分析,建立银企博弈双方在金融投资领域的策略求解方案。从加强自身信用建设,树立良好的商业信誉、加强自身信息披露,建立科学的信息传导机制等角度建立博弈策略集合并提供银企双方的用户画像理论和技术模型。同时,博弈决策理论和技术也可以协助政府制定在促进中小企业完善的信用担保体系,促进担保机构与银行之间的合作与贷后相互监督方面的博弈策略,进而大力推进我市金融投资领域的发展。
最后,成果可以为我国群众群体态势理解,政府宏观政策建议提供技术支持。
作为人口大国,社会的和谐稳定一直是我国社会发展的重要目标之一。复杂社交网络中的博弈者个体以不同的地理、生理条件、受服务产品、个体行为模式、利益诉求为边界,构成了复杂的多群体分布。同时,博弈者个体因其活跃程度、影响力大小等因素,对其他博弈者乃至整个网络具有明显区别的影响特征。针对以上问题,对博弈者个体和群体的监控、调控及动力学机制需要加以区分研究,研究基于聚类方法的多群体博弈模型中的群体发现、分类、画像技术,构建有效的博弈者模型,对我市整体安全态势理解、热点公共事件调控、舆情分析及正确引导等方面均有重大意义。
照片资料:
目前,平台已经完成基础研究、关键技术和重点应用三个层次的建设,正在搭建生态平台层次的各个模块。已经取得的主要成果和关键指标包括:
竞赛评测平台构建的动态多智能体非完全信息博弈系统,在顶级评测世界计算机扑克博弈大赛(AAAI主办)中连续5年保持世界前三、亚洲第一。在2019年NIPS主办的侦查盲棋博弈大赛获得单项世界冠军、综合评分世界第五名。在2020年军委科技委创新特区项目评测中获得第一名。
由白泽平台构建完成的德州扑克智能体多次参加由人工智能顶会AAAI举办的世界计算机扑克大赛(ACPC),并在多个比赛项目上取得领先的优秀成绩。此赛事每年都吸引来自卡耐基梅隆大学、阿尔伯塔大学、伦敦大学、南洋理工大学以及谷歌等在人工智能研究领域有重要影响力的高校及科研机构参加。申报团队为2017年ACPC比赛亚洲地区唯一进入决赛的队伍。其中,在2013年的循环比赛中击败了排名第一的加拿大阿尔伯塔大学,最终获得第四名;2014年获得二人Kuhn Poker第三名,多人博弈第四名;2017年获得二人非限制性德州扑克第三名(如图30所示为2017年ACPC比赛排名)。2018年参加ACPC评测,六人非限制性德州扑克(Six-Player No-Limit Texas Hold'em)比赛在Total Bankroll获得第3名。2019年申报团队参加NIPS举办的非完全信息博弈“侦查棋”国际竞赛获得世界第五名。同时项目申请团队的研究成果还包括复现了DeepMind团队的围棋博弈系统AlphaGo(前十名排序策略准确度达到95%);基于深度强化学习和3D图像识别技术融合的VizDoom射击博弈游戏等等。
图1 德州扑克(非完全信息多智能体)博弈系统界面及ACPC比赛现场
图2 ACPC获奖情况结果统计
图3 2019年NIPS 非完全信息“侦查棋”世界竞赛第五名,侦测项目第一名
图4 复现Alpha Go 围棋博弈系统评测结果
指控仿真推演系统与中国电子集团(CEC)和海军某研究所合作项目,完成面向HZ推演的仿真推演项目,支持各种异构智能体的超过8类、100个个体的智能群体的同步仿真推演,圆满完成技术验收。
图5 白泽平台构建的HZ推演的仿真推演“ZLAI”模块(1)
图6 白泽平台构建的HZ推演的仿真推演“ZLAI”模块(2)
金融领域构建的金融投资风控系统与平安集团合作,构建了金融市场博弈等多情景决策的智能化辅助平台,关键技术已应用到平安集团的融资决策规划应用场景、证券智能算法交易应用场景、宏观政策问询及建议应用场景。产品投放城市包括深圳、中山、潮州,累计交易6000亿元,新增收入超过3亿元。
图7 白泽平台与平安集团合作打造的广东省政府经济宏观政策问询及建议平台