专利名称 ---【 强化学习多智能体沟通与决策方法 】

基本信息
申请号
CN201810606662.1
申请日
2018.06.12
公开(公告)号
CN108921298A
公开(公告)日
2018.11.30
申请(专利权)人
中国科学技术大学
申请人地址
230026 安徽省合肥市包河区金寨路96号
发明人
查正军;李厚强;温忻;李斌;王子磊; 专利类型 发明专利
摘要
本发明公开了一种强化学习多智能体沟通与决策方法,包括:根据各个智能体的观测状态信息通过神经网络提取相应的状态特征;将所有智能体的状态特征作为沟通信息输入至VLAD层中进行软分配与聚类,得到聚类后的沟通信息;将聚类后的沟通信息分发给各个智能体,由各个智能体将自身的状态特征与接收到的聚类后的沟通信息进行聚合,并通过智能体内部的全连接神经网络进行动作决策。该方法可以对各智能体的状态信息进行聚类并与其他智能体进行沟通,进而提高智能体的决策水平。
主权项
1.一种强化学习多智能体沟通与决策方法,其特征在于,包括:根据各个智能体的观测状态信息通过神经网络提取相应的状态特征;将所有智能体的状态特征作为沟通信息输入至VLAD层中进行软分配与聚类,得到聚类后的沟通信息;将聚类后的沟通信息分发给各个智能体,由各个智能体将自身的状态特征与接收到的聚类后的沟通信息进行聚合,并通过智能体内部的全连接神经网络进行动作决策。

 

IPC信息
IPC主分类号
G06N99/00(2010.01)I
IPC分类号
G06N99/00(2010.01)I;G06K9/62(2006.01)I;G06N3/063(2006.01)I

 

法律状态信息
法律状态公告日
2018.12.25
法律状态
实质审查的生效 法律状态信息
实质审查的生效 IPC(主分类):G06N 99/00 申请日:20180612
法律状态公告日
2018.11.30
法律状态
公开 法律状态信息
公开

 

代理信息
代理机构名称
北京凯特来知识产权代理有限公司 11260
代理人姓名
郑立明;郑哲

 

被引专利信息
引用阶段 被引时间 专利号 申请人 公开时间

 

被引非专利信息
引用阶段 被引时间 被引文档类型 被引文档信息
相似专利

[发明专利] 基于渐进式关系学习的群体行为识别模型及其训练方法
发明人:胡古月; 余山; 崔波; 何媛 申请日:2019-08-27

[发明专利] 基于深度强化学习单路口交通信号控制方法、系统、装置
发明人:吕宜生; 柴嘉骏; 于铭瑞; 陈圆圆; 熊刚; 朱凤华; 王飞跃 申请日:2019-07-12

[发明专利] 智能驾驶横向换道决策方法、系统和装置
发明人:张启超; 王俊杰; 赵冬斌 申请日:2019-06-25

[发明专利] 智能算法模型自主生成及进化方法、系统、装置
发明人:赵鑫; 黄凯奇; 张靖; 白岩 申请日:2019-06-05

[发明专利] 基于注意增强图卷积网络的骨架行为识别方法、系统
发明人:谭铁牛; 王亮; 王威; 司晨阳 申请日:2019-05-29

相似科技成果

软件自治愈与自恢复技术
主题词:[软件自治愈;软件自恢复;故障诊断] 单位名称:中国科学院计算技术研究所

     分享到:0


| 联系我们 | 网站地图 | 版权声明 |

版权:中国科学院 主办:中国科学院科技促进发展局 承办:中国科学院成都文献情报中心 蜀ICP备05003827号-12

建议使用1024×768 分辨率 IE6.0以上版本浏览器