{"id":"https://openalex.org/W6894328656","doi":"https://doi.org/10.5555/3535850.3535976","title":"GCS:Graph-Based Coordination Strategy for Multi-Agent Reinforcement Learning","display_name":"GCS:Graph-Based Coordination Strategy for Multi-Agent Reinforcement Learning","publication_year":2022,"publication_date":"2022-05-09","ids":{"openalex":"https://openalex.org/W6894328656","doi":"https://doi.org/10.5555/3535850.3535976"},"language":"en","primary_location":{"id":"pmh:oai:kclpure.kcl.ac.uk:publications/996dab6b-6572-4642-ab98-bd1608165927","is_oa":false,"landing_page_url":"https://kclpure.kcl.ac.uk/portal/en/publications/996dab6b-6572-4642-ab98-bd1608165927","pdf_url":null,"source":{"id":"https://openalex.org/S4306400216","display_name":"Research Portal (King's College London)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I183935753","host_organization_name":"King's College London","host_organization_lineage":["https://openalex.org/I183935753"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":"Ruan, J, Du, Y, Xiong, X, Xing, D, Li, X, Meng, L, Zhang, H, Wang, J & Xu, B 2022, GCS : Graph-Based Coordination Strategy for Multi-Agent Reinforcement Learning. in International Conference on Autonomous Agents and Multiagent Systems, AAMAS 2022. Proceedings of the International Joint Conference on Autonomous Agents and Multiagent Systems, AAMAS, vol. 2, pp. 1128-1136, 21st International Conference on Autonomous Agents and Multiagent Systems, AAMAS 2022, Auckland, Virtual, New Zealand, 9/05/2022. < https://dl.acm.org/doi/abs/10.5555/3535850.3535976 >","raw_type":"info:eu-repo/semantics/publishedVersion"},"type":"article","indexed_in":[],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":null,"display_name":"Ruan, Jingqing","orcid":null},"institutions":[{"id":"https://openalex.org/I19820366","display_name":"Chinese Academy of Sciences","ror":"https://ror.org/034t30j35","country_code":"CN","type":"government","lineage":["https://openalex.org/I19820366"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Ruan, Jingqing","raw_affiliation_strings":["Chinese Academy of Sciences"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Chinese Academy of Sciences","institution_ids":["https://openalex.org/I19820366"]}]},{"author_position":"middle","author":{"id":null,"display_name":"Du, Yali","orcid":null},"institutions":[{"id":"https://openalex.org/I183935753","display_name":"King's College London","ror":"https://ror.org/0220mzb33","country_code":"GB","type":"education","lineage":["https://openalex.org/I124357947","https://openalex.org/I183935753"]}],"countries":["GB"],"is_corresponding":false,"raw_author_name":"Du, Yali","raw_affiliation_strings":["Informatics","King's College London"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Informatics","institution_ids":[]},{"raw_affiliation_string":"King's College London","institution_ids":["https://openalex.org/I183935753"]}]},{"author_position":"middle","author":{"id":null,"display_name":"Xiong, Xuantang","orcid":null},"institutions":[{"id":"https://openalex.org/I19820366","display_name":"Chinese Academy of Sciences","ror":"https://ror.org/034t30j35","country_code":"CN","type":"government","lineage":["https://openalex.org/I19820366"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Xiong, Xuantang","raw_affiliation_strings":["Chinese Academy of Sciences"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Chinese Academy of Sciences","institution_ids":["https://openalex.org/I19820366"]}]},{"author_position":"middle","author":{"id":null,"display_name":"Xing, Dengpeng","orcid":null},"institutions":[{"id":"https://openalex.org/I19820366","display_name":"Chinese Academy of Sciences","ror":"https://ror.org/034t30j35","country_code":"CN","type":"government","lineage":["https://openalex.org/I19820366"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Xing, Dengpeng","raw_affiliation_strings":["Chinese Academy of Sciences"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Chinese Academy of Sciences","institution_ids":["https://openalex.org/I19820366"]}]},{"author_position":"middle","author":{"id":null,"display_name":"Li, Xiyun","orcid":null},"institutions":[{"id":"https://openalex.org/I19820366","display_name":"Chinese Academy of Sciences","ror":"https://ror.org/034t30j35","country_code":"CN","type":"government","lineage":["https://openalex.org/I19820366"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Li, Xiyun","raw_affiliation_strings":["Chinese Academy of Sciences"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Chinese Academy of Sciences","institution_ids":["https://openalex.org/I19820366"]}]},{"author_position":"middle","author":{"id":null,"display_name":"Meng, Linghui","orcid":null},"institutions":[{"id":"https://openalex.org/I19820366","display_name":"Chinese Academy of Sciences","ror":"https://ror.org/034t30j35","country_code":"CN","type":"government","lineage":["https://openalex.org/I19820366"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Meng, Linghui","raw_affiliation_strings":["Chinese Academy of Sciences"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Chinese Academy of Sciences","institution_ids":["https://openalex.org/I19820366"]}]},{"author_position":"middle","author":{"id":null,"display_name":"Zhang, Haifeng","orcid":null},"institutions":[{"id":"https://openalex.org/I19820366","display_name":"Chinese Academy of Sciences","ror":"https://ror.org/034t30j35","country_code":"CN","type":"government","lineage":["https://openalex.org/I19820366"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Zhang, Haifeng","raw_affiliation_strings":["Chinese Academy of Sciences"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Chinese Academy of Sciences","institution_ids":["https://openalex.org/I19820366"]}]},{"author_position":"middle","author":{"id":null,"display_name":"Wang, Jun","orcid":null},"institutions":[{"id":"https://openalex.org/I45129253","display_name":"University College London","ror":"https://ror.org/02jx3x895","country_code":"GB","type":"education","lineage":["https://openalex.org/I124357947","https://openalex.org/I45129253"]}],"countries":["GB"],"is_corresponding":false,"raw_author_name":"Wang, Jun","raw_affiliation_strings":["UCL University College London"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"UCL University College London","institution_ids":["https://openalex.org/I45129253"]}]},{"author_position":"last","author":{"id":null,"display_name":"Xu, Bo","orcid":null},"institutions":[{"id":"https://openalex.org/I19820366","display_name":"Chinese Academy of Sciences","ror":"https://ror.org/034t30j35","country_code":"CN","type":"government","lineage":["https://openalex.org/I19820366"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Xu, Bo","raw_affiliation_strings":["Chinese Academy of Sciences"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Chinese Academy of Sciences","institution_ids":["https://openalex.org/I19820366"]}]}],"institutions":[],"countries_distinct_count":2,"institutions_distinct_count":9,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.1387,"has_fulltext":false,"cited_by_count":1,"citation_normalized_percentile":{"value":0.59476227,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":90,"max":94},"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":true,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9196000099182129,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9196000099182129,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12794","display_name":"Adaptive Dynamic Programming Control","score":0.009800000116229057,"subfield":{"id":"https://openalex.org/subfields/1703","display_name":"Computational Theory and Mathematics"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11099","display_name":"Autonomous Vehicle Technology and Safety","score":0.006800000090152025,"subfield":{"id":"https://openalex.org/subfields/2203","display_name":"Automotive Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/exploit","display_name":"Exploit","score":0.6478000283241272},{"id":"https://openalex.org/keywords/graph","display_name":"Graph","score":0.5292999744415283},{"id":"https://openalex.org/keywords/directed-acyclic-graph","display_name":"Directed acyclic graph","score":0.5054000020027161},{"id":"https://openalex.org/keywords/generator","display_name":"Generator (circuit theory)","score":0.49790000915527344},{"id":"https://openalex.org/keywords/partially-observable-markov-decision-process","display_name":"Partially observable Markov decision process","score":0.46860000491142273},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.46619999408721924},{"id":"https://openalex.org/keywords/markov-decision-process","display_name":"Markov decision process","score":0.4075999855995178},{"id":"https://openalex.org/keywords/directed-graph","display_name":"Directed graph","score":0.40290001034736633}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7062000036239624},{"id":"https://openalex.org/C165696696","wikidata":"https://www.wikidata.org/wiki/Q11287","display_name":"Exploit","level":2,"score":0.6478000283241272},{"id":"https://openalex.org/C132525143","wikidata":"https://www.wikidata.org/wiki/Q141488","display_name":"Graph","level":2,"score":0.5292999744415283},{"id":"https://openalex.org/C74197172","wikidata":"https://www.wikidata.org/wiki/Q1195339","display_name":"Directed acyclic graph","level":2,"score":0.5054000020027161},{"id":"https://openalex.org/C2780992000","wikidata":"https://www.wikidata.org/wiki/Q17016113","display_name":"Generator (circuit theory)","level":3,"score":0.49790000915527344},{"id":"https://openalex.org/C17098449","wikidata":"https://www.wikidata.org/wiki/Q176814","display_name":"Partially observable Markov decision process","level":4,"score":0.46860000491142273},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.46619999408721924},{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.4075999855995178},{"id":"https://openalex.org/C146380142","wikidata":"https://www.wikidata.org/wiki/Q1137726","display_name":"Directed graph","level":2,"score":0.40290001034736633},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.3736000061035156},{"id":"https://openalex.org/C79772020","wikidata":"https://www.wikidata.org/wiki/Q5159264","display_name":"Conditional independence","level":2,"score":0.3560999929904938},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.35409998893737793},{"id":"https://openalex.org/C2775924081","wikidata":"https://www.wikidata.org/wiki/Q55608371","display_name":"Control (management)","level":2,"score":0.34369999170303345},{"id":"https://openalex.org/C2993400877","wikidata":"https://www.wikidata.org/wiki/Q28083137","display_name":"Football team","level":3,"score":0.3303999900817871},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.32120001316070557},{"id":"https://openalex.org/C80444323","wikidata":"https://www.wikidata.org/wiki/Q2878974","display_name":"Theoretical computer science","level":1,"score":0.3158999979496002},{"id":"https://openalex.org/C120936955","wikidata":"https://www.wikidata.org/wiki/Q2155640","display_name":"Empirical research","level":2,"score":0.313400000333786},{"id":"https://openalex.org/C2778444522","wikidata":"https://www.wikidata.org/wiki/Q1081491","display_name":"Football","level":2,"score":0.3133000135421753},{"id":"https://openalex.org/C107257861","wikidata":"https://www.wikidata.org/wiki/Q656316","display_name":"Coordination game","level":2,"score":0.3028999865055084},{"id":"https://openalex.org/C166052673","wikidata":"https://www.wikidata.org/wiki/Q83021","display_name":"Empirical evidence","level":2,"score":0.29660001397132874},{"id":"https://openalex.org/C163716315","wikidata":"https://www.wikidata.org/wiki/Q901177","display_name":"Gaussian","level":2,"score":0.28049999475479126},{"id":"https://openalex.org/C61326573","wikidata":"https://www.wikidata.org/wiki/Q1496376","display_name":"Gaussian process","level":3,"score":0.25929999351501465}],"mesh":[],"locations_count":1,"locations":[{"id":"pmh:oai:kclpure.kcl.ac.uk:publications/996dab6b-6572-4642-ab98-bd1608165927","is_oa":false,"landing_page_url":"https://kclpure.kcl.ac.uk/portal/en/publications/996dab6b-6572-4642-ab98-bd1608165927","pdf_url":null,"source":{"id":"https://openalex.org/S4306400216","display_name":"Research Portal (King's College London)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I183935753","host_organization_name":"King's College London","host_organization_lineage":["https://openalex.org/I183935753"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":"Ruan, J, Du, Y, Xiong, X, Xing, D, Li, X, Meng, L, Zhang, H, Wang, J & Xu, B 2022, GCS : Graph-Based Coordination Strategy for Multi-Agent Reinforcement Learning. in International Conference on Autonomous Agents and Multiagent Systems, AAMAS 2022. Proceedings of the International Joint Conference on Autonomous Agents and Multiagent Systems, AAMAS, vol. 2, pp. 1128-1136, 21st International Conference on Autonomous Agents and Multiagent Systems, AAMAS 2022, Auckland, Virtual, New Zealand, 9/05/2022. < https://dl.acm.org/doi/abs/10.5555/3535850.3535976 >","raw_type":"info:eu-repo/semantics/publishedVersion"}],"best_oa_location":null,"sustainable_development_goals":[{"display_name":"Peace, Justice and strong institutions","id":"https://metadata.un.org/sdg/16","score":0.6637496948242188}],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Many":[0],"real-world":[1],"scenarios":[2],"involve":[3],"a":[4,16,28,58],"team":[5,55],"of":[6,147],"agents":[7],"that":[8,78],"have":[9],"to":[10,14,26,65,84,104,127],"coordinate":[11],"their":[12],"policies":[13],"achieve":[15],"shared":[17],"goal.":[18],"Previous":[19],"studies":[20],"mainly":[21],"focus":[22],"on":[23,134],"decentralized":[24],"control":[25,37],"maximize":[27,128],"common":[29],"reward":[30],"and":[31,44,61,96,107,121,140],"barely":[32],"consider":[33],"the":[34,53,86,94,101,114,129,145,148],"coordination":[35],"among":[36,69],"policies,":[38],"which":[39],"is":[40,153],"critical":[41],"in":[42,100],"dynamic":[43,88],"complicated":[45],"environments.":[46],"In":[47],"this":[48],"work,":[49],"we":[50],"propose":[51],"factorizing":[52],"joint":[54],"policy":[56,64,112,123],"into":[57],"graph":[59,72,102,119],"generator":[60,73,103,120],"graph-based":[62,110],"coordinated":[63,67,111,122],"enable":[66],"behaviours":[68],"agents.":[70],"The":[71,109,118,151],"adopts":[74],"an":[75],"encoder-decoder":[76],"framework":[77],"outputs":[79],"directed":[80],"acyclic":[81],"graphs":[82],"(DAGs)":[83],"capture":[85],"underlying":[87],"decision":[89,116],"structure.":[90,117],"We":[91],"also":[92],"apply":[93],"DAGness-constrained":[95],"DAG":[97],"depth-constrained":[98],"optimization":[99],"balance":[105],"efficiency":[106],"performance.":[108],"exploits":[113],"generated":[115],"are":[124],"trained":[125],"simultaneously":[126],"discounted":[130],"return.":[131],"Empirical":[132],"evaluations":[133],"Collaborative":[135],"Gaussian":[136],"Squeeze,":[137],"Cooperative":[138],"Navigation,":[139],"Google":[141],"Research":[142],"Football":[143],"demonstrate":[144],"superiority":[146],"proposed":[149],"method.":[150],"code":[152],"available":[154],"at":[155],"https://github.com/Amanda-1997/GCS_aamas337.":[156]},"counts_by_year":[{"year":2024,"cited_by_count":1}],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2025-10-10T00:00:00"}