{"id":"https://openalex.org/W7138296248","doi":"https://doi.org/10.1609/aaai.v40i35.40199","title":"HCPO: Hierarchical Conductor-Based Policy Optimization in Multi-Agent Reinforcement Learning","display_name":"HCPO: Hierarchical Conductor-Based Policy Optimization in Multi-Agent Reinforcement Learning","publication_year":2026,"publication_date":"2026-03-14","ids":{"openalex":"https://openalex.org/W7138296248","doi":"https://doi.org/10.1609/aaai.v40i35.40199"},"language":null,"primary_location":{"id":"doi:10.1609/aaai.v40i35.40199","is_oa":true,"landing_page_url":"https://doi.org/10.1609/aaai.v40i35.40199","pdf_url":null,"source":{"id":"https://openalex.org/S4210191458","display_name":"Proceedings of the AAAI Conference on Artificial Intelligence","issn_l":"2159-5399","issn":["2159-5399","2374-3468"],"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/P4310320058","host_organization_name":"Association for the Advancement of Artificial Intelligence","host_organization_lineage":["https://openalex.org/P4310320058"],"host_organization_lineage_names":["Association for the Advancement of Artificial Intelligence"],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the AAAI Conference on Artificial Intelligence","raw_type":"journal-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":true,"oa_status":"diamond","oa_url":"https://doi.org/10.1609/aaai.v40i35.40199","any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5073216049","display_name":"Zejiao Liu","orcid":"https://orcid.org/0000-0002-3801-7524"},"institutions":[{"id":"https://openalex.org/I143593769","display_name":"East China University of Science and Technology","ror":"https://ror.org/01vyrm377","country_code":"CN","type":"education","lineage":["https://openalex.org/I143593769"]}],"countries":["CN"],"is_corresponding":true,"raw_author_name":"Zejiao Liu","raw_affiliation_strings":["East China University of Science and Technology"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"East China University of Science and Technology","institution_ids":["https://openalex.org/I143593769"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5125756883","display_name":"Junqi Tu","orcid":null},"institutions":[{"id":"https://openalex.org/I143593769","display_name":"East China University of Science and Technology","ror":"https://ror.org/01vyrm377","country_code":"CN","type":"education","lineage":["https://openalex.org/I143593769"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Junqi Tu","raw_affiliation_strings":["East China University of Science and Technology"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"East China University of Science and Technology","institution_ids":["https://openalex.org/I143593769"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5129701816","display_name":"Yitian Hong","orcid":null},"institutions":[{"id":"https://openalex.org/I143593769","display_name":"East China University of Science and Technology","ror":"https://ror.org/01vyrm377","country_code":"CN","type":"education","lineage":["https://openalex.org/I143593769"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Yitian Hong","raw_affiliation_strings":["East China University of Science and Technology"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"East China University of Science and Technology","institution_ids":["https://openalex.org/I143593769"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5008797965","display_name":"Luolin Xiong","orcid":"https://orcid.org/0009-0001-0142-7933"},"institutions":[{"id":"https://openalex.org/I143593769","display_name":"East China University of Science and Technology","ror":"https://ror.org/01vyrm377","country_code":"CN","type":"education","lineage":["https://openalex.org/I143593769"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Luolin Xiong","raw_affiliation_strings":["East China University of Science and Technology"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"East China University of Science and Technology","institution_ids":["https://openalex.org/I143593769"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5129683843","display_name":"Yaochu Jin","orcid":null},"institutions":[{"id":"https://openalex.org/I3133055985","display_name":"Westlake University","ror":"https://ror.org/05hfa4n20","country_code":"CN","type":"education","lineage":["https://openalex.org/I3133055985"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Yaochu Jin","raw_affiliation_strings":["Westlake University"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Westlake University","institution_ids":["https://openalex.org/I3133055985"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5129651031","display_name":"Yang Tang","orcid":null},"institutions":[{"id":"https://openalex.org/I143593769","display_name":"East China University of Science and Technology","ror":"https://ror.org/01vyrm377","country_code":"CN","type":"education","lineage":["https://openalex.org/I143593769"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Yang Tang","raw_affiliation_strings":["East China University of Science and Technology"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"East China University of Science and Technology","institution_ids":["https://openalex.org/I143593769"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5129712510","display_name":"Fangfei Li","orcid":null},"institutions":[{"id":"https://openalex.org/I143593769","display_name":"East China University of Science and Technology","ror":"https://ror.org/01vyrm377","country_code":"CN","type":"education","lineage":["https://openalex.org/I143593769"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Fangfei Li","raw_affiliation_strings":["East China University of Science and Technology"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"East China University of Science and Technology","institution_ids":["https://openalex.org/I143593769"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":7,"corresponding_author_ids":["https://openalex.org/A5073216049"],"corresponding_institution_ids":["https://openalex.org/I143593769"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.44694073,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":"40","issue":"35","first_page":"29564","last_page":"29572"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9567000269889832,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9567000269889832,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10653","display_name":"Robot Manipulation and Learning","score":0.002300000051036477,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11612","display_name":"Stochastic Gradient Optimization Techniques","score":0.002199999988079071,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7717000246047974},{"id":"https://openalex.org/keywords/joint","display_name":"Joint (building)","score":0.708299994468689},{"id":"https://openalex.org/keywords/policy-learning","display_name":"Policy learning","score":0.44449999928474426},{"id":"https://openalex.org/keywords/monotonic-function","display_name":"Monotonic function","score":0.30379998683929443},{"id":"https://openalex.org/keywords/optimization-problem","display_name":"Optimization problem","score":0.30140000581741333}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7717000246047974},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7418000102043152},{"id":"https://openalex.org/C18555067","wikidata":"https://www.wikidata.org/wiki/Q8375051","display_name":"Joint (building)","level":2,"score":0.708299994468689},{"id":"https://openalex.org/C2779436431","wikidata":"https://www.wikidata.org/wiki/Q30672407","display_name":"Policy learning","level":2,"score":0.44449999928474426},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.37619999051094055},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.3758000135421753},{"id":"https://openalex.org/C72169020","wikidata":"https://www.wikidata.org/wiki/Q194404","display_name":"Monotonic function","level":2,"score":0.30379998683929443},{"id":"https://openalex.org/C137836250","wikidata":"https://www.wikidata.org/wiki/Q984063","display_name":"Optimization problem","level":2,"score":0.30140000581741333},{"id":"https://openalex.org/C165064840","wikidata":"https://www.wikidata.org/wiki/Q1321061","display_name":"Matching (statistics)","level":2,"score":0.3010999858379364},{"id":"https://openalex.org/C29202148","wikidata":"https://www.wikidata.org/wiki/Q287260","display_name":"Resource allocation","level":2,"score":0.2752000093460083}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1609/aaai.v40i35.40199","is_oa":true,"landing_page_url":"https://doi.org/10.1609/aaai.v40i35.40199","pdf_url":null,"source":{"id":"https://openalex.org/S4210191458","display_name":"Proceedings of the AAAI Conference on Artificial Intelligence","issn_l":"2159-5399","issn":["2159-5399","2374-3468"],"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/P4310320058","host_organization_name":"Association for the Advancement of Artificial Intelligence","host_organization_lineage":["https://openalex.org/P4310320058"],"host_organization_lineage_names":["Association for the Advancement of Artificial Intelligence"],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the AAAI Conference on Artificial Intelligence","raw_type":"journal-article"}],"best_oa_location":{"id":"doi:10.1609/aaai.v40i35.40199","is_oa":true,"landing_page_url":"https://doi.org/10.1609/aaai.v40i35.40199","pdf_url":null,"source":{"id":"https://openalex.org/S4210191458","display_name":"Proceedings of the AAAI Conference on Artificial Intelligence","issn_l":"2159-5399","issn":["2159-5399","2374-3468"],"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/P4310320058","host_organization_name":"Association for the Advancement of Artificial Intelligence","host_organization_lineage":["https://openalex.org/P4310320058"],"host_organization_lineage_names":["Association for the Advancement of Artificial Intelligence"],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the AAAI Conference on Artificial Intelligence","raw_type":"journal-article"},"sustainable_development_goals":[{"display_name":"Partnerships for the goals","id":"https://metadata.un.org/sdg/17","score":0.443646103143692}],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"In":[0,66],"cooperative":[1,150],"Multi-Agent":[2],"Reinforcement":[3],"Learning":[4],"(MARL),":[5],"efficient":[6],"exploration":[7,39],"is":[8],"crucial":[9],"for":[10,81],"optimizing":[11],"the":[12,35,57,82,99,102],"performance":[13,91],"of":[14,40,60,101],"joint":[15,22,41,51,61,103],"policy.":[16],"However,":[17],"existing":[18],"methods":[19],"often":[20],"update":[21],"policies":[23,62],"via":[24],"independent":[25],"agent":[26],"exploration,":[27],"without":[28],"coordination":[29],"among":[30],"agents,":[31],"which":[32],"inherently":[33],"constrains":[34],"expressive":[36,58],"capacity":[37,59],"and":[38,63,84,136,152],"policies.":[42],"To":[43],"address":[44],"this":[45],"issue,":[46],"we":[47,68,123],"propose":[48],"a":[49,70,87],"conductor-based":[50],"policy":[52,79,104],"framework":[53],"that":[54,77,143],"directly":[55],"enhances":[56],"coordinates":[64],"exploration.":[65],"addition,":[67],"develop":[69],"Hierarchical":[71],"Conductor-based":[72],"Policy":[73],"Optimization":[74],"(HCPO)":[75],"algorithm":[76],"instructs":[78],"updates":[80],"conductor":[83],"agents":[85],"in":[86],"direction":[88],"aligned":[89],"with":[90],"improvement.":[92],"A":[93],"rigorous":[94],"theoretical":[95],"guarantee":[96],"further":[97],"establishes":[98],"monotonicity":[100],"optimization":[105],"process.":[106],"By":[107],"deploying":[108],"local":[109],"conductors,":[110],"HCPO":[111,125,144],"retains":[112],"centralized":[113],"training":[114],"benefits":[115],"while":[116],"eliminating":[117],"inter-agent":[118],"communication":[119],"during":[120],"execution.":[121],"Finally,":[122],"evaluate":[124],"on":[126],"three":[127],"challenging":[128],"benchmarks:":[129],"StarCraft":[130],"II":[131],"Multi-agent":[132,134,137],"Challenge,":[133],"MuJoCo,":[135],"Particle":[138],"Environment.":[139],"The":[140],"results":[141],"indicate":[142],"outperforms":[145],"competitive":[146],"MARL":[147],"baselines":[148],"regarding":[149],"efficiency":[151],"stability.":[153]},"counts_by_year":[],"updated_date":"2026-05-21T06:26:12.895304","created_date":"2026-03-18T00:00:00"}