{"id":"https://openalex.org/W2943368604","doi":"https://doi.org/10.1145/3297280.3297371","title":"Hierarchical multi-agent deep reinforcement learning to develop long-term coordination","display_name":"Hierarchical multi-agent deep reinforcement learning to develop long-term coordination","publication_year":2019,"publication_date":"2019-04-08","ids":{"openalex":"https://openalex.org/W2943368604","doi":"https://doi.org/10.1145/3297280.3297371","mag":"2943368604"},"language":"en","primary_location":{"id":"doi:10.1145/3297280.3297371","is_oa":false,"landing_page_url":"https://doi.org/10.1145/3297280.3297371","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 34th ACM/SIGAPP Symposium on Applied Computing","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5005962214","display_name":"Marie Ossenkopf","orcid":null},"institutions":[{"id":"https://openalex.org/I106157433","display_name":"University of Kassel","ror":"https://ror.org/04zc7p361","country_code":"DE","type":"education","lineage":["https://openalex.org/I106157433"]}],"countries":["DE"],"is_corresponding":true,"raw_author_name":"Marie Ossenkopf","raw_affiliation_strings":["University of Kassel, Kassel, Hessen, Germany"],"affiliations":[{"raw_affiliation_string":"University of Kassel, Kassel, Hessen, Germany","institution_ids":["https://openalex.org/I106157433"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5025026852","display_name":"Mackenzie Jorgensen","orcid":"https://orcid.org/0009-0001-1274-1733"},"institutions":[{"id":"https://openalex.org/I7863295","display_name":"Villanova University","ror":"https://ror.org/02g7kd627","country_code":"US","type":"education","lineage":["https://openalex.org/I7863295"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Mackenzie Jorgensen","raw_affiliation_strings":["Villanova University"],"affiliations":[{"raw_affiliation_string":"Villanova University","institution_ids":["https://openalex.org/I7863295"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5077860593","display_name":"Kurt Geihs","orcid":"https://orcid.org/0000-0001-9833-6108"},"institutions":[{"id":"https://openalex.org/I106157433","display_name":"University of Kassel","ror":"https://ror.org/04zc7p361","country_code":"DE","type":"education","lineage":["https://openalex.org/I106157433"]}],"countries":["DE"],"is_corresponding":false,"raw_author_name":"Kurt Geihs","raw_affiliation_strings":["University of Kassel, Kassel, Hessen, Germany"],"affiliations":[{"raw_affiliation_string":"University of Kassel, Kassel, Hessen, Germany","institution_ids":["https://openalex.org/I106157433"]}]}],"institutions":[],"countries_distinct_count":2,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5005962214"],"corresponding_institution_ids":["https://openalex.org/I106157433"],"apc_list":null,"apc_paid":null,"fwci":0.28,"has_fulltext":false,"cited_by_count":6,"citation_normalized_percentile":{"value":0.64017031,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":89,"max":97},"biblio":{"volume":null,"issue":null,"first_page":"922","last_page":"929"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9997000098228455,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9997000098228455,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10653","display_name":"Robot Manipulation and Learning","score":0.9936000108718872,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10456","display_name":"Multi-Agent Systems and Negotiation","score":0.9751999974250793,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.8357494473457336},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7952892780303955},{"id":"https://openalex.org/keywords/testbed","display_name":"Testbed","score":0.7381162643432617},{"id":"https://openalex.org/keywords/task","display_name":"Task (project management)","score":0.6283283233642578},{"id":"https://openalex.org/keywords/recurrent-neural-network","display_name":"Recurrent neural network","score":0.5169738531112671},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.5137571096420288},{"id":"https://openalex.org/keywords/protocol","display_name":"Protocol (science)","score":0.4856911599636078},{"id":"https://openalex.org/keywords/action","display_name":"Action (physics)","score":0.4741109013557434},{"id":"https://openalex.org/keywords/term","display_name":"Term (time)","score":0.4650042951107025},{"id":"https://openalex.org/keywords/differentiable-function","display_name":"Differentiable function","score":0.45217612385749817},{"id":"https://openalex.org/keywords/multi-agent-system","display_name":"Multi-agent system","score":0.4330390393733978},{"id":"https://openalex.org/keywords/distributed-computing","display_name":"Distributed computing","score":0.3992110788822174},{"id":"https://openalex.org/keywords/artificial-neural-network","display_name":"Artificial neural network","score":0.39133551716804504},{"id":"https://openalex.org/keywords/human\u2013computer-interaction","display_name":"Human\u2013computer interaction","score":0.33555856347084045},{"id":"https://openalex.org/keywords/computer-network","display_name":"Computer network","score":0.19411587715148926}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.8357494473457336},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7952892780303955},{"id":"https://openalex.org/C31395832","wikidata":"https://www.wikidata.org/wiki/Q1318674","display_name":"Testbed","level":2,"score":0.7381162643432617},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.6283283233642578},{"id":"https://openalex.org/C147168706","wikidata":"https://www.wikidata.org/wiki/Q1457734","display_name":"Recurrent neural network","level":3,"score":0.5169738531112671},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5137571096420288},{"id":"https://openalex.org/C2780385302","wikidata":"https://www.wikidata.org/wiki/Q367158","display_name":"Protocol (science)","level":3,"score":0.4856911599636078},{"id":"https://openalex.org/C2780791683","wikidata":"https://www.wikidata.org/wiki/Q846785","display_name":"Action (physics)","level":2,"score":0.4741109013557434},{"id":"https://openalex.org/C61797465","wikidata":"https://www.wikidata.org/wiki/Q1188986","display_name":"Term (time)","level":2,"score":0.4650042951107025},{"id":"https://openalex.org/C202615002","wikidata":"https://www.wikidata.org/wiki/Q783507","display_name":"Differentiable function","level":2,"score":0.45217612385749817},{"id":"https://openalex.org/C41550386","wikidata":"https://www.wikidata.org/wiki/Q529909","display_name":"Multi-agent system","level":2,"score":0.4330390393733978},{"id":"https://openalex.org/C120314980","wikidata":"https://www.wikidata.org/wiki/Q180634","display_name":"Distributed computing","level":1,"score":0.3992110788822174},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.39133551716804504},{"id":"https://openalex.org/C107457646","wikidata":"https://www.wikidata.org/wiki/Q207434","display_name":"Human\u2013computer interaction","level":1,"score":0.33555856347084045},{"id":"https://openalex.org/C31258907","wikidata":"https://www.wikidata.org/wiki/Q1301371","display_name":"Computer network","level":1,"score":0.19411587715148926},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.0},{"id":"https://openalex.org/C142724271","wikidata":"https://www.wikidata.org/wiki/Q7208","display_name":"Pathology","level":1,"score":0.0},{"id":"https://openalex.org/C134306372","wikidata":"https://www.wikidata.org/wiki/Q7754","display_name":"Mathematical analysis","level":1,"score":0.0},{"id":"https://openalex.org/C162324750","wikidata":"https://www.wikidata.org/wiki/Q8134","display_name":"Economics","level":0,"score":0.0},{"id":"https://openalex.org/C204787440","wikidata":"https://www.wikidata.org/wiki/Q188504","display_name":"Alternative medicine","level":2,"score":0.0},{"id":"https://openalex.org/C71924100","wikidata":"https://www.wikidata.org/wiki/Q11190","display_name":"Medicine","level":0,"score":0.0},{"id":"https://openalex.org/C62520636","wikidata":"https://www.wikidata.org/wiki/Q944","display_name":"Quantum mechanics","level":1,"score":0.0},{"id":"https://openalex.org/C187736073","wikidata":"https://www.wikidata.org/wiki/Q2920921","display_name":"Management","level":1,"score":0.0},{"id":"https://openalex.org/C121332964","wikidata":"https://www.wikidata.org/wiki/Q413","display_name":"Physics","level":0,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1145/3297280.3297371","is_oa":false,"landing_page_url":"https://doi.org/10.1145/3297280.3297371","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 34th ACM/SIGAPP Symposium on Applied Computing","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[{"display_name":"Peace, Justice and strong institutions","id":"https://metadata.un.org/sdg/16","score":0.49000000953674316}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":17,"referenced_works":["https://openalex.org/W1757796397","https://openalex.org/W1969302761","https://openalex.org/W2064675550","https://openalex.org/W2069143585","https://openalex.org/W2107878631","https://openalex.org/W2145339207","https://openalex.org/W2166302491","https://openalex.org/W2464608064","https://openalex.org/W2604283518","https://openalex.org/W2781238083","https://openalex.org/W2962852262","https://openalex.org/W2962938178","https://openalex.org/W2963000099","https://openalex.org/W2963262099","https://openalex.org/W2964338167","https://openalex.org/W4297665038","https://openalex.org/W4298857966"],"related_works":["https://openalex.org/W2883256816","https://openalex.org/W2171408034","https://openalex.org/W3003320923","https://openalex.org/W2106140982","https://openalex.org/W2152313554","https://openalex.org/W2064303750","https://openalex.org/W4285042611","https://openalex.org/W1509300825","https://openalex.org/W3092582874","https://openalex.org/W2338718585"],"abstract_inverted_index":{"Multi-agent":[0],"systems":[1,74],"need":[2,115],"to":[3,5,29,46,119],"communicate":[4],"coordinate":[6,30],"a":[7,13,20,41,66,87,91,116],"shared":[8],"task.":[9],"We":[10,37,64],"show":[11,39],"that":[12,40,75,112],"recurrent":[14],"neural":[15],"network":[16],"(RNN)":[17],"can":[18,61],"learn":[19,120],"communication":[21,35,78,121],"protocol":[22],"for":[23,72],"coordination,":[24],"even":[25],"if":[26,49],"the":[27,34,58,77,83,95,102,113,134],"actions":[28,123],"lie":[31],"outside":[32],"of":[33,133],"range.":[36],"also":[38],"single":[42],"RNN":[43],"is":[44,51],"unable":[45],"do":[47],"this":[48],"there":[50],"an":[52],"independent":[53],"action":[54,60,84],"sequence":[55],"necessary":[56],"before":[57],"coordinated":[59],"be":[62],"executed.":[63],"propose":[65,94],"hierarchical":[67,88,117],"deep":[68],"reinforcement":[69],"learning":[70],"model":[71,132],"multi-agent":[73],"separates":[76],"and":[79,99,122],"coordination":[80],"task":[81],"from":[82,129],"picking":[85],"through":[86],"policy.":[89],"As":[90],"testbed,":[92],"we":[93,100,110,126],"Dungeon":[96,135],"Lever":[97,136],"Game":[98],"extend":[101],"Differentiable":[103],"Inter-Agent":[104],"Learning":[105],"(DIAL)":[106],"framework":[107],"[3].":[108],"First":[109],"prove":[111],"agents":[114],"policy":[118],"and,":[124],"second,":[125],"present":[127],"results":[128],"our":[130],"successful":[131],"Game.":[137]},"counts_by_year":[{"year":2025,"cited_by_count":3},{"year":2024,"cited_by_count":1},{"year":2020,"cited_by_count":1},{"year":2019,"cited_by_count":1}],"updated_date":"2025-11-06T03:46:38.306776","created_date":"2025-10-10T00:00:00"}