{"id":"https://openalex.org/W3090863380","doi":"https://doi.org/10.1109/icra40945.2020.9196684","title":"Learning Multi-Robot Decentralized Macro-Action-Based Policies via a Centralized Q-Net","display_name":"Learning Multi-Robot Decentralized Macro-Action-Based Policies via a Centralized Q-Net","publication_year":2020,"publication_date":"2020-05-01","ids":{"openalex":"https://openalex.org/W3090863380","doi":"https://doi.org/10.1109/icra40945.2020.9196684","mag":"3090863380"},"language":"en","primary_location":{"id":"doi:10.1109/icra40945.2020.9196684","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icra40945.2020.9196684","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2020 IEEE International Conference on Robotics and Automation (ICRA)","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5101921812","display_name":"Yuchen Xiao","orcid":"https://orcid.org/0009-0006-7438-9639"},"institutions":[{"id":"https://openalex.org/I12912129","display_name":"Northeastern University","ror":"https://ror.org/04t5xt781","country_code":"US","type":"education","lineage":["https://openalex.org/I12912129"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Yuchen Xiao","raw_affiliation_strings":["Khoury College of Computer Sciences, Northeastern University, Boston, MA, USA"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Khoury College of Computer Sciences, Northeastern University, Boston, MA, USA","institution_ids":["https://openalex.org/I12912129"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5059983157","display_name":"Joshua Hoffman","orcid":"https://orcid.org/0000-0003-2823-1866"},"institutions":[{"id":"https://openalex.org/I12912129","display_name":"Northeastern University","ror":"https://ror.org/04t5xt781","country_code":"US","type":"education","lineage":["https://openalex.org/I12912129"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Joshua Hoffman","raw_affiliation_strings":["Khoury College of Computer Sciences, Northeastern University, Boston, MA, USA"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Khoury College of Computer Sciences, Northeastern University, Boston, MA, USA","institution_ids":["https://openalex.org/I12912129"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5101603610","display_name":"Tian Xia","orcid":"https://orcid.org/0009-0001-2527-4257"},"institutions":[{"id":"https://openalex.org/I12912129","display_name":"Northeastern University","ror":"https://ror.org/04t5xt781","country_code":"US","type":"education","lineage":["https://openalex.org/I12912129"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Tian Xia","raw_affiliation_strings":["Khoury College of Computer Sciences, Northeastern University, Boston, MA, USA"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Khoury College of Computer Sciences, Northeastern University, Boston, MA, USA","institution_ids":["https://openalex.org/I12912129"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5033129735","display_name":"Christopher Amato","orcid":"https://orcid.org/0000-0002-6786-7384"},"institutions":[{"id":"https://openalex.org/I12912129","display_name":"Northeastern University","ror":"https://ror.org/04t5xt781","country_code":"US","type":"education","lineage":["https://openalex.org/I12912129"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Christopher Amato","raw_affiliation_strings":["Khoury College of Computer Sciences, Northeastern University, Boston, MA, USA"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Khoury College of Computer Sciences, Northeastern University, Boston, MA, USA","institution_ids":["https://openalex.org/I12912129"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":[],"corresponding_institution_ids":["https://openalex.org/I12912129"],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":27,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"10695","last_page":"10701"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9994999766349792,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9994999766349792,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10586","display_name":"Robotic Path Planning Algorithms","score":0.9898999929428101,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10653","display_name":"Robot Manipulation and Learning","score":0.9789000153541565,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7773230075836182},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7743690013885498},{"id":"https://openalex.org/keywords/action-selection","display_name":"Action selection","score":0.7044848799705505},{"id":"https://openalex.org/keywords/leverage","display_name":"Leverage (statistics)","score":0.689347505569458},{"id":"https://openalex.org/keywords/robot","display_name":"Robot","score":0.6838688850402832},{"id":"https://openalex.org/keywords/decentralised-system","display_name":"Decentralised system","score":0.6697781682014465},{"id":"https://openalex.org/keywords/distributed-computing","display_name":"Distributed computing","score":0.6465347409248352},{"id":"https://openalex.org/keywords/asynchronous-communication","display_name":"Asynchronous communication","score":0.643339991569519},{"id":"https://openalex.org/keywords/q-learning","display_name":"Q-learning","score":0.5284808874130249},{"id":"https://openalex.org/keywords/task","display_name":"Task (project management)","score":0.4647117853164673},{"id":"https://openalex.org/keywords/macro","display_name":"Macro","score":0.44822177290916443},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.44183456897735596},{"id":"https://openalex.org/keywords/control","display_name":"Control (management)","score":0.23482879996299744},{"id":"https://openalex.org/keywords/computer-network","display_name":"Computer network","score":0.21268340945243835},{"id":"https://openalex.org/keywords/engineering","display_name":"Engineering","score":0.12605717778205872}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7773230075836182},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7743690013885498},{"id":"https://openalex.org/C166109690","wikidata":"https://www.wikidata.org/wiki/Q4677422","display_name":"Action selection","level":3,"score":0.7044848799705505},{"id":"https://openalex.org/C153083717","wikidata":"https://www.wikidata.org/wiki/Q6535263","display_name":"Leverage (statistics)","level":2,"score":0.689347505569458},{"id":"https://openalex.org/C90509273","wikidata":"https://www.wikidata.org/wiki/Q11012","display_name":"Robot","level":2,"score":0.6838688850402832},{"id":"https://openalex.org/C205875254","wikidata":"https://www.wikidata.org/wiki/Q17156857","display_name":"Decentralised system","level":3,"score":0.6697781682014465},{"id":"https://openalex.org/C120314980","wikidata":"https://www.wikidata.org/wiki/Q180634","display_name":"Distributed computing","level":1,"score":0.6465347409248352},{"id":"https://openalex.org/C151319957","wikidata":"https://www.wikidata.org/wiki/Q752739","display_name":"Asynchronous communication","level":2,"score":0.643339991569519},{"id":"https://openalex.org/C188116033","wikidata":"https://www.wikidata.org/wiki/Q2664563","display_name":"Q-learning","level":3,"score":0.5284808874130249},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.4647117853164673},{"id":"https://openalex.org/C166955791","wikidata":"https://www.wikidata.org/wiki/Q629579","display_name":"Macro","level":2,"score":0.44822177290916443},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.44183456897735596},{"id":"https://openalex.org/C2775924081","wikidata":"https://www.wikidata.org/wiki/Q55608371","display_name":"Control (management)","level":2,"score":0.23482879996299744},{"id":"https://openalex.org/C31258907","wikidata":"https://www.wikidata.org/wiki/Q1301371","display_name":"Computer network","level":1,"score":0.21268340945243835},{"id":"https://openalex.org/C127413603","wikidata":"https://www.wikidata.org/wiki/Q11023","display_name":"Engineering","level":0,"score":0.12605717778205872},{"id":"https://openalex.org/C201995342","wikidata":"https://www.wikidata.org/wiki/Q682496","display_name":"Systems engineering","level":1,"score":0.0},{"id":"https://openalex.org/C199360897","wikidata":"https://www.wikidata.org/wiki/Q9143","display_name":"Programming language","level":1,"score":0.0},{"id":"https://openalex.org/C26760741","wikidata":"https://www.wikidata.org/wiki/Q160402","display_name":"Perception","level":2,"score":0.0},{"id":"https://openalex.org/C169760540","wikidata":"https://www.wikidata.org/wiki/Q207011","display_name":"Neuroscience","level":1,"score":0.0},{"id":"https://openalex.org/C86803240","wikidata":"https://www.wikidata.org/wiki/Q420","display_name":"Biology","level":0,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/icra40945.2020.9196684","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icra40945.2020.9196684","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2020 IEEE International Conference on Robotics and Automation (ICRA)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":43,"referenced_works":["https://openalex.org/W2064675550","https://openalex.org/W2110762409","https://openalex.org/W2115211925","https://openalex.org/W2121092017","https://openalex.org/W2121863487","https://openalex.org/W2129799459","https://openalex.org/W2145339207","https://openalex.org/W2155968351","https://openalex.org/W2157439141","https://openalex.org/W2294192315","https://openalex.org/W2567614470","https://openalex.org/W2604873668","https://openalex.org/W2617547828","https://openalex.org/W2626637010","https://openalex.org/W2743150096","https://openalex.org/W2743858345","https://openalex.org/W2746553466","https://openalex.org/W2747213132","https://openalex.org/W2901136733","https://openalex.org/W2924816077","https://openalex.org/W2951896791","https://openalex.org/W2962938168","https://openalex.org/W2962938178","https://openalex.org/W2963041255","https://openalex.org/W2963353662","https://openalex.org/W2963407617","https://openalex.org/W3016477472","https://openalex.org/W3093287223","https://openalex.org/W3099587965","https://openalex.org/W4214717370","https://openalex.org/W4295598622","https://openalex.org/W4299802797","https://openalex.org/W6677067356","https://openalex.org/W6677939520","https://openalex.org/W6679300373","https://openalex.org/W6683073854","https://openalex.org/W6697106730","https://openalex.org/W6737849119","https://openalex.org/W6738796088","https://openalex.org/W6739516088","https://openalex.org/W6749304979","https://openalex.org/W6756486208","https://openalex.org/W6775788706"],"related_works":["https://openalex.org/W3037510552","https://openalex.org/W2123899227","https://openalex.org/W2041176007","https://openalex.org/W2138446409","https://openalex.org/W1967222871","https://openalex.org/W2120968583","https://openalex.org/W2899383883","https://openalex.org/W39810663","https://openalex.org/W2387872190","https://openalex.org/W3090863380"],"abstract_inverted_index":{"In":[0,48],"many":[1],"real-world":[2],"multi-robot":[3],"tasks,":[4],"high-quality":[5],"solutions":[6],"often":[7],"require":[8],"a":[9,57,72,122],"team":[10],"of":[11,31,81,106],"robots":[12,120],"to":[13,35,39,93],"perform":[14],"asynchronous":[15],"actions":[16],"under":[17],"decentralized":[18,28,59,69,98],"control.":[19],"Decentralized":[20],"multi-agent":[21,60],"reinforcement":[22],"learning":[23,27,43],"methods":[24,108],"have":[25],"difficulty":[26],"policies":[29],"because":[30],"the":[32,45,103],"environment":[33],"appearing":[34],"be":[36],"non-stationary":[37],"due":[38],"other":[40],"agents":[41],"also":[42,91],"at":[44],"same":[46],"time.":[47],"this":[49,53],"paper,":[50],"we":[51],"address":[52],"challenge":[54],"by":[55,111],"proposing":[56],"macro-action-based":[58],"double":[61],"deep":[62],"recurrent":[63],"Q-net":[64,70,74],"(MacDec-MADDRQN)":[65],"which":[66],"trains":[67],"each":[68],"using":[71],"centralized":[73,96],"for":[75],"action":[76],"selection.":[77],"A":[78],"generalized":[79],"version":[80],"MacDec-MADDRQN":[82],"with":[83],"two":[84],"separate":[85],"training":[86],"environments,":[87],"called":[88],"Parallel-MacDec-MADDRQN,":[89],"is":[90],"presented":[92],"leverage":[94],"either":[95],"or":[97],"exploration.":[99],"The":[100],"advantages":[101],"and":[102,117],"practical":[104],"nature":[105],"our":[107],"are":[109],"demonstrated":[110],"achieving":[112],"near-centralized":[113],"results":[114],"in":[115,127],"simulation":[116],"having":[118],"real":[119],"accomplish":[121],"warehouse":[123],"tool":[124],"delivery":[125],"task":[126],"an":[128],"efficient":[129],"way.":[130]},"counts_by_year":[{"year":2025,"cited_by_count":5},{"year":2023,"cited_by_count":8},{"year":2022,"cited_by_count":7},{"year":2021,"cited_by_count":7}],"updated_date":"2026-07-14T23:27:15.235271","created_date":"2025-10-10T00:00:00"}