{"id":"https://openalex.org/W3205806283","doi":"https://doi.org/10.23919/acc53348.2022.9867146","title":"Provably Efficient Multi-Agent Reinforcement Learning with Fully Decentralized Communication","display_name":"Provably Efficient Multi-Agent Reinforcement Learning with Fully Decentralized Communication","publication_year":2022,"publication_date":"2022-06-08","ids":{"openalex":"https://openalex.org/W3205806283","doi":"https://doi.org/10.23919/acc53348.2022.9867146","mag":"3205806283"},"language":"en","primary_location":{"id":"doi:10.23919/acc53348.2022.9867146","is_oa":false,"landing_page_url":"https://doi.org/10.23919/acc53348.2022.9867146","pdf_url":null,"source":{"id":"https://openalex.org/S4363607732","display_name":"2022 American Control Conference (ACC)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2022 American Control Conference (ACC)","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5060177564","display_name":"Justin Lidard","orcid":"https://orcid.org/0000-0001-8316-1018"},"institutions":[{"id":"https://openalex.org/I20089843","display_name":"Princeton University","ror":"https://ror.org/00hx57361","country_code":"US","type":"education","lineage":["https://openalex.org/I20089843"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Justin Lidard","raw_affiliation_strings":["Princeton University,Department of Mechanical and Aerospace Engineering,Princeton,USA,NJ 08544"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Princeton University,Department of Mechanical and Aerospace Engineering,Princeton,USA,NJ 08544","institution_ids":["https://openalex.org/I20089843"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5012957727","display_name":"Udari Madhushani","orcid":"https://orcid.org/0000-0002-6561-1000"},"institutions":[{"id":"https://openalex.org/I20089843","display_name":"Princeton University","ror":"https://ror.org/00hx57361","country_code":"US","type":"education","lineage":["https://openalex.org/I20089843"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Udari Madhushani","raw_affiliation_strings":["Princeton University,Department of Mechanical and Aerospace Engineering,Princeton,USA,NJ 08544"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Princeton University,Department of Mechanical and Aerospace Engineering,Princeton,USA,NJ 08544","institution_ids":["https://openalex.org/I20089843"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5032304399","display_name":"Naomi Ehrich Leonard","orcid":"https://orcid.org/0000-0002-5328-3871"},"institutions":[{"id":"https://openalex.org/I20089843","display_name":"Princeton University","ror":"https://ror.org/00hx57361","country_code":"US","type":"education","lineage":["https://openalex.org/I20089843"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Naomi Ehrich Leonard","raw_affiliation_strings":["Princeton University,Department of Mechanical and Aerospace Engineering,Princeton,USA,NJ 08544"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Princeton University,Department of Mechanical and Aerospace Engineering,Princeton,USA,NJ 08544","institution_ids":["https://openalex.org/I20089843"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":[],"corresponding_institution_ids":["https://openalex.org/I20089843"],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":3,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"3311","last_page":"3316"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11031","display_name":"Game Theory and Applications","score":0.9976999759674072,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},"topics":[{"id":"https://openalex.org/T11031","display_name":"Game Theory and Applications","score":0.9976999759674072,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},{"id":"https://openalex.org/T12101","display_name":"Advanced Bandit Algorithms Research","score":0.9976000189781189,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9958999752998352,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.8359662294387817},{"id":"https://openalex.org/keywords/regret","display_name":"Regret","score":0.826342761516571},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.774057924747467},{"id":"https://openalex.org/keywords/convergence","display_name":"Convergence (economics)","score":0.5462585687637329},{"id":"https://openalex.org/keywords/distributed-computing","display_name":"Distributed computing","score":0.5251162648200989},{"id":"https://openalex.org/keywords/class","display_name":"Class (philosophy)","score":0.44595152139663696},{"id":"https://openalex.org/keywords/multi-agent-system","display_name":"Multi-agent system","score":0.41476133465766907},{"id":"https://openalex.org/keywords/mathematical-optimization","display_name":"Mathematical optimization","score":0.3268771767616272},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.27878573536872864},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.20218035578727722},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.10704421997070312}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.8359662294387817},{"id":"https://openalex.org/C50817715","wikidata":"https://www.wikidata.org/wiki/Q79895177","display_name":"Regret","level":2,"score":0.826342761516571},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.774057924747467},{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.5462585687637329},{"id":"https://openalex.org/C120314980","wikidata":"https://www.wikidata.org/wiki/Q180634","display_name":"Distributed computing","level":1,"score":0.5251162648200989},{"id":"https://openalex.org/C2777212361","wikidata":"https://www.wikidata.org/wiki/Q5127848","display_name":"Class (philosophy)","level":2,"score":0.44595152139663696},{"id":"https://openalex.org/C41550386","wikidata":"https://www.wikidata.org/wiki/Q529909","display_name":"Multi-agent system","level":2,"score":0.41476133465766907},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.3268771767616272},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.27878573536872864},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.20218035578727722},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.10704421997070312},{"id":"https://openalex.org/C162324750","wikidata":"https://www.wikidata.org/wiki/Q8134","display_name":"Economics","level":0,"score":0.0},{"id":"https://openalex.org/C50522688","wikidata":"https://www.wikidata.org/wiki/Q189833","display_name":"Economic growth","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.23919/acc53348.2022.9867146","is_oa":false,"landing_page_url":"https://doi.org/10.23919/acc53348.2022.9867146","pdf_url":null,"source":{"id":"https://openalex.org/S4363607732","display_name":"2022 American Control Conference (ACC)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2022 American Control Conference (ACC)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":35,"referenced_works":["https://openalex.org/W1918371733","https://openalex.org/W2088956500","https://openalex.org/W2617547828","https://openalex.org/W2788115019","https://openalex.org/W2913326990","https://openalex.org/W2962990479","https://openalex.org/W2963049774","https://openalex.org/W2963582321","https://openalex.org/W3004213034","https://openalex.org/W3020325294","https://openalex.org/W3034971464","https://openalex.org/W3035802247","https://openalex.org/W3037257113","https://openalex.org/W3042871037","https://openalex.org/W3116146552","https://openalex.org/W3118244830","https://openalex.org/W3119097918","https://openalex.org/W3128004107","https://openalex.org/W3143815010","https://openalex.org/W3167041099","https://openalex.org/W3170424010","https://openalex.org/W3207606424","https://openalex.org/W3211624687","https://openalex.org/W4287279898","https://openalex.org/W4287755265","https://openalex.org/W4299802797","https://openalex.org/W6738796088","https://openalex.org/W6749032143","https://openalex.org/W6752725515","https://openalex.org/W6775529125","https://openalex.org/W6776510272","https://openalex.org/W6784152626","https://openalex.org/W6790179192","https://openalex.org/W6793092151","https://openalex.org/W6795539215"],"related_works":["https://openalex.org/W2971351794","https://openalex.org/W4376155396","https://openalex.org/W1947085858","https://openalex.org/W2174986909","https://openalex.org/W2527791220","https://openalex.org/W2101991911","https://openalex.org/W2155070487","https://openalex.org/W4311589891","https://openalex.org/W1925875298","https://openalex.org/W4292701710"],"abstract_inverted_index":{"A":[0],"challenge":[1],"in":[2,20,30,54,59],"reinforcement":[3],"learning":[4,132],"(RL)":[5],"is":[6,34],"minimizing":[7],"the":[8,26,71,110,130,138],"cost":[9],"of":[10,42,112],"sampling":[11,18],"associated":[12],"with":[13],"exploration.":[14],"Distributed":[15],"exploration":[16,33],"reduces":[17],"complexity":[19,105],"multi-agent":[21],"RL":[22],"(MARL).":[23],"We":[24,63,100,119],"investigate":[25],"benefits":[27],"to":[28,92,96,137],"performance":[29],"MARL":[31],"when":[32,81,90],"fully":[35],"decentralized.":[36],"Specifically,":[37],"we":[38],"consider":[39],"a":[40,60,85],"class":[41],"online,":[43],"episodic,":[44],"tabular":[45],"Q-learning":[46],"problems":[47],"under":[48],"time-varying":[49],"reward":[50],"and":[51,103,117,125,146],"transition":[52],"dynamics,":[53],"which":[55],"agents":[56,124],"can":[57,75],"communicate":[58],"decentralized":[61,86],"manner.":[62],"show":[64,120],"that":[65,107,121],"group":[66,131],"performance,":[67],"as":[68],"measured":[69],"by":[70],"bound":[72],"on":[73,109],"regret,":[74],"be":[76],"significantly":[77],"improved":[78],"through":[79],"communication":[80,114],"each":[82],"agent":[83],"uses":[84],"message-passing":[87],"protocol,":[88],"even":[89],"limited":[91],"sending":[93],"information":[94,127],"up":[95,135],"its":[97],"\u03b3-hop":[98],"neighbors.":[99],"prove":[101],"regret":[102],"sample":[104],"bounds":[106],"depend":[108],"number":[111],"agents,":[113],"network":[115],"structure":[116],"\u03b3.":[118],"incorporating":[122],"more":[123,126],"sharing":[128],"into":[129],"scheme":[133],"speeds":[134],"convergence":[136],"optimal":[139],"policy.":[140],"Numerical":[141],"simulations":[142],"illustrate":[143],"our":[144,148],"results":[145],"validate":[147],"theoretical":[149],"claims.":[150]},"counts_by_year":[{"year":2024,"cited_by_count":2},{"year":2023,"cited_by_count":1}],"updated_date":"2026-07-14T23:27:15.235271","created_date":"2025-10-10T00:00:00"}