{"id":"https://openalex.org/W3155274845","doi":"https://doi.org/10.1017/s0269888921000023","title":"Fully distributed actor-critic architecture for multitask deep reinforcement learning","display_name":"Fully distributed actor-critic architecture for multitask deep reinforcement learning","publication_year":2021,"publication_date":"2021-01-01","ids":{"openalex":"https://openalex.org/W3155274845","doi":"https://doi.org/10.1017/s0269888921000023","mag":"3155274845"},"language":"en","primary_location":{"id":"doi:10.1017/s0269888921000023","is_oa":true,"landing_page_url":"https://doi.org/10.1017/s0269888921000023","pdf_url":"https://www.cambridge.org/core/services/aop-cambridge-core/content/view/39535DB407F9556985B4D6BA9639465C/S0269888921000023a.pdf/div-class-title-fully-distributed-actor-critic-architecture-for-multitask-deep-reinforcement-learning-div.pdf","source":{"id":"https://openalex.org/S137506714","display_name":"The Knowledge Engineering Review","issn_l":"0269-8889","issn":["0269-8889","1469-8005"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310311721","host_organization_name":"Cambridge University Press","host_organization_lineage":["https://openalex.org/P4310311721","https://openalex.org/P4310311702"],"host_organization_lineage_names":["Cambridge University Press","University of Cambridge"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"The Knowledge Engineering Review","raw_type":"journal-article"},"type":"article","indexed_in":["arxiv","crossref"],"open_access":{"is_oa":true,"oa_status":"bronze","oa_url":"https://www.cambridge.org/core/services/aop-cambridge-core/content/view/39535DB407F9556985B4D6BA9639465C/S0269888921000023a.pdf/div-class-title-fully-distributed-actor-critic-architecture-for-multitask-deep-reinforcement-learning-div.pdf","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":null,"display_name":"Sergio Valcarcel Macua","orcid":"https://orcid.org/0000-0003-4551-5625"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Sergio Valcarcel Macua","raw_affiliation_strings":["Secondmind, Cambridge, CB2 1LA, UK e-mails:"],"raw_orcid":"https://orcid.org/0000-0003-4551-5625","affiliations":[{"raw_affiliation_string":"Secondmind, Cambridge, CB2 1LA, UK e-mails:","institution_ids":[]}]},{"author_position":"middle","author":{"id":null,"display_name":"Ian Davies","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Ian Davies","raw_affiliation_strings":["Secondmind, Cambridge, CB2 1LA, UK e-mails:"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Secondmind, Cambridge, CB2 1LA, UK e-mails:","institution_ids":[]}]},{"author_position":"middle","author":{"id":null,"display_name":"Aleksi Tukiainen","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Aleksi Tukiainen","raw_affiliation_strings":["Secondmind, Cambridge, CB2 1LA, UK e-mails:"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Secondmind, Cambridge, CB2 1LA, UK e-mails:","institution_ids":[]}]},{"author_position":"last","author":{"id":null,"display_name":"Enrique Munoz de Cote","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Enrique Munoz de Cote","raw_affiliation_strings":["Secondmind, Cambridge, CB2 1LA, UK e-mails:"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Secondmind, Cambridge, CB2 1LA, UK e-mails:","institution_ids":[]}]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":4,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.3044,"has_fulltext":false,"cited_by_count":2,"citation_normalized_percentile":{"value":0.60239111,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":89,"max":94},"biblio":{"volume":"36","issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T12794","display_name":"Adaptive Dynamic Programming Control","score":0.7727000117301941,"subfield":{"id":"https://openalex.org/subfields/1703","display_name":"Computational Theory and Mathematics"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T12794","display_name":"Adaptive Dynamic Programming Control","score":0.7727000117301941,"subfield":{"id":"https://openalex.org/subfields/1703","display_name":"Computational Theory and Mathematics"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.18320000171661377,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12611","display_name":"Neural Networks and Reservoir Computing","score":0.008200000040233135,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.8208000063896179},{"id":"https://openalex.org/keywords/convergence","display_name":"Convergence (economics)","score":0.6022999882698059},{"id":"https://openalex.org/keywords/set","display_name":"Set (abstract data type)","score":0.5713000297546387},{"id":"https://openalex.org/keywords/artificial-neural-network","display_name":"Artificial neural network","score":0.5187000036239624},{"id":"https://openalex.org/keywords/multi-task-learning","display_name":"Multi-task learning","score":0.4848000109195709},{"id":"https://openalex.org/keywords/point","display_name":"Point (geometry)","score":0.43639999628067017},{"id":"https://openalex.org/keywords/control","display_name":"Control (management)","score":0.43050000071525574},{"id":"https://openalex.org/keywords/policy-learning","display_name":"Policy learning","score":0.38589999079704285},{"id":"https://openalex.org/keywords/q-learning","display_name":"Q-learning","score":0.3617999851703644}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.8208000063896179},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7275000214576721},{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.6022999882698059},{"id":"https://openalex.org/C177264268","wikidata":"https://www.wikidata.org/wiki/Q1514741","display_name":"Set (abstract data type)","level":2,"score":0.5713000297546387},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.5187000036239624},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.4934000074863434},{"id":"https://openalex.org/C28006648","wikidata":"https://www.wikidata.org/wiki/Q6934509","display_name":"Multi-task learning","level":3,"score":0.4848000109195709},{"id":"https://openalex.org/C28719098","wikidata":"https://www.wikidata.org/wiki/Q44946","display_name":"Point (geometry)","level":2,"score":0.43639999628067017},{"id":"https://openalex.org/C2775924081","wikidata":"https://www.wikidata.org/wiki/Q55608371","display_name":"Control (management)","level":2,"score":0.43050000071525574},{"id":"https://openalex.org/C2779436431","wikidata":"https://www.wikidata.org/wiki/Q30672407","display_name":"Policy learning","level":2,"score":0.38589999079704285},{"id":"https://openalex.org/C188116033","wikidata":"https://www.wikidata.org/wiki/Q2664563","display_name":"Q-learning","level":3,"score":0.3617999851703644},{"id":"https://openalex.org/C2779582901","wikidata":"https://www.wikidata.org/wiki/Q21013010","display_name":"Distributed learning","level":2,"score":0.3521000146865845},{"id":"https://openalex.org/C123657996","wikidata":"https://www.wikidata.org/wiki/Q12271","display_name":"Architecture","level":2,"score":0.3382999897003174},{"id":"https://openalex.org/C193415008","wikidata":"https://www.wikidata.org/wiki/Q639681","display_name":"Network architecture","level":2,"score":0.3301999866962433},{"id":"https://openalex.org/C61797465","wikidata":"https://www.wikidata.org/wiki/Q1188986","display_name":"Term (time)","level":2,"score":0.3294999897480011},{"id":"https://openalex.org/C108583219","wikidata":"https://www.wikidata.org/wiki/Q197536","display_name":"Deep learning","level":2,"score":0.31850001215934753},{"id":"https://openalex.org/C120314980","wikidata":"https://www.wikidata.org/wiki/Q180634","display_name":"Distributed computing","level":1,"score":0.31349998712539673},{"id":"https://openalex.org/C41550386","wikidata":"https://www.wikidata.org/wiki/Q529909","display_name":"Multi-agent system","level":2,"score":0.3050000071525574},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.30169999599456787},{"id":"https://openalex.org/C2164484","wikidata":"https://www.wikidata.org/wiki/Q5170150","display_name":"Core (optical fiber)","level":2,"score":0.2937999963760376},{"id":"https://openalex.org/C175154964","wikidata":"https://www.wikidata.org/wiki/Q380077","display_name":"Task analysis","level":3,"score":0.2858000099658966},{"id":"https://openalex.org/C2987015589","wikidata":"https://www.wikidata.org/wiki/Q1040098","display_name":"Learning network","level":2,"score":0.28369998931884766},{"id":"https://openalex.org/C2776291640","wikidata":"https://www.wikidata.org/wiki/Q2912517","display_name":"Value (mathematics)","level":2,"score":0.27559998631477356},{"id":"https://openalex.org/C77967617","wikidata":"https://www.wikidata.org/wiki/Q4677561","display_name":"Active learning (machine learning)","level":2,"score":0.2745000123977661},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.2605000138282776},{"id":"https://openalex.org/C192126672","wikidata":"https://www.wikidata.org/wiki/Q1068715","display_name":"Telecommunications network","level":2,"score":0.25279998779296875}],"mesh":[],"locations_count":2,"locations":[{"id":"doi:10.1017/s0269888921000023","is_oa":true,"landing_page_url":"https://doi.org/10.1017/s0269888921000023","pdf_url":"https://www.cambridge.org/core/services/aop-cambridge-core/content/view/39535DB407F9556985B4D6BA9639465C/S0269888921000023a.pdf/div-class-title-fully-distributed-actor-critic-architecture-for-multitask-deep-reinforcement-learning-div.pdf","source":{"id":"https://openalex.org/S137506714","display_name":"The Knowledge Engineering Review","issn_l":"0269-8889","issn":["0269-8889","1469-8005"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310311721","host_organization_name":"Cambridge University Press","host_organization_lineage":["https://openalex.org/P4310311721","https://openalex.org/P4310311702"],"host_organization_lineage_names":["Cambridge University Press","University of Cambridge"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"The Knowledge Engineering Review","raw_type":"journal-article"},{"id":"pmh:oai:arXiv.org:2110.12306","is_oa":true,"landing_page_url":"http://arxiv.org/abs/2110.12306","pdf_url":"https://arxiv.org/pdf/2110.12306","source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"text"}],"best_oa_location":{"id":"doi:10.1017/s0269888921000023","is_oa":true,"landing_page_url":"https://doi.org/10.1017/s0269888921000023","pdf_url":"https://www.cambridge.org/core/services/aop-cambridge-core/content/view/39535DB407F9556985B4D6BA9639465C/S0269888921000023a.pdf/div-class-title-fully-distributed-actor-critic-architecture-for-multitask-deep-reinforcement-learning-div.pdf","source":{"id":"https://openalex.org/S137506714","display_name":"The Knowledge Engineering Review","issn_l":"0269-8889","issn":["0269-8889","1469-8005"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310311721","host_organization_name":"Cambridge University Press","host_organization_lineage":["https://openalex.org/P4310311721","https://openalex.org/P4310311702"],"host_organization_lineage_names":["Cambridge University Press","University of Cambridge"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"The Knowledge Engineering Review","raw_type":"journal-article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":42,"referenced_works":["https://openalex.org/W1906772730","https://openalex.org/W1918371733","https://openalex.org/W2007208291","https://openalex.org/W2009303086","https://openalex.org/W2044287460","https://openalex.org/W2046376809","https://openalex.org/W2046387702","https://openalex.org/W2071983464","https://openalex.org/W2075268401","https://openalex.org/W2086502731","https://openalex.org/W2094364653","https://openalex.org/W2094387729","https://openalex.org/W2106008664","https://openalex.org/W2108596215","https://openalex.org/W2119717200","https://openalex.org/W2144672231","https://openalex.org/W2155027007","https://openalex.org/W2173248099","https://openalex.org/W2174786457","https://openalex.org/W2184204218","https://openalex.org/W2198225532","https://openalex.org/W2260756217","https://openalex.org/W2399790246","https://openalex.org/W2491319378","https://openalex.org/W2553882142","https://openalex.org/W2605077367","https://openalex.org/W2734712219","https://openalex.org/W2788115019","https://openalex.org/W2898436992","https://openalex.org/W2951923023","https://openalex.org/W2962716894","https://openalex.org/W2963395095","https://openalex.org/W2963755123","https://openalex.org/W2979932837","https://openalex.org/W3044123424","https://openalex.org/W4205987271","https://openalex.org/W6631190155","https://openalex.org/W6653435097","https://openalex.org/W6674600207","https://openalex.org/W6681004912","https://openalex.org/W6682262322","https://openalex.org/W6780559895"],"related_works":[],"abstract_inverted_index":{"Abstract":[0],"We":[1,99,124],"propose":[2],"a":[3,37,45,62,132,158,185],"fully":[4],"distributed":[5],"actor-critic":[6,111],"architecture,":[7],"named":[8],"diffusion-distributed-actor-critic":[9],"Diff-DAC":[10,101,130,180],",":[11],"with":[12,41],"application":[13],"to":[14,30,60,131],"multitask":[15,171],"reinforcement":[16],"learning":[17,21,182],"(MRL).":[18],"During":[19],"the":[20,34,69,79,88,94,110,121,165],"process,":[22],"agents":[23,40],"communicate":[24],"their":[25,31],"value":[26],"and":[27,81,105,183,192],"policy":[28,64,134,156],"parameters":[29],"neighbours,":[32],"diffusing":[33],"information":[35],"across":[36],"network":[38,144],"of":[39,72,90,97,120,129,161,164,173],"no":[42],"need":[43],"for":[44,68,141],"central":[46],"station.":[47],"Each":[48],"agent":[49,85],"can":[50],"only":[51],"access":[52],"data":[53],"from":[54,102],"its":[55],"local":[56],"task,":[57],"but":[58],"aims":[59],"learn":[61],"common":[63,133,155,174],"that":[65,114,138,153,179,188],"performs":[66],"well":[67],"whole":[70],"set":[71],"tasks.":[73],"The":[74],"architecture":[75],"is":[76,116,157],"scalable,":[77],"since":[78],"computational":[80],"communication":[82],"cost":[83],"per":[84],"depends":[86],"on":[87,170],"number":[89,96],"neighbours":[91],"rather":[92],"than":[93,196],"overall":[95],"agents.":[98],"derive":[100],"duality":[103],"theory":[104],"provide":[106],"novel":[107],"insights":[108],"into":[109],"framework,":[112],"showing":[113],"it":[115],"actually":[117],"an":[118,162],"instance":[119],"dual-ascent":[122],"method.":[123],"prove":[125,152],"almost":[126],"sure":[127],"convergence":[128],"under":[135],"general":[136],"assumptions":[137],"hold":[139],"even":[140],"deep":[142],"neural":[143],"approximations.":[145],"For":[146],"more":[147],"restrictive":[148],"assumptions,":[149],"we":[150],"also":[151],"this":[154],"stationary":[159],"point":[160],"approximation":[163],"original":[166],"problem.":[167],"Numerical":[168],"results":[169],"extensions":[172],"continuous":[175],"control":[176],"benchmarks":[177],"demonstrate":[178],"stabilises":[181],"has":[184],"regularising":[186],"effect":[187],"induces":[189],"higher":[190],"performance":[191],"better":[193],"generalisation":[194],"properties":[195],"previous":[197],"architectures.":[198]},"counts_by_year":[{"year":2023,"cited_by_count":1},{"year":2021,"cited_by_count":1}],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2021-04-26T00:00:00"}