{"id":"https://openalex.org/W4363649062","doi":"https://doi.org/10.1109/ciss56502.2023.10089771","title":"Distributed Policy Gradient with Heterogeneous Computations for Federated Reinforcement Learning","display_name":"Distributed Policy Gradient with Heterogeneous Computations for Federated Reinforcement Learning","publication_year":2023,"publication_date":"2023-03-22","ids":{"openalex":"https://openalex.org/W4363649062","doi":"https://doi.org/10.1109/ciss56502.2023.10089771"},"language":"en","primary_location":{"id":"doi:10.1109/ciss56502.2023.10089771","is_oa":false,"landing_page_url":"https://doi.org/10.1109/ciss56502.2023.10089771","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2023 57th Annual Conference on Information Sciences and Systems (CISS)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5100620052","display_name":"Ye Zhu","orcid":"https://orcid.org/0000-0001-8609-0171"},"institutions":[{"id":"https://openalex.org/I82497590","display_name":"Auburn University","ror":"https://ror.org/02v80fc35","country_code":"US","type":"education","lineage":["https://openalex.org/I82497590"]}],"countries":["US"],"is_corresponding":true,"raw_author_name":"Ye Zhu","raw_affiliation_strings":["Auburn University,Department of Electrical and Computer Engineering,Auburn,USA","Department of Electrical and Computer Engineering, Auburn University, Auburn, USA"],"affiliations":[{"raw_affiliation_string":"Auburn University,Department of Electrical and Computer Engineering,Auburn,USA","institution_ids":["https://openalex.org/I82497590"]},{"raw_affiliation_string":"Department of Electrical and Computer Engineering, Auburn University, Auburn, USA","institution_ids":["https://openalex.org/I82497590"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5042081570","display_name":"Xiaowen Gong","orcid":"https://orcid.org/0000-0001-5124-7941"},"institutions":[{"id":"https://openalex.org/I82497590","display_name":"Auburn University","ror":"https://ror.org/02v80fc35","country_code":"US","type":"education","lineage":["https://openalex.org/I82497590"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Xiaowen Gong","raw_affiliation_strings":["Auburn University,Department of Electrical and Computer Engineering,Auburn,USA","Department of Electrical and Computer Engineering, Auburn University, Auburn, USA"],"affiliations":[{"raw_affiliation_string":"Auburn University,Department of Electrical and Computer Engineering,Auburn,USA","institution_ids":["https://openalex.org/I82497590"]},{"raw_affiliation_string":"Department of Electrical and Computer Engineering, Auburn University, Auburn, USA","institution_ids":["https://openalex.org/I82497590"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":["https://openalex.org/A5100620052"],"corresponding_institution_ids":["https://openalex.org/I82497590"],"apc_list":null,"apc_paid":null,"fwci":0.5237,"has_fulltext":false,"cited_by_count":3,"citation_normalized_percentile":{"value":0.69476762,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":90,"max":96},"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"6"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9998000264167786,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9998000264167786,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12794","display_name":"Adaptive Dynamic Programming Control","score":0.9857000112533569,"subfield":{"id":"https://openalex.org/subfields/1703","display_name":"Computational Theory and Mathematics"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10249","display_name":"Distributed Control Multi-Agent Systems","score":0.9520999789237976,"subfield":{"id":"https://openalex.org/subfields/1705","display_name":"Computer Networks and Communications"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.8365224599838257},{"id":"https://openalex.org/keywords/benchmark","display_name":"Benchmark (surveying)","score":0.7738730311393738},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7445990443229675},{"id":"https://openalex.org/keywords/convergence","display_name":"Convergence (economics)","score":0.6070293188095093},{"id":"https://openalex.org/keywords/computation","display_name":"Computation","score":0.6000519394874573},{"id":"https://openalex.org/keywords/variance","display_name":"Variance (accounting)","score":0.531543493270874},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.4816116690635681},{"id":"https://openalex.org/keywords/variance-reduction","display_name":"Variance reduction","score":0.45974522829055786},{"id":"https://openalex.org/keywords/state","display_name":"State (computer science)","score":0.4457184970378876},{"id":"https://openalex.org/keywords/reduction","display_name":"Reduction (mathematics)","score":0.44336599111557007},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.4259932339191437},{"id":"https://openalex.org/keywords/theoretical-computer-science","display_name":"Theoretical computer science","score":0.339751660823822},{"id":"https://openalex.org/keywords/algorithm","display_name":"Algorithm","score":0.330379843711853},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.17439600825309753}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.8365224599838257},{"id":"https://openalex.org/C185798385","wikidata":"https://www.wikidata.org/wiki/Q1161707","display_name":"Benchmark (surveying)","level":2,"score":0.7738730311393738},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7445990443229675},{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.6070293188095093},{"id":"https://openalex.org/C45374587","wikidata":"https://www.wikidata.org/wiki/Q12525525","display_name":"Computation","level":2,"score":0.6000519394874573},{"id":"https://openalex.org/C196083921","wikidata":"https://www.wikidata.org/wiki/Q7915758","display_name":"Variance (accounting)","level":2,"score":0.531543493270874},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.4816116690635681},{"id":"https://openalex.org/C62644790","wikidata":"https://www.wikidata.org/wiki/Q3454689","display_name":"Variance reduction","level":3,"score":0.45974522829055786},{"id":"https://openalex.org/C48103436","wikidata":"https://www.wikidata.org/wiki/Q599031","display_name":"State (computer science)","level":2,"score":0.4457184970378876},{"id":"https://openalex.org/C111335779","wikidata":"https://www.wikidata.org/wiki/Q3454686","display_name":"Reduction (mathematics)","level":2,"score":0.44336599111557007},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.4259932339191437},{"id":"https://openalex.org/C80444323","wikidata":"https://www.wikidata.org/wiki/Q2878974","display_name":"Theoretical computer science","level":1,"score":0.339751660823822},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.330379843711853},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.17439600825309753},{"id":"https://openalex.org/C50522688","wikidata":"https://www.wikidata.org/wiki/Q189833","display_name":"Economic growth","level":1,"score":0.0},{"id":"https://openalex.org/C162324750","wikidata":"https://www.wikidata.org/wiki/Q8134","display_name":"Economics","level":0,"score":0.0},{"id":"https://openalex.org/C144133560","wikidata":"https://www.wikidata.org/wiki/Q4830453","display_name":"Business","level":0,"score":0.0},{"id":"https://openalex.org/C205649164","wikidata":"https://www.wikidata.org/wiki/Q1071","display_name":"Geography","level":0,"score":0.0},{"id":"https://openalex.org/C121955636","wikidata":"https://www.wikidata.org/wiki/Q4116214","display_name":"Accounting","level":1,"score":0.0},{"id":"https://openalex.org/C2524010","wikidata":"https://www.wikidata.org/wiki/Q8087","display_name":"Geometry","level":1,"score":0.0},{"id":"https://openalex.org/C13280743","wikidata":"https://www.wikidata.org/wiki/Q131089","display_name":"Geodesy","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/ciss56502.2023.10089771","is_oa":false,"landing_page_url":"https://doi.org/10.1109/ciss56502.2023.10089771","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2023 57th Annual Conference on Information Sciences and Systems (CISS)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[{"display_name":"Peace, Justice and strong institutions","score":0.800000011920929,"id":"https://metadata.un.org/sdg/16"}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":29,"referenced_works":["https://openalex.org/W107583932","https://openalex.org/W778657980","https://openalex.org/W1517383877","https://openalex.org/W1658008008","https://openalex.org/W2119717200","https://openalex.org/W2144446635","https://openalex.org/W2152083440","https://openalex.org/W2735995851","https://openalex.org/W2964410826","https://openalex.org/W2979766322","https://openalex.org/W3121342653","https://openalex.org/W3163894240","https://openalex.org/W3176552354","https://openalex.org/W3184422722","https://openalex.org/W3205598877","https://openalex.org/W4286893825","https://openalex.org/W4292084264","https://openalex.org/W6622473587","https://openalex.org/W6692846177","https://openalex.org/W6740879895","https://openalex.org/W6749032143","https://openalex.org/W6751972096","https://openalex.org/W6762819967","https://openalex.org/W6773520829","https://openalex.org/W6778995641","https://openalex.org/W6802536806","https://openalex.org/W6802550813","https://openalex.org/W6810897048","https://openalex.org/W6840065948"],"related_works":["https://openalex.org/W2380964641","https://openalex.org/W2169816622","https://openalex.org/W3031816500","https://openalex.org/W2298254442","https://openalex.org/W1997242758","https://openalex.org/W2169367269","https://openalex.org/W1977112355","https://openalex.org/W2361828096","https://openalex.org/W2900543860","https://openalex.org/W3034780828"],"abstract_inverted_index":{"The":[0,151,195],"rapid":[1],"advances":[2],"in":[3,7],"federated":[4,15],"learning":[5,17,22,118,128,168],"(FL)":[6],"the":[8,68,117,145,155,167,184,190],"past":[9],"few":[10],"years":[11],"have":[12,73],"recently":[13],"inspired":[14],"reinforcement":[16,21],"(FRL),":[18],"where":[19,49,88],"multiple":[20],"(RL)":[23],"agents":[24,50,71,89],"collaboratively":[25],"learn":[26],"a":[27,45,79,127],"common":[28],"decision-making":[29],"policy":[30,176],"without":[31],"exchanging":[32],"their":[33,38,108],"raw":[34],"interaction":[35],"data":[36,95],"with":[37,52,55,131],"environments.":[39],"In":[40],"this":[41,193],"paper,":[42],"we":[43,77],"consider":[44],"general":[46],"FRL":[47],"framework":[48],"interact":[51],"different":[53,62,92,101],"environments":[54],"identical":[56],"state":[57],"and":[58,64,100,161,188],"action":[59],"spaces":[60],"but":[61],"rewards":[63],"dynamics.":[65],"Motivated":[66],"by":[67],"fact":[69],"that":[70,124],"often":[72],"heterogeneous":[74,175],"computation":[75,105],"capabilities,":[76],"propose":[78],"Federated":[80],"Heterogeneous":[81],"Policy":[82],"Gradient":[83],"(FedHPG)":[84],"algorithm":[85,181],"for":[86,107,116,164,201],"FRL,":[87],"can":[90],"use":[91],"numbers":[93,102,160],"of":[94,103,120,134,147,157,192],"trajectories":[96],"(i.e.,":[97],"batch":[98,162],"sizes)":[99],"local":[104,158],"iterations":[106],"respective":[109],"PG":[110],"algorithms.":[111,150],"We":[112,170],"characterize":[113],"performance":[114,146],"bounds":[115],"accuracy":[119,129],"FedHPG,":[121],"which":[122,143],"shows":[123],"it":[125],"achieves":[126],"\u220a":[130],"sample":[132],"complexity":[133],"<tex":[135],"xmlns:mml=\"http://www.w3.org/1998/Math/MathML\"":[136,140],"xmlns:xlink=\"http://www.w3.org/1999/xlink\">$O$</tex>":[137],"(1/\u220a":[138],"<sup":[139],"xmlns:xlink=\"http://www.w3.org/1999/xlink\">2</sup>":[141],"),":[142],"matches":[144],"existing":[148],"RL":[149,203],"results":[152,197],"also":[153,171],"show":[154],"impacts":[156],"iteration":[159,165],"sizes":[163],"on":[166,183],"accuracy.":[169],"extend":[172],"FedHPG":[173],"to":[174],"gradient":[177],"variance":[178,185],"reduction":[179,186],"(FedHPGVR)":[180],"based":[182],"method,":[187],"analyze":[189],"convergence":[191],"algorithm.":[194],"theoretical":[196],"are":[198],"verified":[199],"empirically":[200],"benchmark":[202],"tasks.":[204]},"counts_by_year":[{"year":2025,"cited_by_count":2},{"year":2024,"cited_by_count":1}],"updated_date":"2025-11-06T03:46:38.306776","created_date":"2025-10-10T00:00:00"}