{"id":"https://openalex.org/W7138048245","doi":"https://doi.org/10.48550/arxiv.2603.15144","title":"Accelerating Byzantine-Robust Distributed Learning with Compressed Communication via Double Momentum and Variance Reduction","display_name":"Accelerating Byzantine-Robust Distributed Learning with Compressed Communication via Double Momentum and Variance Reduction","publication_year":2026,"publication_date":"2026-03-16","ids":{"openalex":"https://openalex.org/W7138048245","doi":"https://doi.org/10.48550/arxiv.2603.15144"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2603.15144","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.15144","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2603.15144","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5129711829","display_name":"Yanghao Li","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Li, Yanghao","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5101594202","display_name":"Changxin Liu","orcid":"https://orcid.org/0000-0002-0819-5303"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Liu, Changxin","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5129709271","display_name":"Yuhao Yi","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Yi, Yuhao","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":3,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11612","display_name":"Stochastic Gradient Optimization Techniques","score":0.8192999958992004,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11612","display_name":"Stochastic Gradient Optimization Techniques","score":0.8192999958992004,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10764","display_name":"Privacy-Preserving Technologies in Data","score":0.1581999957561493,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10249","display_name":"Distributed Control Multi-Agent Systems","score":0.00279999990016222,"subfield":{"id":"https://openalex.org/subfields/1705","display_name":"Computer Networks and Communications"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/variance-reduction","display_name":"Variance reduction","score":0.7443000078201294},{"id":"https://openalex.org/keywords/robustness","display_name":"Robustness (evolution)","score":0.6295999884605408},{"id":"https://openalex.org/keywords/distributed-learning","display_name":"Distributed learning","score":0.5978999733924866},{"id":"https://openalex.org/keywords/estimator","display_name":"Estimator","score":0.5536999702453613},{"id":"https://openalex.org/keywords/distributed-algorithm","display_name":"Distributed algorithm","score":0.4945000112056732},{"id":"https://openalex.org/keywords/variance","display_name":"Variance (accounting)","score":0.4790000021457672},{"id":"https://openalex.org/keywords/reduction","display_name":"Reduction (mathematics)","score":0.40139999985694885},{"id":"https://openalex.org/keywords/key","display_name":"Key (lock)","score":0.36390000581741333}],"concepts":[{"id":"https://openalex.org/C62644790","wikidata":"https://www.wikidata.org/wiki/Q3454689","display_name":"Variance reduction","level":3,"score":0.7443000078201294},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6394000053405762},{"id":"https://openalex.org/C63479239","wikidata":"https://www.wikidata.org/wiki/Q7353546","display_name":"Robustness (evolution)","level":3,"score":0.6295999884605408},{"id":"https://openalex.org/C2779582901","wikidata":"https://www.wikidata.org/wiki/Q21013010","display_name":"Distributed learning","level":2,"score":0.5978999733924866},{"id":"https://openalex.org/C185429906","wikidata":"https://www.wikidata.org/wiki/Q1130160","display_name":"Estimator","level":2,"score":0.5536999702453613},{"id":"https://openalex.org/C130120984","wikidata":"https://www.wikidata.org/wiki/Q2835898","display_name":"Distributed algorithm","level":2,"score":0.4945000112056732},{"id":"https://openalex.org/C196083921","wikidata":"https://www.wikidata.org/wiki/Q7915758","display_name":"Variance (accounting)","level":2,"score":0.4790000021457672},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.4627000093460083},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.41999998688697815},{"id":"https://openalex.org/C111335779","wikidata":"https://www.wikidata.org/wiki/Q3454686","display_name":"Reduction (mathematics)","level":2,"score":0.40139999985694885},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.36390000581741333},{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.36059999465942383},{"id":"https://openalex.org/C124851039","wikidata":"https://www.wikidata.org/wiki/Q2665459","display_name":"Compressed sensing","level":2,"score":0.3237999975681305},{"id":"https://openalex.org/C158968445","wikidata":"https://www.wikidata.org/wiki/Q7631150","display_name":"Subgradient method","level":2,"score":0.3142000138759613},{"id":"https://openalex.org/C57869625","wikidata":"https://www.wikidata.org/wiki/Q1783502","display_name":"Rate of convergence","level":3,"score":0.3133000135421753},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.3061000108718872},{"id":"https://openalex.org/C48044578","wikidata":"https://www.wikidata.org/wiki/Q727490","display_name":"Scalability","level":2,"score":0.30570000410079956},{"id":"https://openalex.org/C206688291","wikidata":"https://www.wikidata.org/wiki/Q7617819","display_name":"Stochastic gradient descent","level":3,"score":0.3003999888896942},{"id":"https://openalex.org/C55479107","wikidata":"https://www.wikidata.org/wiki/Q97663916","display_name":"Stochastic approximation","level":3,"score":0.29420000314712524},{"id":"https://openalex.org/C120314980","wikidata":"https://www.wikidata.org/wiki/Q180634","display_name":"Distributed computing","level":1,"score":0.28929999470710754},{"id":"https://openalex.org/C62611344","wikidata":"https://www.wikidata.org/wiki/Q1062658","display_name":"Node (physics)","level":2,"score":0.2865000069141388},{"id":"https://openalex.org/C122123141","wikidata":"https://www.wikidata.org/wiki/Q176623","display_name":"Random variable","level":2,"score":0.27230000495910645},{"id":"https://openalex.org/C106516650","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm design","level":2,"score":0.26030001044273376},{"id":"https://openalex.org/C80444323","wikidata":"https://www.wikidata.org/wiki/Q2878974","display_name":"Theoretical computer science","level":1,"score":0.2549000084400177}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2603.15144","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.15144","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2603.15144","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.15144","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[{"display_name":"Industry, innovation and infrastructure","score":0.6426786780357361,"id":"https://metadata.un.org/sdg/9"}],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"In":[0,36],"collaborative":[1],"and":[2,45,78,106],"distributed":[3,15,48,121],"learning,":[4],"Byzantine":[5,93],"robustness":[6,91],"reflects":[7],"a":[8,22,42,55,61,102,120],"major":[9],"facet":[10],"of":[11,25,174],"optimization":[12],"algorithms.":[13],"Such":[14],"algorithms":[16,80],"are":[17],"often":[18],"accompanied":[19],"by":[20],"transmitting":[21],"large":[23,86],"number":[24],"parameters,":[26],"so":[27],"communication":[28],"compression":[29],"is":[30,54],"essential":[31],"for":[32,85],"an":[33],"effective":[34],"solution.":[35],"this":[37,72],"paper,":[38],"we":[39,74,118,154],"propose":[40],"Byz-DM21,":[41],"novel":[43,56],"Byzantine-robust":[44],"communication-efficient":[46],"stochastic":[47],"learning":[49],"algorithm.":[50],"Our":[51],"key":[52],"innovation":[53],"gradient":[57],"estimator":[58],"based":[59],"on":[60],"double-momentum":[62],"mechanism,":[63],"integrating":[64],"recent":[65],"advancements":[66],"in":[67,111,149],"error":[68],"feedback":[69],"techniques.":[70],"Using":[71],"estimator,":[73],"design":[75],"both":[76],"standard":[77],"accelerated":[79],"that":[81,97,142],"eliminate":[82,135],"the":[83,98,159,162,165,172,175],"need":[84],"batch":[87],"sizes":[88],"while":[89],"maintaining":[90],"against":[92],"workers.":[94],"We":[95,140],"prove":[96],"Byz-DM21":[99],"algorithm":[100],"has":[101],"smaller":[103],"neighborhood":[104],"size":[105],"converges":[107,145],"to":[108,133,146,158],"$\\varepsilon$-stationary":[109,147],"points":[110,148],"$\\mathcal{O}(\\varepsilon^{-4})$":[112],"iterations.":[113,152],"To":[114],"further":[115],"enhance":[116],"efficiency,":[117],"introduce":[119],"variant":[122],"called":[123],"Byz-VR-DM21,":[124],"which":[125],"incorporates":[126],"local":[127],"variance":[128,136],"reduction":[129],"at":[130],"each":[131],"node":[132],"progressively":[134],"from":[137],"random":[138],"approximations.":[139],"show":[141],"Byz-VR-DM21":[143],"provably":[144],"$\\mathcal{O}(\\varepsilon^{-3":[150],"})$":[151],"Additionally,":[153],"extend":[155],"our":[156],"results":[157],"case":[160],"where":[161],"functions":[163],"satisfy":[164],"Polyak-\u0141ojasiewicz":[166],"condition.":[167],"Finally,":[168],"numerical":[169],"experiments":[170],"demonstrate":[171],"effectiveness":[173],"proposed":[176],"method.":[177]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2026-03-18T00:00:00"}