{"id":"https://openalex.org/W2963408258","doi":"https://doi.org/10.1145/3212734.3212763","title":"The Convergence of Stochastic Gradient Descent in Asynchronous Shared Memory","display_name":"The Convergence of Stochastic Gradient Descent in Asynchronous Shared Memory","publication_year":2018,"publication_date":"2018-07-23","ids":{"openalex":"https://openalex.org/W2963408258","doi":"https://doi.org/10.1145/3212734.3212763","mag":"2963408258"},"language":"en","primary_location":{"id":"doi:10.1145/3212734.3212763","is_oa":false,"landing_page_url":"https://doi.org/10.1145/3212734.3212763","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 2018 ACM Symposium on Principles of Distributed Computing","raw_type":"proceedings-article"},"type":"preprint","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5083822059","display_name":"Dan Alistarh","orcid":"https://orcid.org/0000-0003-3650-940X"},"institutions":[{"id":"https://openalex.org/I157556583","display_name":"Institute of Science and Technology Austria","ror":"https://ror.org/03gnh5541","country_code":"AT","type":"education","lineage":["https://openalex.org/I157556583"]}],"countries":["AT"],"is_corresponding":false,"raw_author_name":"Dan Alistarh","raw_affiliation_strings":["IST Austria, Klosterneuburg, Austria"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"IST Austria, Klosterneuburg, Austria","institution_ids":["https://openalex.org/I157556583"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5041869459","display_name":"Christopher De","orcid":"https://orcid.org/0000-0002-3610-2696"},"institutions":[{"id":"https://openalex.org/I205783295","display_name":"Cornell University","ror":"https://ror.org/05bnh6r87","country_code":"US","type":"education","lineage":["https://openalex.org/I205783295"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Christopher De Sa","raw_affiliation_strings":["Cornell University, Ithaca, NY, USA"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Cornell University, Ithaca, NY, USA","institution_ids":["https://openalex.org/I205783295"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5088091013","display_name":"Nikola Konstantinov","orcid":"https://orcid.org/0009-0009-5204-7621"},"institutions":[{"id":"https://openalex.org/I157556583","display_name":"Institute of Science and Technology Austria","ror":"https://ror.org/03gnh5541","country_code":"AT","type":"education","lineage":["https://openalex.org/I157556583"]}],"countries":["AT"],"is_corresponding":false,"raw_author_name":"Nikola Konstantinov","raw_affiliation_strings":["IST Austria, Klosterneuburg, Austria"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"IST Austria, Klosterneuburg, Austria","institution_ids":["https://openalex.org/I157556583"]}]}],"institutions":[],"countries_distinct_count":2,"institutions_distinct_count":2,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":4.0949,"has_fulltext":false,"cited_by_count":30,"citation_normalized_percentile":{"value":0.95224252,"is_in_top_1_percent":false,"is_in_top_10_percent":true},"cited_by_percentile_year":{"min":90,"max":99},"biblio":{"volume":null,"issue":null,"first_page":"169","last_page":"178"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11612","display_name":"Stochastic Gradient Optimization Techniques","score":1.0,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11612","display_name":"Stochastic Gradient Optimization Techniques","score":1.0,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10764","display_name":"Privacy-Preserving Technologies in Data","score":0.9994000196456909,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12808","display_name":"Ferroelectric and Negative Capacitance Devices","score":0.9973999857902527,"subfield":{"id":"https://openalex.org/subfields/2208","display_name":"Electrical and Electronic Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/asynchronous-communication","display_name":"Asynchronous communication","score":0.8423252105712891},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7992585897445679},{"id":"https://openalex.org/keywords/stochastic-gradient-descent","display_name":"Stochastic gradient descent","score":0.7415910363197327},{"id":"https://openalex.org/keywords/asynchrony","display_name":"Asynchrony (computer programming)","score":0.7278048396110535},{"id":"https://openalex.org/keywords/convergence","display_name":"Convergence (economics)","score":0.629205584526062},{"id":"https://openalex.org/keywords/gradient-descent","display_name":"Gradient descent","score":0.5235990285873413},{"id":"https://openalex.org/keywords/rate-of-convergence","display_name":"Rate of convergence","score":0.43766719102859497},{"id":"https://openalex.org/keywords/artificial-neural-network","display_name":"Artificial neural network","score":0.3896624445915222},{"id":"https://openalex.org/keywords/algorithm","display_name":"Algorithm","score":0.3454146385192871},{"id":"https://openalex.org/keywords/mathematical-optimization","display_name":"Mathematical optimization","score":0.339643657207489},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.23266559839248657},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.11602261662483215}],"concepts":[{"id":"https://openalex.org/C151319957","wikidata":"https://www.wikidata.org/wiki/Q752739","display_name":"Asynchronous communication","level":2,"score":0.8423252105712891},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7992585897445679},{"id":"https://openalex.org/C206688291","wikidata":"https://www.wikidata.org/wiki/Q7617819","display_name":"Stochastic gradient descent","level":3,"score":0.7415910363197327},{"id":"https://openalex.org/C2779019669","wikidata":"https://www.wikidata.org/wiki/Q25203946","display_name":"Asynchrony (computer programming)","level":3,"score":0.7278048396110535},{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.629205584526062},{"id":"https://openalex.org/C153258448","wikidata":"https://www.wikidata.org/wiki/Q1199743","display_name":"Gradient descent","level":3,"score":0.5235990285873413},{"id":"https://openalex.org/C57869625","wikidata":"https://www.wikidata.org/wiki/Q1783502","display_name":"Rate of convergence","level":3,"score":0.43766719102859497},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.3896624445915222},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.3454146385192871},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.339643657207489},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.23266559839248657},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.11602261662483215},{"id":"https://openalex.org/C162324750","wikidata":"https://www.wikidata.org/wiki/Q8134","display_name":"Economics","level":0,"score":0.0},{"id":"https://openalex.org/C31258907","wikidata":"https://www.wikidata.org/wiki/Q1301371","display_name":"Computer network","level":1,"score":0.0},{"id":"https://openalex.org/C127162648","wikidata":"https://www.wikidata.org/wiki/Q16858953","display_name":"Channel (broadcasting)","level":2,"score":0.0},{"id":"https://openalex.org/C50522688","wikidata":"https://www.wikidata.org/wiki/Q189833","display_name":"Economic growth","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1145/3212734.3212763","is_oa":false,"landing_page_url":"https://doi.org/10.1145/3212734.3212763","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 2018 ACM Symposium on Principles of Distributed Computing","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":31,"referenced_works":["https://openalex.org/W809736386","https://openalex.org/W1498436455","https://openalex.org/W1526359699","https://openalex.org/W1574269637","https://openalex.org/W1603765807","https://openalex.org/W1877037013","https://openalex.org/W1994616650","https://openalex.org/W2079482358","https://openalex.org/W2163605009","https://openalex.org/W2168231600","https://openalex.org/W2169634384","https://openalex.org/W2188647300","https://openalex.org/W2194775991","https://openalex.org/W2246321442","https://openalex.org/W2257979135","https://openalex.org/W2407022425","https://openalex.org/W2490498838","https://openalex.org/W2500565968","https://openalex.org/W2506667019","https://openalex.org/W2547331605","https://openalex.org/W2783257164","https://openalex.org/W2785791552","https://openalex.org/W2952033860","https://openalex.org/W2962950660","https://openalex.org/W2963792515","https://openalex.org/W2963903325","https://openalex.org/W3086373541","https://openalex.org/W4206742934","https://openalex.org/W4251986490","https://openalex.org/W4252654521","https://openalex.org/W6763775535"],"related_works":["https://openalex.org/W2944915449","https://openalex.org/W2102266661","https://openalex.org/W2122229220","https://openalex.org/W4297966918","https://openalex.org/W1541180262","https://openalex.org/W2895097035","https://openalex.org/W4206903459","https://openalex.org/W2754816816","https://openalex.org/W4283028824","https://openalex.org/W4366280654"],"abstract_inverted_index":{"Stochastic":[0],"Gradient":[1],"Descent":[2],"(SGD)":[3],"is":[4],"a":[5,56,104,128,143,160],"fundamental":[6,124,161],"algorithm":[7,45,67,126,187],"in":[8,55,68,96,127,167],"machine":[9,32],"learning,":[10,33],"representing":[11],"the":[12,26,40,47,61,69,97,117,123,155,164,168,171,180],"optimization":[13,136],"backbone":[14],"for":[15,89],"training":[16],"several":[17],"classic":[18,66,98,135],"models,":[19],"from":[20,53],"regression":[21],"to":[22,39],"neural":[23],"networks.":[24],"Given":[25],"recent":[27],"practical":[28],"focus":[29],"on":[30,116],"distributed":[31,57],"significant":[34],"work":[35,190],"has":[36],"been":[37],"dedicated":[38],"convergence":[41,62,87],"properties":[42,63],"of":[43,64,119,146,182],"this":[44,65,78,82,134,186],"under":[46,151,184],"inconsistent":[48],"and":[49,84,113,141,170],"noisy":[50],"updates":[51],"arising":[52],"execution":[54],"environment.":[58],"However,":[59],"surprisingly,":[60],"standard":[70],"shared-memory":[71],"model":[72],"are":[73],"still":[74,189],"not":[75],"well-understood.":[76],"In":[77],"work,":[79],"we":[80,158],"address":[81],"gap,":[83],"provide":[85],"new":[86],"bounds":[88,115],"lock-free":[90],"concurrent":[91,129],"stochastic":[92],"gradient":[93],"descent,":[94],"executing":[95,122],"asynchronous":[99,152],"shared":[100],"memory":[101],"model,":[102],"against":[103],"strong":[105],"adaptive":[106],"adversary.":[107],"Our":[108],"results":[109],"give":[110],"improved":[111],"upper":[112],"lower":[114],"\"price":[118],"asynchrony''":[120],"when":[121],"SGD":[125,175],"setting.":[130],"They":[131],"show":[132],"that":[133],"tool":[137],"can":[138,176,188],"converge":[139],"faster":[140],"with":[142],"wider":[144],"range":[145],"parameters":[147,183],"than":[148],"previously":[149],"known":[150],"iterations.":[153],"At":[154],"same":[156],"time,":[157],"exhibit":[159],"trade-off":[162],"between":[163],"maximum":[165],"delay":[166],"system":[169],"rate":[172],"at":[173],"which":[174,178,185],"converge,":[177],"governs":[179],"set":[181],"efficiently.":[191]},"counts_by_year":[{"year":2023,"cited_by_count":2},{"year":2022,"cited_by_count":3},{"year":2021,"cited_by_count":8},{"year":2020,"cited_by_count":13},{"year":2019,"cited_by_count":3},{"year":2018,"cited_by_count":1}],"updated_date":"2025-11-06T03:46:38.306776","created_date":"2025-10-10T00:00:00"}