{"id":"https://openalex.org/W2965794435","doi":"https://doi.org/10.1145/3292500.3330936","title":"ADMM for Efficient Deep Learning with Global Convergence","display_name":"ADMM for Efficient Deep Learning with Global Convergence","publication_year":2019,"publication_date":"2019-07-25","ids":{"openalex":"https://openalex.org/W2965794435","doi":"https://doi.org/10.1145/3292500.3330936","mag":"2965794435"},"language":"en","primary_location":{"id":"doi:10.1145/3292500.3330936","is_oa":false,"landing_page_url":"https://doi.org/10.1145/3292500.3330936","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery &amp; Data Mining","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["arxiv","crossref"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://arxiv.org/pdf/1905.13611","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":null,"display_name":"Junxiang Wang","orcid":null},"institutions":[{"id":"https://openalex.org/I162714631","display_name":"George Mason University","ror":"https://ror.org/02jqj7156","country_code":"US","type":"education","lineage":["https://openalex.org/I162714631"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Junxiang Wang","raw_affiliation_strings":["George Mason University, Fairfax, VA, USA"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"George Mason University, Fairfax, VA, USA","institution_ids":["https://openalex.org/I162714631"]}]},{"author_position":"middle","author":{"id":null,"display_name":"Fuxun Yu","orcid":null},"institutions":[{"id":"https://openalex.org/I162714631","display_name":"George Mason University","ror":"https://ror.org/02jqj7156","country_code":"US","type":"education","lineage":["https://openalex.org/I162714631"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Fuxun Yu","raw_affiliation_strings":["George Mason University, Fairfax, VA, USA"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"George Mason University, Fairfax, VA, USA","institution_ids":["https://openalex.org/I162714631"]}]},{"author_position":"middle","author":{"id":null,"display_name":"Xiang Chen","orcid":null},"institutions":[{"id":"https://openalex.org/I162714631","display_name":"George Mason University","ror":"https://ror.org/02jqj7156","country_code":"US","type":"education","lineage":["https://openalex.org/I162714631"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Xiang Chen","raw_affiliation_strings":["George Mason University, Fairfax, VA, USA"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"George Mason University, Fairfax, VA, USA","institution_ids":["https://openalex.org/I162714631"]}]},{"author_position":"last","author":{"id":null,"display_name":"Liang Zhao","orcid":null},"institutions":[{"id":"https://openalex.org/I162714631","display_name":"George Mason University","ror":"https://ror.org/02jqj7156","country_code":"US","type":"education","lineage":["https://openalex.org/I162714631"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Liang Zhao","raw_affiliation_strings":["George Mason University, Fairfax, VA, USA"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"George Mason University, Fairfax, VA, USA","institution_ids":["https://openalex.org/I162714631"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":[],"corresponding_institution_ids":["https://openalex.org/I162714631"],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":42,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"111","last_page":"119"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10500","display_name":"Sparse and Compressive Sensing Techniques","score":0.9997000098228455,"subfield":{"id":"https://openalex.org/subfields/2206","display_name":"Computational Mechanics"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10500","display_name":"Sparse and Compressive Sensing Techniques","score":0.9997000098228455,"subfield":{"id":"https://openalex.org/subfields/2206","display_name":"Computational Mechanics"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10326","display_name":"Indoor and Outdoor Localization Technologies","score":0.9966999888420105,"subfield":{"id":"https://openalex.org/subfields/2208","display_name":"Electrical and Electronic Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10931","display_name":"Direction-of-Arrival Estimation Techniques","score":0.996399998664856,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/convergence","display_name":"Convergence (economics)","score":0.7213000059127808},{"id":"https://openalex.org/keywords/deep-learning","display_name":"Deep learning","score":0.711899995803833},{"id":"https://openalex.org/keywords/benchmark","display_name":"Benchmark (surveying)","score":0.6421999931335449},{"id":"https://openalex.org/keywords/stochastic-gradient-descent","display_name":"Stochastic gradient descent","score":0.5952000021934509},{"id":"https://openalex.org/keywords/quadratic-equation","display_name":"Quadratic equation","score":0.5842999815940857},{"id":"https://openalex.org/keywords/feature","display_name":"Feature (linguistics)","score":0.5716000199317932},{"id":"https://openalex.org/keywords/artificial-neural-network","display_name":"Artificial neural network","score":0.5126000046730042},{"id":"https://openalex.org/keywords/deep-neural-networks","display_name":"Deep neural networks","score":0.461899995803833}],"concepts":[{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.7213000059127808},{"id":"https://openalex.org/C108583219","wikidata":"https://www.wikidata.org/wiki/Q197536","display_name":"Deep learning","level":2,"score":0.711899995803833},{"id":"https://openalex.org/C185798385","wikidata":"https://www.wikidata.org/wiki/Q1161707","display_name":"Benchmark (surveying)","level":2,"score":0.6421999931335449},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6057000160217285},{"id":"https://openalex.org/C206688291","wikidata":"https://www.wikidata.org/wiki/Q7617819","display_name":"Stochastic gradient descent","level":3,"score":0.5952000021934509},{"id":"https://openalex.org/C129844170","wikidata":"https://www.wikidata.org/wiki/Q41299","display_name":"Quadratic equation","level":2,"score":0.5842999815940857},{"id":"https://openalex.org/C2776401178","wikidata":"https://www.wikidata.org/wiki/Q12050496","display_name":"Feature (linguistics)","level":2,"score":0.5716000199317932},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.535099983215332},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.5126000046730042},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.47350001335144043},{"id":"https://openalex.org/C2984842247","wikidata":"https://www.wikidata.org/wiki/Q197536","display_name":"Deep neural networks","level":3,"score":0.461899995803833},{"id":"https://openalex.org/C153258448","wikidata":"https://www.wikidata.org/wiki/Q1199743","display_name":"Gradient descent","level":3,"score":0.42340001463890076},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.3756999969482422},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.36890000104904175},{"id":"https://openalex.org/C2779227376","wikidata":"https://www.wikidata.org/wiki/Q6505497","display_name":"Layer (electronics)","level":2,"score":0.3465999960899353},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.3073999881744385},{"id":"https://openalex.org/C89109886","wikidata":"https://www.wikidata.org/wiki/Q1535924","display_name":"Trust region","level":3,"score":0.3019999861717224},{"id":"https://openalex.org/C59404180","wikidata":"https://www.wikidata.org/wiki/Q17013334","display_name":"Feature learning","level":2,"score":0.2971000075340271},{"id":"https://openalex.org/C179799912","wikidata":"https://www.wikidata.org/wiki/Q205084","display_name":"Computational complexity theory","level":2,"score":0.296099990606308},{"id":"https://openalex.org/C2776637919","wikidata":"https://www.wikidata.org/wiki/Q624380","display_name":"Descent (aeronautics)","level":2,"score":0.28780001401901245},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.2865000069141388},{"id":"https://openalex.org/C311688","wikidata":"https://www.wikidata.org/wiki/Q2393193","display_name":"Time complexity","level":2,"score":0.2777000069618225},{"id":"https://openalex.org/C159694833","wikidata":"https://www.wikidata.org/wiki/Q2321565","display_name":"Iterative method","level":2,"score":0.26809999346733093},{"id":"https://openalex.org/C81845259","wikidata":"https://www.wikidata.org/wiki/Q290117","display_name":"Quadratic programming","level":2,"score":0.26460000872612},{"id":"https://openalex.org/C164752517","wikidata":"https://www.wikidata.org/wiki/Q5570875","display_name":"Global optimization","level":2,"score":0.263700008392334}],"mesh":[],"locations_count":2,"locations":[{"id":"doi:10.1145/3292500.3330936","is_oa":false,"landing_page_url":"https://doi.org/10.1145/3292500.3330936","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery &amp; Data Mining","raw_type":"proceedings-article"},{"id":"pmh:oai:arXiv.org:1905.13611","is_oa":true,"landing_page_url":"http://arxiv.org/abs/1905.13611","pdf_url":"https://arxiv.org/pdf/1905.13611","source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"text"}],"best_oa_location":{"id":"pmh:oai:arXiv.org:1905.13611","is_oa":true,"landing_page_url":"http://arxiv.org/abs/1905.13611","pdf_url":"https://arxiv.org/pdf/1905.13611","source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"text"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":14,"referenced_works":["https://openalex.org/W104184427","https://openalex.org/W114517082","https://openalex.org/W179875071","https://openalex.org/W1988720110","https://openalex.org/W2100556411","https://openalex.org/W2112796928","https://openalex.org/W2146502635","https://openalex.org/W2163605009","https://openalex.org/W2277973662","https://openalex.org/W2346438296","https://openalex.org/W2903640490","https://openalex.org/W2962853966","https://openalex.org/W2963346039","https://openalex.org/W4292363360"],"related_works":[],"abstract_inverted_index":{"Alternating":[0],"Direction":[1],"Method":[2],"of":[3,46,142,171],"Multipliers":[4],"(ADMM)":[5],"has":[6],"been":[7],"used":[8],"successfully":[9],"in":[10,87,101,116,150],"many":[11],"conventional":[12],"machine":[13],"learning":[14,32,76],"applications":[15],"and":[16,55,93,134],"is":[17,104,110],"considered":[18],"to":[19,24,62,80,114],"be":[20],"a":[21,30,70,121,151],"useful":[22],"alternative":[23],"Stochastic":[25],"Gradient":[26],"Descent":[27],"(SGD)":[28],"as":[29,35],"deep":[31,75,152],"optimizer.":[33],"However,":[34],"an":[36,146],"emerging":[37],"domain,":[38],"several":[39],"challenges":[40,83],"remain,":[41],"including":[42],"1)":[43],"The":[44,85,107],"lack":[45],"global":[47,143],"convergence":[48,52,144],"guarantees,":[49],"2)":[50],"Slow":[51],"towards":[53],"solutions,":[54],"3)":[56],"Cubic":[57],"time":[58,108],"complexity":[59,109],"with":[60],"regard":[61],"feature":[63,118],"dimensions.":[64],"In":[65],"this":[66],"paper,":[67],"we":[68,137],"propose":[69],"novel":[71],"optimization":[72],"framework":[73],"for":[74,125,145],"via":[77,120],"ADMM":[78],"(dlADMM)":[79,149],"address":[81],"these":[82],"simultaneously.":[84],"parameters":[86],"each":[88,102],"layer":[89,103],"are":[90],"updated":[91],"backward":[92],"then":[94],"forward":[95],"so":[96],"that":[97,127,164],"the":[98,139,172],"parameter":[99],"information":[100],"exchanged":[105],"efficiently.":[106],"reduced":[111],"from":[112],"cubic":[113],"quadratic":[115,132],"(latent)":[117],"dimensions":[119],"dedicated":[122],"algorithm":[123,168],"design":[124],"subproblems":[126],"enhances":[128],"them":[129],"utilizing":[130],"iterative":[131],"approximations":[133],"backtracking.":[135],"Finally,":[136],"provide":[138],"first":[140],"proof":[141],"ADMM-based":[147],"method":[148],"neural":[153],"network":[154],"problem":[155],"under":[156],"mild":[157],"conditions.":[158],"Experiments":[159],"on":[160],"benchmark":[161],"datasets":[162],"demonstrated":[163],"our":[165],"proposed":[166],"dlADMM":[167],"outperforms":[169],"most":[170],"comparison":[173],"methods.":[174]},"counts_by_year":[{"year":2026,"cited_by_count":1},{"year":2025,"cited_by_count":4},{"year":2024,"cited_by_count":10},{"year":2023,"cited_by_count":10},{"year":2022,"cited_by_count":4},{"year":2021,"cited_by_count":8},{"year":2020,"cited_by_count":2},{"year":2019,"cited_by_count":3}],"updated_date":"2026-07-14T23:27:15.235271","created_date":"2019-08-13T00:00:00"}