{"id":"https://openalex.org/W2980775160","doi":"https://doi.org/10.1162/neco_a_01234","title":"Every Local Minimum Value Is the Global Minimum Value of Induced Model in Nonconvex Machine Learning","display_name":"Every Local Minimum Value Is the Global Minimum Value of Induced Model in Nonconvex Machine Learning","publication_year":2019,"publication_date":"2019-10-15","ids":{"openalex":"https://openalex.org/W2980775160","doi":"https://doi.org/10.1162/neco_a_01234","mag":"2980775160","pmid":"https://pubmed.ncbi.nlm.nih.gov/31614105"},"language":"en","primary_location":{"id":"doi:10.1162/neco_a_01234","is_oa":true,"landing_page_url":"https://doi.org/10.1162/neco_a_01234","pdf_url":"https://direct.mit.edu/neco/article-pdf/31/12/2293/1865165/neco_a_01234.pdf","source":{"id":"https://openalex.org/S207023548","display_name":"Neural Computation","issn_l":"0899-7667","issn":["0899-7667","1530-888X"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310315718","host_organization_name":"The MIT Press","host_organization_lineage":["https://openalex.org/P4310315718"],"host_organization_lineage_names":["The MIT Press"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Neural Computation","raw_type":"journal-article"},"type":"article","indexed_in":["arxiv","crossref","pubmed"],"open_access":{"is_oa":true,"oa_status":"bronze","oa_url":"https://direct.mit.edu/neco/article-pdf/31/12/2293/1865165/neco_a_01234.pdf","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":null,"display_name":"Kenji Kawaguchi","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Kenji Kawaguchi","raw_affiliation_strings":["MIT, Cambridge, MA 02139, U.S.A"],"affiliations":[{"raw_affiliation_string":"MIT, Cambridge, MA 02139, U.S.A","institution_ids":[]}]},{"author_position":"middle","author":{"id":null,"display_name":"Jiaoyang Huang","orcid":null},"institutions":[{"id":"https://openalex.org/I136199984","display_name":"Harvard University","ror":"https://ror.org/03vek6s52","country_code":"US","type":"education","lineage":["https://openalex.org/I136199984"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Jiaoyang Huang","raw_affiliation_strings":["Harvard University, Cambridge, MA 02138, U.S.A"],"affiliations":[{"raw_affiliation_string":"Harvard University, Cambridge, MA 02138, U.S.A","institution_ids":["https://openalex.org/I136199984"]}]},{"author_position":"last","author":{"id":null,"display_name":"Leslie Pack Kaelbling","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Leslie Pack Kaelbling","raw_affiliation_strings":["MIT, Cambridge, MA 02139, U.S.A"],"affiliations":[{"raw_affiliation_string":"MIT, Cambridge, MA 02139, U.S.A","institution_ids":[]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":3,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.434,"has_fulltext":false,"cited_by_count":9,"citation_normalized_percentile":{"value":0.72535755,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":89,"max":97},"biblio":{"volume":"31","issue":"12","first_page":"2293","last_page":"2323"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11612","display_name":"Stochastic Gradient Optimization Techniques","score":0.9433000087738037,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11612","display_name":"Stochastic Gradient Optimization Techniques","score":0.9433000087738037,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10500","display_name":"Sparse and Compressive Sensing Techniques","score":0.014700000174343586,"subfield":{"id":"https://openalex.org/subfields/2206","display_name":"Computational Mechanics"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10764","display_name":"Privacy-Preserving Technologies in Data","score":0.0044999998062849045,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/artificial-neural-network","display_name":"Artificial neural network","score":0.6606000065803528},{"id":"https://openalex.org/keywords/differentiable-function","display_name":"Differentiable function","score":0.6593999862670898},{"id":"https://openalex.org/keywords/basis","display_name":"Basis (linear algebra)","score":0.6237000226974487},{"id":"https://openalex.org/keywords/mathematical-proof","display_name":"Mathematical proof","score":0.5354999899864197},{"id":"https://openalex.org/keywords/value","display_name":"Value (mathematics)","score":0.5084999799728394},{"id":"https://openalex.org/keywords/residual","display_name":"Residual","score":0.49939998984336853},{"id":"https://openalex.org/keywords/representation","display_name":"Representation (politics)","score":0.48899999260902405},{"id":"https://openalex.org/keywords/regular-polygon","display_name":"Regular polygon","score":0.47760000824928284}],"concepts":[{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.6606000065803528},{"id":"https://openalex.org/C202615002","wikidata":"https://www.wikidata.org/wiki/Q783507","display_name":"Differentiable function","level":2,"score":0.6593999862670898},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6255000233650208},{"id":"https://openalex.org/C12426560","wikidata":"https://www.wikidata.org/wiki/Q189569","display_name":"Basis (linear algebra)","level":2,"score":0.6237000226974487},{"id":"https://openalex.org/C108710211","wikidata":"https://www.wikidata.org/wiki/Q11538","display_name":"Mathematical proof","level":2,"score":0.5354999899864197},{"id":"https://openalex.org/C2776291640","wikidata":"https://www.wikidata.org/wiki/Q2912517","display_name":"Value (mathematics)","level":2,"score":0.5084999799728394},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.5052000284194946},{"id":"https://openalex.org/C155512373","wikidata":"https://www.wikidata.org/wiki/Q287450","display_name":"Residual","level":2,"score":0.49939998984336853},{"id":"https://openalex.org/C2776359362","wikidata":"https://www.wikidata.org/wiki/Q2145286","display_name":"Representation (politics)","level":3,"score":0.48899999260902405},{"id":"https://openalex.org/C112680207","wikidata":"https://www.wikidata.org/wiki/Q714886","display_name":"Regular polygon","level":2,"score":0.47760000824928284},{"id":"https://openalex.org/C108583219","wikidata":"https://www.wikidata.org/wiki/Q197536","display_name":"Deep learning","level":2,"score":0.46239998936653137},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.4339999854564667},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.4056999981403351},{"id":"https://openalex.org/C2984842247","wikidata":"https://www.wikidata.org/wiki/Q197536","display_name":"Deep neural networks","level":3,"score":0.40369999408721924},{"id":"https://openalex.org/C2781249084","wikidata":"https://www.wikidata.org/wiki/Q908656","display_name":"Preference","level":2,"score":0.3677999973297119},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.36719998717308044},{"id":"https://openalex.org/C157972887","wikidata":"https://www.wikidata.org/wiki/Q463359","display_name":"Convex optimization","level":3,"score":0.35179999470710754},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.35040000081062317},{"id":"https://openalex.org/C145446738","wikidata":"https://www.wikidata.org/wiki/Q319913","display_name":"Convex function","level":3,"score":0.32330000400543213},{"id":"https://openalex.org/C155032097","wikidata":"https://www.wikidata.org/wiki/Q798503","display_name":"Backpropagation","level":3,"score":0.3059999942779541},{"id":"https://openalex.org/C164752517","wikidata":"https://www.wikidata.org/wiki/Q5570875","display_name":"Global optimization","level":2,"score":0.28929999470710754},{"id":"https://openalex.org/C5917680","wikidata":"https://www.wikidata.org/wiki/Q2621825","display_name":"Basis function","level":2,"score":0.26159998774528503},{"id":"https://openalex.org/C141934464","wikidata":"https://www.wikidata.org/wiki/Q3305386","display_name":"Local optimum","level":2,"score":0.2554999887943268}],"mesh":[],"locations_count":3,"locations":[{"id":"doi:10.1162/neco_a_01234","is_oa":true,"landing_page_url":"https://doi.org/10.1162/neco_a_01234","pdf_url":"https://direct.mit.edu/neco/article-pdf/31/12/2293/1865165/neco_a_01234.pdf","source":{"id":"https://openalex.org/S207023548","display_name":"Neural Computation","issn_l":"0899-7667","issn":["0899-7667","1530-888X"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310315718","host_organization_name":"The MIT Press","host_organization_lineage":["https://openalex.org/P4310315718"],"host_organization_lineage_names":["The MIT Press"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Neural Computation","raw_type":"journal-article"},{"id":"pmid:31614105","is_oa":false,"landing_page_url":"https://pubmed.ncbi.nlm.nih.gov/31614105","pdf_url":null,"source":{"id":"https://openalex.org/S4306525036","display_name":"PubMed","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I1299303238","host_organization_name":"National Institutes of Health","host_organization_lineage":["https://openalex.org/I1299303238"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Neural computation","raw_type":null},{"id":"pmh:oai:arXiv.org:1904.03673","is_oa":true,"landing_page_url":"http://arxiv.org/abs/1904.03673","pdf_url":"https://arxiv.org/pdf/1904.03673","source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"text"}],"best_oa_location":{"id":"doi:10.1162/neco_a_01234","is_oa":true,"landing_page_url":"https://doi.org/10.1162/neco_a_01234","pdf_url":"https://direct.mit.edu/neco/article-pdf/31/12/2293/1865165/neco_a_01234.pdf","source":{"id":"https://openalex.org/S207023548","display_name":"Neural Computation","issn_l":"0899-7667","issn":["0899-7667","1530-888X"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310315718","host_organization_name":"The MIT Press","host_organization_lineage":["https://openalex.org/P4310315718"],"host_organization_lineage_names":["The MIT Press"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Neural Computation","raw_type":"journal-article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":true,"grobid_xml":true},"content_urls":{"pdf":"https://content.openalex.org/works/W2980775160.pdf","grobid_xml":"https://content.openalex.org/works/W2980775160.grobid-xml"},"referenced_works_count":8,"referenced_works":["https://openalex.org/W196871588","https://openalex.org/W2059300827","https://openalex.org/W2079135578","https://openalex.org/W2900832763","https://openalex.org/W2911153392","https://openalex.org/W2964232029","https://openalex.org/W4240805545","https://openalex.org/W6698183232"],"related_works":[],"abstract_inverted_index":{"For":[0],"nonconvex":[1,31],"optimization":[2],"in":[3,46,56],"machine":[4,32,40,92],"learning,":[5],"this":[6,114],"article":[7,115],"proves":[8],"that":[9],"every":[10],"local":[11,53],"minimum":[12],"achieves":[13],"the":[14,19,49,57,65,69,84,153],"globally":[15],"optimal":[16],"value":[17],"of":[18,48,75,103,110,147,156],"perturbable":[20,70],"gradient":[21,71],"basis":[22,45,67],"model":[23],"at":[24,51],"any":[25,101],"differentiable":[26,52],"point.":[27],"As":[28],"a":[29,43,60,136],"result,":[30],"learning":[33,41,93],"is":[34,62],"theoretically":[35],"as":[36,38,107],"supported":[37],"convex":[39],"with":[42,135],"handcrafted":[44,66],"terms":[47],"loss":[50],"minima,":[54],"except":[55],"case":[58,146],"when":[59],"preference":[61],"given":[63],"to":[64,90,152],"over":[68],"basis.":[72],"The":[73],"proofs":[74],"these":[76],"results":[77,86,122,149],"are":[78,87],"derived":[79],"under":[80],"mild":[81],"assumptions.":[82],"Accordingly,":[83],"proven":[85],"directly":[88],"applicable":[89],"many":[91],"models,":[94],"including":[95],"practical":[96,104],"deep":[97,124,127,132],"neural":[98,125,133],"networks,":[99,126,129],"without":[100],"modification":[102],"methods.":[105],"Furthermore,":[106],"special":[108,145],"cases":[109],"our":[111,148],"general":[112],"results,":[113],"improves":[116],"or":[117],"complements":[118],"several":[119],"state-of-the-art":[120],"theoretical":[121,154],"on":[123],"residual":[128],"and":[130,140],"overparameterized":[131],"networks":[134],"unified":[137],"proof":[138],"technique":[139],"novel":[141],"geometric":[142],"insights.":[143],"A":[144],"also":[150],"contributes":[151],"foundation":[155],"representation":[157],"learning.":[158]},"counts_by_year":[{"year":2025,"cited_by_count":2},{"year":2024,"cited_by_count":3},{"year":2023,"cited_by_count":1},{"year":2021,"cited_by_count":2},{"year":2019,"cited_by_count":1}],"updated_date":"2026-03-20T23:20:44.827607","created_date":"2019-10-25T00:00:00"}