{"id":"https://openalex.org/W6910207772","doi":"https://doi.org/10.3929/ethz-b-000602160","title":"The curse of dimensionality and gradient-based training of neural networks: shrinking the gap between theory and applications","display_name":"The curse of dimensionality and gradient-based training of neural networks: shrinking the gap between theory and applications","publication_year":2023,"publication_date":"2023-01-01","ids":{"openalex":"https://openalex.org/W6910207772","doi":"https://doi.org/10.3929/ethz-b-000602160"},"language":"en","primary_location":{"id":"pmh:oai:www.research-collection.ethz.ch:20.500.11850/602160","is_oa":false,"landing_page_url":"http://hdl.handle.net/20.500.11850/602160","pdf_url":null,"source":{"id":"https://openalex.org/S4306402302","display_name":"Repository for Publications and Research Data (ETH Zurich)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I35440088","host_organization_name":"ETH Zurich","host_organization_lineage":["https://openalex.org/I35440088"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"info:eu-repo/semantics/doctoralThesis"},"type":"article","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.3929/ethz-b-000602160","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":null,"display_name":"Rossmannek, Florian","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Rossmannek, Florian","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":1,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.2844788,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":true,"primary_topic":{"id":"https://openalex.org/T11612","display_name":"Stochastic Gradient Optimization Techniques","score":0.9294000267982483,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11612","display_name":"Stochastic Gradient Optimization Techniques","score":0.9294000267982483,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10320","display_name":"Neural Networks and Applications","score":0.012799999676644802,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11206","display_name":"Model Reduction and Neural Networks","score":0.006899999920278788,"subfield":{"id":"https://openalex.org/subfields/3109","display_name":"Statistical and Nonlinear Physics"},"field":{"id":"https://openalex.org/fields/31","display_name":"Physics and Astronomy"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/curse-of-dimensionality","display_name":"Curse of dimensionality","score":0.840399980545044},{"id":"https://openalex.org/keywords/artificial-neural-network","display_name":"Artificial neural network","score":0.795799970626831},{"id":"https://openalex.org/keywords/generalization","display_name":"Generalization","score":0.6290000081062317},{"id":"https://openalex.org/keywords/function-approximation","display_name":"Function approximation","score":0.46650001406669617},{"id":"https://openalex.org/keywords/nonlinear-system","display_name":"Nonlinear system","score":0.42489999532699585},{"id":"https://openalex.org/keywords/stochastic-neural-network","display_name":"Stochastic neural network","score":0.37310001254081726},{"id":"https://openalex.org/keywords/types-of-artificial-neural-networks","display_name":"Types of artificial neural networks","score":0.367900013923645},{"id":"https://openalex.org/keywords/task","display_name":"Task (project management)","score":0.3668999969959259},{"id":"https://openalex.org/keywords/deep-learning","display_name":"Deep learning","score":0.35690000653266907}],"concepts":[{"id":"https://openalex.org/C111030470","wikidata":"https://www.wikidata.org/wiki/Q1430460","display_name":"Curse of dimensionality","level":2,"score":0.840399980545044},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.795799970626831},{"id":"https://openalex.org/C177148314","wikidata":"https://www.wikidata.org/wiki/Q170084","display_name":"Generalization","level":2,"score":0.6290000081062317},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.5920000076293945},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5874999761581421},{"id":"https://openalex.org/C91873725","wikidata":"https://www.wikidata.org/wiki/Q3445816","display_name":"Function approximation","level":3,"score":0.46650001406669617},{"id":"https://openalex.org/C158622935","wikidata":"https://www.wikidata.org/wiki/Q660848","display_name":"Nonlinear system","level":2,"score":0.42489999532699585},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.42340001463890076},{"id":"https://openalex.org/C86582703","wikidata":"https://www.wikidata.org/wiki/Q7617824","display_name":"Stochastic neural network","level":4,"score":0.37310001254081726},{"id":"https://openalex.org/C177973122","wikidata":"https://www.wikidata.org/wiki/Q7860946","display_name":"Types of artificial neural networks","level":4,"score":0.367900013923645},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.3668999969959259},{"id":"https://openalex.org/C108583219","wikidata":"https://www.wikidata.org/wiki/Q197536","display_name":"Deep learning","level":2,"score":0.35690000653266907},{"id":"https://openalex.org/C2780273121","wikidata":"https://www.wikidata.org/wiki/Q109411","display_name":"Curse","level":2,"score":0.351500004529953},{"id":"https://openalex.org/C38365724","wikidata":"https://www.wikidata.org/wiki/Q4677469","display_name":"Activation function","level":3,"score":0.34139999747276306},{"id":"https://openalex.org/C155032097","wikidata":"https://www.wikidata.org/wiki/Q798503","display_name":"Backpropagation","level":3,"score":0.33340001106262207},{"id":"https://openalex.org/C47702885","wikidata":"https://www.wikidata.org/wiki/Q5441227","display_name":"Feedforward neural network","level":3,"score":0.33239999413490295},{"id":"https://openalex.org/C33676613","wikidata":"https://www.wikidata.org/wiki/Q13415176","display_name":"Dimension (graph theory)","level":2,"score":0.3215999901294708},{"id":"https://openalex.org/C14036430","wikidata":"https://www.wikidata.org/wiki/Q3736076","display_name":"Function (biology)","level":2,"score":0.31150001287460327},{"id":"https://openalex.org/C2984842247","wikidata":"https://www.wikidata.org/wiki/Q197536","display_name":"Deep neural networks","level":3,"score":0.30720001459121704},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.298799991607666},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.2957000136375427},{"id":"https://openalex.org/C51632099","wikidata":"https://www.wikidata.org/wiki/Q3985153","display_name":"Training set","level":2,"score":0.27320000529289246},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.26980000734329224},{"id":"https://openalex.org/C175202392","wikidata":"https://www.wikidata.org/wiki/Q2434543","display_name":"Time delay neural network","level":3,"score":0.2621999979019165},{"id":"https://openalex.org/C147168706","wikidata":"https://www.wikidata.org/wiki/Q1457734","display_name":"Recurrent neural network","level":3,"score":0.259799987077713},{"id":"https://openalex.org/C2777211547","wikidata":"https://www.wikidata.org/wiki/Q17141490","display_name":"Training (meteorology)","level":2,"score":0.25679999589920044},{"id":"https://openalex.org/C2780876879","wikidata":"https://www.wikidata.org/wiki/Q3054749","display_name":"Meaning (existential)","level":2,"score":0.2558000087738037}],"mesh":[],"locations_count":2,"locations":[{"id":"pmh:oai:www.research-collection.ethz.ch:20.500.11850/602160","is_oa":false,"landing_page_url":"http://hdl.handle.net/20.500.11850/602160","pdf_url":null,"source":{"id":"https://openalex.org/S4306402302","display_name":"Repository for Publications and Research Data (ETH Zurich)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I35440088","host_organization_name":"ETH Zurich","host_organization_lineage":["https://openalex.org/I35440088"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"info:eu-repo/semantics/doctoralThesis"},{"id":"doi:10.3929/ethz-b-000602160","is_oa":true,"landing_page_url":"https://doi.org/10.3929/ethz-b-000602160","pdf_url":null,"source":{"id":"https://openalex.org/S7407051236","display_name":"ETH Z\u00fcrich Research Collection","issn_l":null,"issn":[],"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"thesis"}],"best_oa_location":{"id":"doi:10.3929/ethz-b-000602160","is_oa":true,"landing_page_url":"https://doi.org/10.3929/ethz-b-000602160","pdf_url":null,"source":{"id":"https://openalex.org/S7407051236","display_name":"ETH Z\u00fcrich Research Collection","issn_l":null,"issn":[],"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"thesis"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Neural":[0],"networks":[1,24,39,78,98,154,173,183,218,235,286,340,406],"have":[2],"gained":[3],"widespread":[4],"attention":[5],"due":[6,256],"to":[7,26,137,253,257,282,305,434,437],"their":[8,288,294],"remarkable":[9],"performance":[10],"in":[11,86,104,127,365,391],"various":[12],"applications.":[13],"Two":[14],"aspects":[15],"are":[16,40,143],"particular":[17],"striking:":[18],"on":[19,111,168,417,453],"the":[20,35,47,59,66,81,93,96,105,112,129,169,189,203,220,225,231,242,246,262,265,268,271,297,310,332,335,362,366,369,397,413,441,454],"one":[21,247,342,408],"hand,":[22,37,248,312],"neural":[23,38,77,97,125,234,339],"seem":[25],"enjoy":[27],"superior":[28],"approximation":[29,89,197],"capacities":[30],"than":[31,293],"classical":[32],"methods.":[33],"On":[34,65,224,245,309],"other":[36,311],"trained":[41],"successfully":[42],"with":[43,178,216,331,341,407],"gradient-based":[44,237],"algorithms":[45,239],"despite":[46],"training":[48,238],"task":[49],"being":[50],"a":[51,72,115,120,123,146,156,195,319,358,379,383,387],"highly":[52],"nonconvex":[53],"optimization":[54],"problem.":[55],"This":[56],"thesis":[57],"advances":[58],"theory":[60],"behind":[61],"these":[62,171],"two":[63],"phenomena.":[64],"aspect":[67,226],"of":[68,84,95,114,122,149,159,188,191,202,210,222,227,264,270,299,334,338,361,382,396,420],"approximation,":[69],"we":[70,206,229,249,275,313,356,377,393,423],"develop":[71],"framework":[73],"for":[74,194,284],"showing":[75],"that":[76,92,212,277,404,425],"can":[79,133,174,213],"break":[80],"so-called":[82],"curse":[83,221],"dimensionality":[85],"different":[87,208],"high-dimensional":[88],"problems,":[90],"meaning":[91],"complexity":[94],"involved":[99],"scales":[100],"at":[101],"most":[102,429],"polynomially":[103],"dimension.":[106],"Our":[107],"approach":[108],"is":[109,119,290,372,443,447],"based":[110],"notion":[113],"catalog":[116,148,153,172],"network,":[117],"which":[118,128,392,446],"generalization":[121],"feed-forward":[124],"network":[126,266],"nonlinear":[130],"activation":[131],"functions":[132,211],"vary":[134],"from":[135,145],"layer":[136,138,344,410],"as":[139,141],"long":[140],"they":[142],"chosen":[144],"predefined":[147],"functions.":[150,161],"As":[151,199],"such,":[152],"constitute":[155],"rich":[157],"family":[158],"continuous":[160],"We":[162,402,432],"show":[163],"that,":[164],"under":[165],"appropriate":[166],"conditions":[167],"catalog,":[170],"efficiently":[175],"be":[176,214],"approximated":[177,215],"rectified":[179],"linear":[180],"unit":[181],"(ReLU)-type":[182],"and":[184,236,267,296,322,345,374],"provide":[185,357],"precise":[186],"estimates":[187],"number":[190,298],"parameters":[192],"needed":[193],"given":[196],"accuracy.":[198],"special":[200],"cases":[201],"general":[204],"results,":[205],"obtain":[207],"classes":[209],"ReLU":[217,285,405],"without":[219],"dimensionality.":[223],"optimization,":[228],"investigate":[230],"interplay":[232,260],"between":[233,261],"by":[240,317,449],"studying":[241],"loss":[243,337],"surface.":[244],"discover":[250],"an":[251,258,450],"obstruction":[252],"successful":[254],"learning":[255],"unfortunate":[259],"architecture":[263],"initialization":[269,442],"algorithm.":[272],"More":[273],"precisely,":[274],"demonstrate":[276],"stochastic":[278],"gradient":[279,426],"descent":[280,427],"fails":[281],"converge":[283],"if":[287,440],"depth":[289],"much":[291],"larger":[292],"width":[295],"random":[300],"initializations":[301],"does":[302],"not":[303],"increase":[304],"infinity":[306],"fast":[307],"enough.":[308],"establish":[314],"positive":[315,328],"results":[316,329],"conducting":[318],"landscape":[320,333],"analysis":[321],"applying":[323],"dynamical":[324,384],"systems":[325,385],"theory.":[326],"These":[327],"deal":[330],"true":[336],"hidden":[343,409],"ReLU,":[346,348],"leaky":[347],"or":[349],"quadratic":[350],"activation.":[351],"In":[352],"all":[353],"three":[354],"cases,":[355],"complete":[359],"classification":[360,419],"critical":[363,421],"points":[364],"case":[367],"where":[368],"target":[370],"function":[371],"affine":[373],"one-dimensional.":[375],"Next,":[376],"prove":[378,435],"new":[380,414],"variant":[381],"result,":[386],"center-stable":[388],"manifold":[389],"theorem,":[390],"relax":[394],"some":[395],"regularity":[398],"requirements":[399],"usually":[400],"imposed.":[401],"verify":[403],"fit":[411],"into":[412],"framework.":[415],"Building":[416],"our":[418],"points,":[422],"deduce":[424],"avoids":[428],"saddle":[430],"points.":[431],"proceed":[433],"convergence":[436],"global":[438],"minima":[439],"sufficiently":[444],"good,":[445],"expressed":[448],"explicit":[451],"threshold":[452],"limiting":[455],"loss.":[456]},"counts_by_year":[],"updated_date":"2025-11-06T06:51:31.235846","created_date":"2025-10-10T00:00:00"}