{"id":"https://openalex.org/W7154225517","doi":"https://doi.org/10.48550/arxiv.2604.10202","title":"Wolkowicz-Styan Upper Bound on the Hessian Eigenspectrum for Cross-Entropy Loss in Nonlinear Smooth Neural Networks","display_name":"Wolkowicz-Styan Upper Bound on the Hessian Eigenspectrum for Cross-Entropy Loss in Nonlinear Smooth Neural Networks","publication_year":2026,"publication_date":"2026-04-11","ids":{"openalex":"https://openalex.org/W7154225517","doi":"https://doi.org/10.48550/arxiv.2604.10202"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2604.10202","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.10202","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2604.10202","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5066747178","display_name":"Yuto Omae","orcid":"https://orcid.org/0000-0002-5924-6959"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Omae, Yuto","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5133606344","display_name":"Kazuki Sakai","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Sakai, Kazuki","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5023962257","display_name":"Yohei Kakimoto","orcid":"https://orcid.org/0000-0002-0346-3831"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Kakimoto, Yohei","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5133600789","display_name":"Makoto Sasaki","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Sasaki, Makoto","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5042174785","display_name":"Yusuke Sakai","orcid":"https://orcid.org/0000-0001-8810-4813"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Sakai, Yusuke","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5049271542","display_name":"Hirotaka Takahashi","orcid":"https://orcid.org/0000-0003-0596-4397"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Takahashi, Hirotaka","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":6,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11206","display_name":"Model Reduction and Neural Networks","score":0.22709999978542328,"subfield":{"id":"https://openalex.org/subfields/3109","display_name":"Statistical and Nonlinear Physics"},"field":{"id":"https://openalex.org/fields/31","display_name":"Physics and Astronomy"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11206","display_name":"Model Reduction and Neural Networks","score":0.22709999978542328,"subfield":{"id":"https://openalex.org/subfields/3109","display_name":"Statistical and Nonlinear Physics"},"field":{"id":"https://openalex.org/fields/31","display_name":"Physics and Astronomy"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11612","display_name":"Stochastic Gradient Optimization Techniques","score":0.17839999496936798,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11804","display_name":"Quantum many-body systems","score":0.1542000025510788,"subfield":{"id":"https://openalex.org/subfields/3107","display_name":"Atomic and Molecular Physics, and Optics"},"field":{"id":"https://openalex.org/fields/31","display_name":"Physics and Astronomy"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/hessian-matrix","display_name":"Hessian matrix","score":0.9532999992370605},{"id":"https://openalex.org/keywords/artificial-neural-network","display_name":"Artificial neural network","score":0.6758000254631042},{"id":"https://openalex.org/keywords/generalization","display_name":"Generalization","score":0.6470999717712402},{"id":"https://openalex.org/keywords/nonlinear-system","display_name":"Nonlinear system","score":0.6308000087738037},{"id":"https://openalex.org/keywords/quadratic-equation","display_name":"Quadratic equation","score":0.6298999786376953},{"id":"https://openalex.org/keywords/upper-and-lower-bounds","display_name":"Upper and lower bounds","score":0.5839999914169312},{"id":"https://openalex.org/keywords/orthogonality","display_name":"Orthogonality","score":0.5167999863624573},{"id":"https://openalex.org/keywords/eigenvalues-and-eigenvectors","display_name":"Eigenvalues and eigenvectors","score":0.4893999993801117},{"id":"https://openalex.org/keywords/affine-transformation","display_name":"Affine transformation","score":0.44780001044273376}],"concepts":[{"id":"https://openalex.org/C203616005","wikidata":"https://www.wikidata.org/wiki/Q620495","display_name":"Hessian matrix","level":2,"score":0.9532999992370605},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.6758000254631042},{"id":"https://openalex.org/C177148314","wikidata":"https://www.wikidata.org/wiki/Q170084","display_name":"Generalization","level":2,"score":0.6470999717712402},{"id":"https://openalex.org/C158622935","wikidata":"https://www.wikidata.org/wiki/Q660848","display_name":"Nonlinear system","level":2,"score":0.6308000087738037},{"id":"https://openalex.org/C129844170","wikidata":"https://www.wikidata.org/wiki/Q41299","display_name":"Quadratic equation","level":2,"score":0.6298999786376953},{"id":"https://openalex.org/C77553402","wikidata":"https://www.wikidata.org/wiki/Q13222579","display_name":"Upper and lower bounds","level":2,"score":0.5839999914169312},{"id":"https://openalex.org/C17137986","wikidata":"https://www.wikidata.org/wiki/Q215067","display_name":"Orthogonality","level":2,"score":0.5167999863624573},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.4950000047683716},{"id":"https://openalex.org/C158693339","wikidata":"https://www.wikidata.org/wiki/Q190524","display_name":"Eigenvalues and eigenvectors","level":2,"score":0.4893999993801117},{"id":"https://openalex.org/C92757383","wikidata":"https://www.wikidata.org/wiki/Q382497","display_name":"Affine transformation","level":2,"score":0.44780001044273376},{"id":"https://openalex.org/C106487976","wikidata":"https://www.wikidata.org/wiki/Q685816","display_name":"Matrix (chemical analysis)","level":2,"score":0.43849998712539673},{"id":"https://openalex.org/C14036430","wikidata":"https://www.wikidata.org/wiki/Q3736076","display_name":"Function (biology)","level":2,"score":0.41269999742507935},{"id":"https://openalex.org/C28826006","wikidata":"https://www.wikidata.org/wiki/Q33521","display_name":"Applied mathematics","level":1,"score":0.40639999508857727},{"id":"https://openalex.org/C166437778","wikidata":"https://www.wikidata.org/wiki/Q50695","display_name":"Quadratic function","level":3,"score":0.3747999966144562},{"id":"https://openalex.org/C2681867","wikidata":"https://www.wikidata.org/wiki/Q690935","display_name":"Saddle point","level":2,"score":0.36579999327659607},{"id":"https://openalex.org/C184720557","wikidata":"https://www.wikidata.org/wiki/Q7825049","display_name":"Topology (electrical circuits)","level":2,"score":0.3488999903202057},{"id":"https://openalex.org/C72134830","wikidata":"https://www.wikidata.org/wiki/Q5166524","display_name":"Convexity","level":2,"score":0.3154999911785126},{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.3052000105381012},{"id":"https://openalex.org/C177264268","wikidata":"https://www.wikidata.org/wiki/Q1514741","display_name":"Set (abstract data type)","level":2,"score":0.29600000381469727},{"id":"https://openalex.org/C134306372","wikidata":"https://www.wikidata.org/wiki/Q7754","display_name":"Mathematical analysis","level":1,"score":0.29159998893737793},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.29100000858306885},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.28949999809265137},{"id":"https://openalex.org/C2776401178","wikidata":"https://www.wikidata.org/wiki/Q12050496","display_name":"Feature (linguistics)","level":2,"score":0.28029999136924744},{"id":"https://openalex.org/C28719098","wikidata":"https://www.wikidata.org/wiki/Q44946","display_name":"Point (geometry)","level":2,"score":0.27869999408721924},{"id":"https://openalex.org/C48753275","wikidata":"https://www.wikidata.org/wiki/Q11216","display_name":"Numerical analysis","level":2,"score":0.27140000462532043},{"id":"https://openalex.org/C148043351","wikidata":"https://www.wikidata.org/wiki/Q4456944","display_name":"Current (fluid)","level":2,"score":0.2687999904155731},{"id":"https://openalex.org/C73729460","wikidata":"https://www.wikidata.org/wiki/Q17023339","display_name":"Hessian equation","level":4,"score":0.2662000060081482},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.2542000114917755}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2604.10202","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.10202","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2604.10202","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.10202","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Neural":[0],"networks":[1,148,162,232],"(NNs)":[2],"are":[3,128],"central":[4],"to":[5,59,67,90,131,178],"modern":[6],"machine":[7],"learning":[8],"and":[9,22,163,205],"achieve":[10],"state-of-the-art":[11],"results":[12],"in":[13,227],"many":[14],"applications.":[15],"However,":[16,94],"the":[17,33,55,60,69,72,75,97,126,170,174,179,184,188,198,206,211,255],"relationship":[18],"between":[19],"loss":[20,34,73,115,181,225],"geometry":[21,31],"generalization":[23,92],"is":[24,40,192,220],"still":[25],"not":[26],"well":[27],"understood.":[28],"The":[29,52,214],"local":[30],"of":[32,54,71,125,143,173,197,208,217,224,257],"function":[35,196],"near":[36],"a":[37,48,165,195,234,248],"critical":[38,76,82],"point":[39],"well-approximated":[41],"by":[42,182],"its":[43],"quadratic":[44,56],"form,":[45],"obtained":[46],"through":[47],"second-order":[49],"Taylor":[50],"expansion.":[51],"coefficients":[53],"term":[57],"correspond":[58],"Hessian":[61,98,175],"matrix,":[62],"whose":[63],"eigenspectrum":[64,127,240],"allows":[65],"us":[66],"evaluate":[68],"sharpness":[70,95,116,226],"at":[74],"point.":[77],"Extensive":[78],"research":[79],"suggests":[80],"flat":[81],"points":[83],"generalize":[84],"better,":[85],"while":[86],"sharp":[87],"ones":[88],"lead":[89],"higher":[91],"error.":[93],"requires":[96],"eigenspectrum,":[99],"but":[100],"general":[101],"matrix":[102],"characteristic":[103],"equations":[104],"have":[105],"no":[106],"closed-form":[107,123,166,235],"solution.":[108],"Therefore,":[109],"most":[110],"existing":[111],"studies":[112],"on":[113,118,157],"evaluating":[114],"rely":[117],"numerical":[119,239],"approximation":[120],"methods.":[121],"Existing":[122],"analyses":[124],"primarily":[129],"limited":[130],"simplified":[132],"architectures,":[133],"such":[134],"as":[135,194],"linear":[136],"or":[137],"ReLU-activated":[138],"networks;":[139],"consequently,":[140],"theoretical":[141],"analysis":[142],"smooth":[144,159,228],"nonlinear":[145,229],"multilayer":[146,160,230],"neural":[147,161,231],"remains":[149],"limited.":[150],"Against":[151],"this":[152,154,218,245],"background,":[153],"study":[155],"focuses":[156],"nonlinear,":[158],"derives":[164],"upper":[167,190],"bound":[168,191],"for":[169],"maximum":[171],"eigenvalue":[172],"with":[176],"respect":[177],"cross-entropy":[180],"leveraging":[183],"Wolkowicz-Styan":[185],"bound.":[186],"Specifically,":[187],"derived":[189],"expressed":[193],"affine":[199],"transformation":[200],"parameters,":[201],"hidden":[202],"layer":[203],"dimensions,":[204],"degree":[207],"orthogonality":[209],"among":[210],"training":[212],"samples.":[213],"primary":[215],"contribution":[216],"paper":[219],"an":[221],"analytical":[222],"characterization":[223],"via":[233],"expression,":[236],"avoiding":[237],"explicit":[238],"computation.":[241],"We":[242],"hope":[243],"that":[244],"work":[246],"provides":[247],"small":[249],"yet":[250],"meaningful":[251],"step":[252],"toward":[253],"unraveling":[254],"mysteries":[256],"deep":[258],"learning.":[259]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2026-04-15T00:00:00"}