{"id":"https://openalex.org/W7162506699","doi":"https://doi.org/10.48550/arxiv.2605.26929","title":"When Muon Optimizer Meets Adversarial Training: A Theoretical and Empirical Study","display_name":"When Muon Optimizer Meets Adversarial Training: A Theoretical and Empirical Study","publication_year":2026,"publication_date":"2026-05-26","ids":{"openalex":"https://openalex.org/W7162506699","doi":"https://doi.org/10.48550/arxiv.2605.26929"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2605.26929","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.26929","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2605.26929","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5137188111","display_name":"Jun Yan","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Yan, Jun","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5137137169","display_name":"Weiquan Huang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Huang, Weiquan","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5036596307","display_name":"Jiankai Zuo","orcid":"https://orcid.org/0000-0002-4026-134X"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zuo, Jiankai","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5069777142","display_name":"Yujian Mo","orcid":"https://orcid.org/0000-0001-9820-2708"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Mo, Yujian","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5035823866","display_name":"Xi Fang","orcid":"https://orcid.org/0000-0002-5571-7004"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Fang, Xi","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5137176470","display_name":"Chengliang Wu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Wu, Chengliang","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5137150159","display_name":"Zeming Wei","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Wei, Zeming","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":7,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Machine Learning","score":0.7088000178337097,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Machine Learning","score":0.7088000178337097,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11612","display_name":"Stochastic Gradient Optimization Techniques","score":0.01940000057220459,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11241","display_name":"Advanced Malware Detection Techniques","score":0.018699999898672104,"subfield":{"id":"https://openalex.org/subfields/1711","display_name":"Signal Processing"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/robustness","display_name":"Robustness (evolution)","score":0.6327000260353088},{"id":"https://openalex.org/keywords/adversarial-system","display_name":"Adversarial system","score":0.5989999771118164},{"id":"https://openalex.org/keywords/empirical-research","display_name":"Empirical research","score":0.5637000203132629},{"id":"https://openalex.org/keywords/stochastic-gradient-descent","display_name":"Stochastic gradient descent","score":0.5205000042915344},{"id":"https://openalex.org/keywords/limiting","display_name":"Limiting","score":0.4648999869823456},{"id":"https://openalex.org/keywords/gradient-descent","display_name":"Gradient descent","score":0.40459999442100525}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6462000012397766},{"id":"https://openalex.org/C63479239","wikidata":"https://www.wikidata.org/wiki/Q7353546","display_name":"Robustness (evolution)","level":3,"score":0.6327000260353088},{"id":"https://openalex.org/C37736160","wikidata":"https://www.wikidata.org/wiki/Q1801315","display_name":"Adversarial system","level":2,"score":0.5989999771118164},{"id":"https://openalex.org/C120936955","wikidata":"https://www.wikidata.org/wiki/Q2155640","display_name":"Empirical research","level":2,"score":0.5637000203132629},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.5256999731063843},{"id":"https://openalex.org/C206688291","wikidata":"https://www.wikidata.org/wiki/Q7617819","display_name":"Stochastic gradient descent","level":3,"score":0.5205000042915344},{"id":"https://openalex.org/C188198153","wikidata":"https://www.wikidata.org/wiki/Q1613840","display_name":"Limiting","level":2,"score":0.4648999869823456},{"id":"https://openalex.org/C153258448","wikidata":"https://www.wikidata.org/wiki/Q1199743","display_name":"Gradient descent","level":3,"score":0.40459999442100525},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.39890000224113464},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.3912000060081482},{"id":"https://openalex.org/C112972136","wikidata":"https://www.wikidata.org/wiki/Q7595718","display_name":"Stability (learning theory)","level":2,"score":0.36629998683929443},{"id":"https://openalex.org/C137836250","wikidata":"https://www.wikidata.org/wiki/Q984063","display_name":"Optimization problem","level":2,"score":0.3560999929904938},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.3000999987125397},{"id":"https://openalex.org/C166052673","wikidata":"https://www.wikidata.org/wiki/Q83021","display_name":"Empirical evidence","level":2,"score":0.28029999136924744},{"id":"https://openalex.org/C194387892","wikidata":"https://www.wikidata.org/wiki/Q1747770","display_name":"Stochastic optimization","level":2,"score":0.267300009727478},{"id":"https://openalex.org/C77618280","wikidata":"https://www.wikidata.org/wiki/Q1155772","display_name":"Scheme (mathematics)","level":2,"score":0.25999999046325684},{"id":"https://openalex.org/C193254401","wikidata":"https://www.wikidata.org/wiki/Q2160088","display_name":"Robust optimization","level":2,"score":0.25940001010894775},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.2590999901294708},{"id":"https://openalex.org/C80444323","wikidata":"https://www.wikidata.org/wiki/Q2878974","display_name":"Theoretical computer science","level":1,"score":0.25780001282691956}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2605.26929","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.26929","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2605.26929","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.26929","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Adversarial":[0],"training":[1,46,71,126],"(AT)":[2],"remains":[3,33],"one":[4],"of":[5,198],"the":[6,20,34,53,125,131,179],"most":[7],"reliable":[8],"empirical":[9,105,180],"defenses":[10],"against":[11],"adversarial":[12,175],"attacks.":[13],"Its":[14],"robustness":[15],"critically":[16],"depends":[17],"on":[18,96,117,154,160],"how":[19],"underlying":[21],"min-max":[22],"objective":[23],"is":[24,150],"optimized.":[25],"In":[26],"practice,":[27],"Stochastic":[28],"Gradient":[29],"Descent":[30],"(SGD)":[31],"optimizer":[32,168,192],"default":[35],"optimization":[36,86],"choice":[37],"for":[38],"AT,":[39],"whereas":[40],"adaptive":[41],"optimizers":[42],"often":[43],"improve":[44,87],"standard":[45],"but":[47],"may":[48],"yield":[49],"inferior":[50],"robustness.":[51],"Recently,":[52],"Muon":[54,111,149],"optimizer,":[55],"which":[56,183],"orthogonalizes":[57],"matrix-valued":[58],"updates":[59,185],"via":[60],"an":[61],"approximate":[62],"polar":[63],"decomposition,":[64],"has":[65],"achieved":[66],"notable":[67],"success":[68],"in":[69,124,174,182],"large-scale":[70],"at":[72],"a":[73,81,101,113,171,195],"memory":[74],"cost":[75],"comparable":[76],"to":[77],"SGD.":[78],"This":[79],"raises":[80],"security-relevant":[82,172],"question:":[83],"\\textit{can":[84],"orthogonalized":[85,184],"AT":[88],"under":[89],"strong":[90],"and":[91,104,138,146,156,163],"heterogeneous":[92],"threat":[93,141],"models?}":[94],"Focusing":[95],"this":[97],"problem,":[98],"we":[99,108],"conduct":[100],"comprehensive":[102],"theoretical":[103],"study.":[106],"Theoretically,":[107],"show":[109],"that":[110],"imposes":[112],"spectral-norm":[114],"stability":[115],"ceiling":[116],"matrix":[118],"updates,":[119],"limiting":[120],"uncontrolled":[121],"spectral":[122],"growth":[123],"dynamics":[127],"without":[128],"explicitly":[129],"shrinking":[130],"learned":[132],"weights.":[133],"Empirically,":[134],"across":[135],"five":[136],"architectures":[137],"three":[139],"$\\ell_p$":[140],"models":[142],"($\\ell_\\infty$,":[143],"$\\ell_1$,":[144],"$\\ell_2$)":[145],"their":[147],"union,":[148],"competitive":[151],"with":[152],"SGD":[153],"CNNs":[155,162],"substantially":[157],"outperforms":[158],"AdamW":[159],"both":[161],"ViTs.":[164],"These":[165],"results":[166],"identify":[167],"geometry":[169],"as":[170,194],"factor":[173],"training,":[176],"while":[177],"clarifying":[178],"regimes":[181],"are":[186],"beneficial.":[187],"Overall,":[188],"our":[189],"findings":[190],"highlight":[191],"design":[193],"security-critical":[196],"component":[197],"AT.":[199]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2026-05-28T00:00:00"}