{"id":"https://openalex.org/W7140193144","doi":"https://doi.org/10.48550/arxiv.2603.21169","title":"Model Evolution Under Zeroth-Order Optimization: A Neural Tangent Kernel Perspective","display_name":"Model Evolution Under Zeroth-Order Optimization: A Neural Tangent Kernel Perspective","publication_year":2026,"publication_date":"2026-03-22","ids":{"openalex":"https://openalex.org/W7140193144","doi":"https://doi.org/10.48550/arxiv.2603.21169"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2603.21169","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.21169","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2603.21169","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":null,"display_name":"Zhang, Chen","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Zhang, Chen","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":null,"display_name":"Cheng, Yuxin","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Cheng, Yuxin","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":null,"display_name":"Ding, Chenchen","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Ding, Chenchen","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":null,"display_name":"Wang, Shuqi","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Wang, Shuqi","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":null,"display_name":"Lei, Jingreng","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Lei, Jingreng","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":null,"display_name":"Yu, Runsheng","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Yu, Runsheng","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":null,"display_name":"WU, Yik-Chung","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"WU, Yik-Chung","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":null,"display_name":"Wong, Ngai","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Wong, Ngai","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":8,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11612","display_name":"Stochastic Gradient Optimization Techniques","score":0.5388000011444092,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11612","display_name":"Stochastic Gradient Optimization Techniques","score":0.5388000011444092,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12611","display_name":"Neural Networks and Reservoir Computing","score":0.094200000166893,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12676","display_name":"Machine Learning and ELM","score":0.07980000227689743,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/artificial-neural-network","display_name":"Artificial neural network","score":0.5997999906539917},{"id":"https://openalex.org/keywords/kernel","display_name":"Kernel (algebra)","score":0.5752000212669373},{"id":"https://openalex.org/keywords/gradient-descent","display_name":"Gradient descent","score":0.5382999777793884},{"id":"https://openalex.org/keywords/tangent","display_name":"Tangent","score":0.4438999891281128},{"id":"https://openalex.org/keywords/stochastic-gradient-descent","display_name":"Stochastic gradient descent","score":0.4311000108718872},{"id":"https://openalex.org/keywords/kernel-method","display_name":"Kernel method","score":0.4275999963283539},{"id":"https://openalex.org/keywords/perturbation","display_name":"Perturbation (astronomy)","score":0.3603000044822693},{"id":"https://openalex.org/keywords/tangent-space","display_name":"Tangent space","score":0.3515999913215637}],"concepts":[{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.5997999906539917},{"id":"https://openalex.org/C74193536","wikidata":"https://www.wikidata.org/wiki/Q574844","display_name":"Kernel (algebra)","level":2,"score":0.5752000212669373},{"id":"https://openalex.org/C153258448","wikidata":"https://www.wikidata.org/wiki/Q1199743","display_name":"Gradient descent","level":3,"score":0.5382999777793884},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.4878999888896942},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.4611999988555908},{"id":"https://openalex.org/C138187205","wikidata":"https://www.wikidata.org/wiki/Q131251","display_name":"Tangent","level":2,"score":0.4438999891281128},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.44269999861717224},{"id":"https://openalex.org/C206688291","wikidata":"https://www.wikidata.org/wiki/Q7617819","display_name":"Stochastic gradient descent","level":3,"score":0.4311000108718872},{"id":"https://openalex.org/C122280245","wikidata":"https://www.wikidata.org/wiki/Q620622","display_name":"Kernel method","level":3,"score":0.4275999963283539},{"id":"https://openalex.org/C28826006","wikidata":"https://www.wikidata.org/wiki/Q33521","display_name":"Applied mathematics","level":1,"score":0.3765000104904175},{"id":"https://openalex.org/C177918212","wikidata":"https://www.wikidata.org/wiki/Q803623","display_name":"Perturbation (astronomy)","level":2,"score":0.3603000044822693},{"id":"https://openalex.org/C157157409","wikidata":"https://www.wikidata.org/wiki/Q909601","display_name":"Tangent space","level":2,"score":0.3515999913215637},{"id":"https://openalex.org/C71134354","wikidata":"https://www.wikidata.org/wiki/Q458825","display_name":"Kernel density estimation","level":3,"score":0.3483000099658966},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.34450000524520874},{"id":"https://openalex.org/C117896860","wikidata":"https://www.wikidata.org/wiki/Q11376","display_name":"Acceleration","level":2,"score":0.3370000123977661},{"id":"https://openalex.org/C14036430","wikidata":"https://www.wikidata.org/wiki/Q3736076","display_name":"Function (biology)","level":2,"score":0.32820001244544983},{"id":"https://openalex.org/C12713177","wikidata":"https://www.wikidata.org/wiki/Q1900281","display_name":"Perspective (graphical)","level":2,"score":0.3255999982357025},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.30219998955726624},{"id":"https://openalex.org/C195699287","wikidata":"https://www.wikidata.org/wiki/Q7915722","display_name":"Variable kernel density estimation","level":4,"score":0.29589998722076416},{"id":"https://openalex.org/C142730499","wikidata":"https://www.wikidata.org/wiki/Q934367","display_name":"Function space","level":2,"score":0.29179999232292175},{"id":"https://openalex.org/C158622935","wikidata":"https://www.wikidata.org/wiki/Q660848","display_name":"Nonlinear system","level":2,"score":0.27970001101493835},{"id":"https://openalex.org/C2777027219","wikidata":"https://www.wikidata.org/wiki/Q1284190","display_name":"Constant (computer programming)","level":2,"score":0.2653000056743622},{"id":"https://openalex.org/C8272713","wikidata":"https://www.wikidata.org/wiki/Q176737","display_name":"Stochastic process","level":2,"score":0.26100000739097595}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2603.21169","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.21169","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2603.21169","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.21169","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Zeroth-order":[0,55],"(ZO)":[1],"optimization":[2],"enables":[3],"memory-efficient":[4],"training":[5,31,80],"of":[6,25,39,90],"neural":[7,114],"networks":[8],"by":[9],"estimating":[10],"gradients":[11],"via":[12,123],"forward":[13],"passes":[14],"only,":[15],"eliminating":[16],"the":[17,22,30,36,53,74,85,91,110],"need":[18],"for":[19,101,129],"backpropagation.":[20],"However,":[21],"stochastic":[23],"nature":[24],"gradient":[26,121],"estimation":[27],"significantly":[28],"obscures":[29],"dynamics,":[32],"in":[33,62],"contrast":[34],"to":[35,58,112],"well-characterized":[37],"behavior":[38],"first-order":[40],"methods":[41],"under":[42,65,104],"Neural":[43,54],"Tangent":[44],"Kernel":[45,56],"(NTK)":[46],"theory.":[47],"To":[48],"address":[49],"this,":[50],"we":[51,71],"introduce":[52],"(NZK)":[57],"describe":[59],"model":[60,102],"evolution":[61,103],"function":[63],"space":[64],"ZO":[66,117],"updates.":[67],"For":[68],"linear":[69],"models,":[70],"prove":[72],"that":[73],"expected":[75],"NZK":[76,124],"remains":[77],"constant":[78],"throughout":[79],"and":[81,87,137,143,150],"depends":[82],"explicitly":[83],"on":[84],"first":[86],"second":[88],"moments":[89],"random":[92,158],"perturbation":[93],"directions.":[94],"This":[95],"invariance":[96],"yields":[97],"a":[98,126,155],"closed-form":[99],"expression":[100],"squared":[105],"loss.":[106],"We":[107],"further":[108],"extend":[109],"analysis":[111],"linearized":[113],"networks.":[115],"Interpreting":[116],"updates":[118],"as":[119],"kernel":[120],"descent":[122],"provides":[125],"novel":[127],"perspective":[128],"potentially":[130],"accelerating":[131],"convergence.":[132],"Extensive":[133],"experiments":[134],"across":[135],"synthetic":[136],"real-world":[138],"datasets":[139],"(including":[140],"MNIST,":[141],"CIFAR-10,":[142],"Tiny":[144],"ImageNet)":[145],"validate":[146],"our":[147],"theoretical":[148],"results":[149],"demonstrate":[151],"acceleration":[152],"when":[153],"using":[154],"single":[156],"shared":[157],"vector.":[159]},"counts_by_year":[],"updated_date":"2026-04-25T08:17:42.794288","created_date":"2026-03-25T00:00:00"}