{"id":"https://openalex.org/W7161305248","doi":"https://doi.org/10.48550/arxiv.2605.14373","title":"Turning Stale Gradients into Stable Gradients: Coherent Coordinate Descent with Implicit Landscape Smoothing for Lightweight Zeroth-Order Optimization","display_name":"Turning Stale Gradients into Stable Gradients: Coherent Coordinate Descent with Implicit Landscape Smoothing for Lightweight Zeroth-Order Optimization","publication_year":2026,"publication_date":"2026-05-14","ids":{"openalex":"https://openalex.org/W7161305248","doi":"https://doi.org/10.48550/arxiv.2605.14373"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2605.14373","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.14373","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2605.14373","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5136232106","display_name":"Chen Liang","orcid":"https://orcid.org/0009-0005-7362-4126"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Liang, Chen","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5068962234","display_name":"Xiatao Sun","orcid":"https://orcid.org/0000-0001-5975-5174"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Sun, Xiatao","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5136209200","display_name":"Qian Wang","orcid":"https://orcid.org/0000-0002-3668-0592"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Wang, Qian","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5006252401","display_name":"Daniel Rakita","orcid":"https://orcid.org/0000-0001-6292-8515"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Rakita, Daniel","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":4,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11612","display_name":"Stochastic Gradient Optimization Techniques","score":0.7702000141143799,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11612","display_name":"Stochastic Gradient Optimization Techniques","score":0.7702000141143799,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10100","display_name":"Metaheuristic Optimization Algorithms Research","score":0.04749999940395355,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10682","display_name":"Quantum Computing Algorithms and Architecture","score":0.024900000542402267,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/coordinate-descent","display_name":"Coordinate descent","score":0.736299991607666},{"id":"https://openalex.org/keywords/smoothing","display_name":"Smoothing","score":0.6664000153541565},{"id":"https://openalex.org/keywords/convergence","display_name":"Convergence (economics)","score":0.5935999751091003},{"id":"https://openalex.org/keywords/gradient-descent","display_name":"Gradient descent","score":0.5526999831199646},{"id":"https://openalex.org/keywords/smoothness","display_name":"Smoothness","score":0.5454999804496765},{"id":"https://openalex.org/keywords/stability","display_name":"Stability (learning theory)","score":0.5091999769210815},{"id":"https://openalex.org/keywords/block","display_name":"Block (permutation group theory)","score":0.43369999527931213},{"id":"https://openalex.org/keywords/selection","display_name":"Selection (genetic algorithm)","score":0.3806000053882599},{"id":"https://openalex.org/keywords/orthogonality","display_name":"Orthogonality","score":0.36390000581741333},{"id":"https://openalex.org/keywords/coherence","display_name":"Coherence (philosophical gambling strategy)","score":0.34470000863075256}],"concepts":[{"id":"https://openalex.org/C157553263","wikidata":"https://www.wikidata.org/wiki/Q5168004","display_name":"Coordinate descent","level":2,"score":0.736299991607666},{"id":"https://openalex.org/C3770464","wikidata":"https://www.wikidata.org/wiki/Q775963","display_name":"Smoothing","level":2,"score":0.6664000153541565},{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.5935999751091003},{"id":"https://openalex.org/C153258448","wikidata":"https://www.wikidata.org/wiki/Q1199743","display_name":"Gradient descent","level":3,"score":0.5526999831199646},{"id":"https://openalex.org/C102634674","wikidata":"https://www.wikidata.org/wiki/Q868473","display_name":"Smoothness","level":2,"score":0.5454999804496765},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.5289999842643738},{"id":"https://openalex.org/C112972136","wikidata":"https://www.wikidata.org/wiki/Q7595718","display_name":"Stability (learning theory)","level":2,"score":0.5091999769210815},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.5062999725341797},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.47110000252723694},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.45669999718666077},{"id":"https://openalex.org/C2777210771","wikidata":"https://www.wikidata.org/wiki/Q4927124","display_name":"Block (permutation group theory)","level":2,"score":0.43369999527931213},{"id":"https://openalex.org/C81917197","wikidata":"https://www.wikidata.org/wiki/Q628760","display_name":"Selection (genetic algorithm)","level":2,"score":0.3806000053882599},{"id":"https://openalex.org/C17137986","wikidata":"https://www.wikidata.org/wiki/Q215067","display_name":"Orthogonality","level":2,"score":0.36390000581741333},{"id":"https://openalex.org/C2781181686","wikidata":"https://www.wikidata.org/wiki/Q4226068","display_name":"Coherence (philosophical gambling strategy)","level":2,"score":0.34470000863075256},{"id":"https://openalex.org/C32834561","wikidata":"https://www.wikidata.org/wiki/Q660730","display_name":"Subspace topology","level":2,"score":0.34450000524520874},{"id":"https://openalex.org/C163716315","wikidata":"https://www.wikidata.org/wiki/Q901177","display_name":"Gaussian","level":2,"score":0.3384000062942505},{"id":"https://openalex.org/C137836250","wikidata":"https://www.wikidata.org/wiki/Q984063","display_name":"Optimization problem","level":2,"score":0.3328000009059906},{"id":"https://openalex.org/C2776637919","wikidata":"https://www.wikidata.org/wiki/Q624380","display_name":"Descent (aeronautics)","level":2,"score":0.32030001282691956},{"id":"https://openalex.org/C155032097","wikidata":"https://www.wikidata.org/wiki/Q798503","display_name":"Backpropagation","level":3,"score":0.3109999895095825},{"id":"https://openalex.org/C61326573","wikidata":"https://www.wikidata.org/wiki/Q1496376","display_name":"Gaussian process","level":3,"score":0.3019999861717224},{"id":"https://openalex.org/C196083921","wikidata":"https://www.wikidata.org/wiki/Q7915758","display_name":"Variance (accounting)","level":2,"score":0.29989999532699585},{"id":"https://openalex.org/C206688291","wikidata":"https://www.wikidata.org/wiki/Q7617819","display_name":"Stochastic gradient descent","level":3,"score":0.29910001158714294},{"id":"https://openalex.org/C198531522","wikidata":"https://www.wikidata.org/wiki/Q485146","display_name":"Sample (material)","level":2,"score":0.2989000082015991},{"id":"https://openalex.org/C2781067378","wikidata":"https://www.wikidata.org/wiki/Q17027399","display_name":"Interpretability","level":2,"score":0.2874999940395355},{"id":"https://openalex.org/C147764199","wikidata":"https://www.wikidata.org/wiki/Q6865248","display_name":"Minification","level":2,"score":0.2858000099658966},{"id":"https://openalex.org/C179799912","wikidata":"https://www.wikidata.org/wiki/Q205084","display_name":"Computational complexity theory","level":2,"score":0.2809999883174896},{"id":"https://openalex.org/C123614077","wikidata":"https://www.wikidata.org/wiki/Q1364905","display_name":"Propagation of uncertainty","level":2,"score":0.28040000796318054},{"id":"https://openalex.org/C177148314","wikidata":"https://www.wikidata.org/wiki/Q170084","display_name":"Generalization","level":2,"score":0.2711000144481659},{"id":"https://openalex.org/C28826006","wikidata":"https://www.wikidata.org/wiki/Q33521","display_name":"Applied mathematics","level":1,"score":0.2703999876976013},{"id":"https://openalex.org/C205606062","wikidata":"https://www.wikidata.org/wiki/Q5249645","display_name":"Decoupling (probability)","level":2,"score":0.2581999897956848},{"id":"https://openalex.org/C138777275","wikidata":"https://www.wikidata.org/wiki/Q6884054","display_name":"Mixing (physics)","level":2,"score":0.2549000084400177},{"id":"https://openalex.org/C204241405","wikidata":"https://www.wikidata.org/wiki/Q461499","display_name":"Transformation (genetics)","level":3,"score":0.2515999972820282}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2605.14373","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.14373","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2605.14373","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.14373","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Zeroth-Order":[0],"(ZO)":[1],"optimization":[2,132],"is":[3,9,75],"pivotal":[4],"for":[5,190],"scenarios":[6],"where":[7],"backpropagation":[8],"unavailable,":[10],"such":[11],"as":[12],"memory-constrained":[13],"on-device":[14],"learning":[15],"and":[16,59,71,148,166,169],"black-box":[17],"optimization.":[18,193],"However,":[19],"existing":[20],"methods":[21],"face":[22],"a":[23,56,92,95,117,185],"stark":[24],"trade-off:":[25],"they":[26],"are":[27],"either":[28],"sample-inefficient":[29],"(e.g.,":[30,43],"standard":[31],"finite":[32],"differences)":[33],"or":[34],"suffer":[35],"from":[36,91],"high":[37],"variance":[38],"due":[39],"to":[40,77,152,188],"randomized":[41,174],"estimation":[42],"random":[44],"subspace":[45],"methods).":[46],"In":[47],"this":[48],"work,":[49],"we":[50,64,112],"propose":[51],"Coherent":[52],"Coordinate":[53,80],"Descent":[54,81],"(CoCD),":[55],"deterministic,":[57,181],"sample-efficient,":[58],"budget-aware":[60],"ZO":[61,175,192],"optimizer.":[62],"Theoretically,":[63],"formalize":[65],"the":[66,131,136],"notion":[67],"of":[68,163],"gradient":[69],"coherence":[70],"demonstrate":[72,155],"that":[73,156,180],"CoCD":[74,157],"equivalent":[76],"Block":[78],"Cyclic":[79],"(BCCD)":[82],"with":[83],"``warm":[84],"starts,''":[85],"effectively":[86],"converting":[87],"historical":[88],"(stale)":[89],"gradients":[90],"liability":[93],"into":[94],"computational":[96],"asset.":[97],"This":[98],"mechanism":[99],"enables":[100],"$O(1)$":[101],"query":[102],"complexity":[103],"per":[104],"step":[105,122],"while":[106],"maintaining":[107],"global":[108],"descent":[109],"directions.":[110],"Furthermore,":[111],"derive":[113],"error":[114],"bounds":[115],"revealing":[116],"counter-intuitive":[118],"insight:":[119],"larger":[120],"finite-difference":[121],"sizes":[123],"can":[124],"induce":[125],"an":[126],"implicit":[127],"smoothing":[128],"effect":[129],"on":[130,145],"landscape":[133],"by":[134],"reducing":[135],"effective":[137],"smoothness":[138],"constant,":[139],"thereby":[140],"improving":[141],"convergence":[142,167],"stability.":[143],"Experiments":[144],"MLP,":[146],"CNN,":[147],"ResNet":[149],"architectures":[150],"(up":[151],"270k":[153],"parameters)":[154],"significantly":[158],"outperforms":[159],"BCCD":[160],"in":[161],"terms":[162],"sample":[164],"efficiency":[165],"loss/accuracy,":[168],"exhibits":[170],"superior":[171,186],"stability":[172],"over":[173],"methods.":[176],"Our":[177],"results":[178],"suggest":[179],"structure-aware":[182],"updates":[183],"offer":[184],"alternative":[187],"randomization":[189],"lightweight":[191]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2026-05-16T00:00:00"}