{"id":"https://openalex.org/W7127920077","doi":"https://doi.org/10.48550/arxiv.2602.03911","title":"The Role of Target Update Frequencies in Q-Learning","display_name":"The Role of Target Update Frequencies in Q-Learning","publication_year":2026,"publication_date":"2026-02-03","ids":{"openalex":"https://openalex.org/W7127920077","doi":"https://doi.org/10.48550/arxiv.2602.03911"},"language":null,"primary_location":{"id":"pmh:doi:10.48550/arxiv.2602.03911","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"publisher-specific-oa","license_id":"https://openalex.org/licenses/publisher-specific-oa","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":null,"any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5074701373","display_name":"Simon Wei\u00dfmann","orcid":"https://orcid.org/0000-0002-5111-6658"},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Weissmann, Simon","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5125018740","display_name":"Tilman Aach","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Aach, Tilman","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5125066004","display_name":"Benedikt Wille","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Wille, Benedikt","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5045569270","display_name":"Sebastian Kassing","orcid":"https://orcid.org/0000-0002-2016-899X"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Kassing, Sebastian","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5125247886","display_name":"Leif D\u00f6ring","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"D\u00f6ring, Leif","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":5,"corresponding_author_ids":["https://openalex.org/A5074701373"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T13553","display_name":"Age of Information Optimization","score":0.20900000631809235,"subfield":{"id":"https://openalex.org/subfields/1705","display_name":"Computer Networks and Communications"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T13553","display_name":"Age of Information Optimization","score":0.20900000631809235,"subfield":{"id":"https://openalex.org/subfields/1705","display_name":"Computer Networks and Communications"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11612","display_name":"Stochastic Gradient Optimization Techniques","score":0.18140000104904175,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.14090000092983246,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/logarithm","display_name":"Logarithm","score":0.5669000148773193},{"id":"https://openalex.org/keywords/convergence","display_name":"Convergence (economics)","score":0.5651999711990356},{"id":"https://openalex.org/keywords/gradient-descent","display_name":"Gradient descent","score":0.5623999834060669},{"id":"https://openalex.org/keywords/set","display_name":"Set (abstract data type)","score":0.5066999793052673},{"id":"https://openalex.org/keywords/asynchronous-communication","display_name":"Asynchronous communication","score":0.4918999969959259},{"id":"https://openalex.org/keywords/overhead","display_name":"Overhead (engineering)","score":0.4876999855041504},{"id":"https://openalex.org/keywords/hyperparameter","display_name":"Hyperparameter","score":0.482699990272522},{"id":"https://openalex.org/keywords/constant","display_name":"Constant (computer programming)","score":0.42820000648498535},{"id":"https://openalex.org/keywords/stochastic-gradient-descent","display_name":"Stochastic gradient descent","score":0.41359999775886536}],"concepts":[{"id":"https://openalex.org/C39927690","wikidata":"https://www.wikidata.org/wiki/Q11197","display_name":"Logarithm","level":2,"score":0.5669000148773193},{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.5651999711990356},{"id":"https://openalex.org/C153258448","wikidata":"https://www.wikidata.org/wiki/Q1199743","display_name":"Gradient descent","level":3,"score":0.5623999834060669},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.557200014591217},{"id":"https://openalex.org/C177264268","wikidata":"https://www.wikidata.org/wiki/Q1514741","display_name":"Set (abstract data type)","level":2,"score":0.5066999793052673},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.5013999938964844},{"id":"https://openalex.org/C151319957","wikidata":"https://www.wikidata.org/wiki/Q752739","display_name":"Asynchronous communication","level":2,"score":0.4918999969959259},{"id":"https://openalex.org/C2779960059","wikidata":"https://www.wikidata.org/wiki/Q7113681","display_name":"Overhead (engineering)","level":2,"score":0.4876999855041504},{"id":"https://openalex.org/C8642999","wikidata":"https://www.wikidata.org/wiki/Q4171168","display_name":"Hyperparameter","level":2,"score":0.482699990272522},{"id":"https://openalex.org/C2777027219","wikidata":"https://www.wikidata.org/wiki/Q1284190","display_name":"Constant (computer programming)","level":2,"score":0.42820000648498535},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.42149999737739563},{"id":"https://openalex.org/C206688291","wikidata":"https://www.wikidata.org/wiki/Q7617819","display_name":"Stochastic gradient descent","level":3,"score":0.41359999775886536},{"id":"https://openalex.org/C165064840","wikidata":"https://www.wikidata.org/wiki/Q1321061","display_name":"Matching (statistics)","level":2,"score":0.3869999945163727},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.3788999915122986},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.37599998712539673},{"id":"https://openalex.org/C81917197","wikidata":"https://www.wikidata.org/wiki/Q628760","display_name":"Selection (genetic algorithm)","level":2,"score":0.37599998712539673},{"id":"https://openalex.org/C140779682","wikidata":"https://www.wikidata.org/wiki/Q210868","display_name":"Sampling (signal processing)","level":3,"score":0.3467000126838684},{"id":"https://openalex.org/C198531522","wikidata":"https://www.wikidata.org/wiki/Q485146","display_name":"Sample (material)","level":2,"score":0.32600000500679016},{"id":"https://openalex.org/C77618280","wikidata":"https://www.wikidata.org/wiki/Q1155772","display_name":"Scheme (mathematics)","level":2,"score":0.3093999922275543},{"id":"https://openalex.org/C116149140","wikidata":"https://www.wikidata.org/wiki/Q2070951","display_name":"Descent direction","level":4,"score":0.30630001425743103},{"id":"https://openalex.org/C47446073","wikidata":"https://www.wikidata.org/wiki/Q5165890","display_name":"Control theory (sociology)","level":3,"score":0.3059000074863434},{"id":"https://openalex.org/C2777212361","wikidata":"https://www.wikidata.org/wiki/Q5127848","display_name":"Class (philosophy)","level":2,"score":0.28619998693466187},{"id":"https://openalex.org/C21200559","wikidata":"https://www.wikidata.org/wiki/Q7451068","display_name":"Sensitivity (control systems)","level":2,"score":0.2833999991416931},{"id":"https://openalex.org/C55479107","wikidata":"https://www.wikidata.org/wiki/Q97663916","display_name":"Stochastic approximation","level":3,"score":0.259799987077713},{"id":"https://openalex.org/C761482","wikidata":"https://www.wikidata.org/wiki/Q118093","display_name":"Transmission (telecommunications)","level":2,"score":0.25529998540878296},{"id":"https://openalex.org/C55660270","wikidata":"https://www.wikidata.org/wiki/Q5164377","display_name":"Constrained optimization","level":2,"score":0.2542000114917755},{"id":"https://openalex.org/C137836250","wikidata":"https://www.wikidata.org/wiki/Q984063","display_name":"Optimization problem","level":2,"score":0.2508000135421753}],"mesh":[],"locations_count":2,"locations":[{"id":"pmh:doi:10.48550/arxiv.2602.03911","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"publisher-specific-oa","license_id":"https://openalex.org/licenses/publisher-specific-oa","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},{"id":"doi:10.48550/arxiv.2602.03911","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2602.03911","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"pmh:doi:10.48550/arxiv.2602.03911","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"publisher-specific-oa","license_id":"https://openalex.org/licenses/publisher-specific-oa","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},"sustainable_development_goals":[{"id":"https://metadata.un.org/sdg/16","score":0.5003172755241394,"display_name":"Peace, Justice and strong institutions"}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"The":[0],"target":[1,43,58,117,132,157],"network":[2],"update":[3,118,133,158],"frequency":[4,159],"(TUF)":[5],"is":[6,21,145],"a":[7,32,39,61,78,86,138],"central":[8],"stabilization":[9],"mechanism":[10],"in":[11,45,65,100,141],"(deep)":[12],"Q-learning.":[13],"However,":[14],"their":[15],"selection":[16],"remains":[17],"poorly":[18],"understood":[19],"and":[20],"often":[22],"treated":[23],"merely":[24],"as":[25,31,60],"another":[26],"tunable":[27],"hyperparameter":[28],"rather":[29],"than":[30],"principled":[33],"design":[34],"decision.":[35],"This":[36],"work":[37],"provides":[38],"theoretical":[40],"analysis":[41,89,152],"of":[42,51,110,165],"fixing":[44],"tabular":[46],"Q-learning":[47],"through":[48],"the":[49,91,101,111,116,155,163,166],"lens":[50],"approximate":[52],"dynamic":[53],"programming.":[54],"We":[55,128],"formulate":[56],"periodic":[57],"updates":[59],"nested":[62],"optimization":[63],"scheme":[64],"which":[66],"each":[67],"outer":[68],"iteration":[69],"applies":[70],"an":[71,107],"inexact":[72],"Bellman":[73],"optimality":[74],"operator,":[75],"approximated":[76],"by":[77,115],"generic":[79],"inner":[80,102],"loop":[81],"optimizer.":[82],"Rigorous":[83],"theory":[84],"yields":[85],"finite-time":[87],"convergence":[88],"for":[90],"asynchronous":[92],"sampling":[93],"setting,":[94],"specializing":[95],"to":[96,122],"stochastic":[97],"gradient":[98],"descent":[99],"loop.":[103],"Our":[104,151],"results":[105],"deliver":[106],"explicit":[108],"characterization":[109],"bias-variance":[112],"trade-off":[113],"induced":[114],"period,":[119],"showing":[120],"how":[121],"optimally":[123],"set":[124],"this":[125],"critical":[126],"hyperparameter.":[127],"prove":[129],"that":[130,144,154],"constant":[131],"schedules":[134],"are":[135],"suboptimal,":[136],"incurring":[137],"logarithmic":[139],"overhead":[140],"sample":[142],"complexity":[143],"entirely":[146],"avoidable":[147],"with":[148],"adaptive":[149],"schedules.":[150],"shows":[153],"optimal":[156],"increases":[160],"geometrically":[161],"over":[162],"course":[164],"learning":[167],"process.":[168]},"counts_by_year":[],"updated_date":"2026-04-04T16:13:02.066488","created_date":"2026-02-07T00:00:00"}