{"id":"https://openalex.org/W4389438905","doi":"https://doi.org/10.1137/22m1499261","title":"Target Network and Truncation Overcome the Deadly Triad in \\(\\boldsymbol{Q}\\)-Learning","display_name":"Target Network and Truncation Overcome the Deadly Triad in \\(\\boldsymbol{Q}\\)-Learning","publication_year":2023,"publication_date":"2023-12-07","ids":{"openalex":"https://openalex.org/W4389438905","doi":"https://doi.org/10.1137/22m1499261"},"language":"en","primary_location":{"id":"doi:10.1137/22m1499261","is_oa":true,"landing_page_url":"https://doi.org/10.1137/22m1499261","pdf_url":null,"source":{"id":"https://openalex.org/S4210229561","display_name":"SIAM Journal on Mathematics of Data Science","issn_l":"2577-0187","issn":["2577-0187"],"is_oa":true,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310320508","host_organization_name":"Society for Industrial and Applied Mathematics","host_organization_lineage":["https://openalex.org/P4310320508"],"host_organization_lineage_names":["Society for Industrial and Applied Mathematics"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"SIAM Journal on Mathematics of Data Science","raw_type":"journal-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":true,"oa_status":"diamond","oa_url":"https://doi.org/10.1137/22m1499261","any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5058269077","display_name":"Zaiwei Chen","orcid":"https://orcid.org/0000-0001-9915-5595"},"institutions":[{"id":"https://openalex.org/I122411786","display_name":"California Institute of Technology","ror":"https://ror.org/05dxps055","country_code":"US","type":"education","lineage":["https://openalex.org/I122411786"]}],"countries":["US"],"is_corresponding":true,"raw_author_name":"Zaiwei Chen","raw_affiliation_strings":["Computing + Mathematical Sciences, California Institute of Technology, Pasadena, CA 91106 USA"],"raw_orcid":"https://orcid.org/0000-0001-9915-5595","affiliations":[{"raw_affiliation_string":"Computing + Mathematical Sciences, California Institute of Technology, Pasadena, CA 91106 USA","institution_ids":["https://openalex.org/I122411786"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5046419153","display_name":"John-Paul Clarke","orcid":"https://orcid.org/0000-0001-6282-066X"},"institutions":[{"id":"https://openalex.org/I86519309","display_name":"The University of Texas at Austin","ror":"https://ror.org/00hj54h04","country_code":"US","type":"education","lineage":["https://openalex.org/I86519309"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"John-Paul Clarke","raw_affiliation_strings":["Aerospace Engineering and Engineering Mechanics, University of Texas at Austin, Austin, TX 78712 USA"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Aerospace Engineering and Engineering Mechanics, University of Texas at Austin, Austin, TX 78712 USA","institution_ids":["https://openalex.org/I86519309"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5021806638","display_name":"Siva Theja Maguluri","orcid":"https://orcid.org/0000-0002-5797-1639"},"institutions":[{"id":"https://openalex.org/I130701444","display_name":"Georgia Institute of Technology","ror":"https://ror.org/01zkghx44","country_code":"US","type":"education","lineage":["https://openalex.org/I130701444"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Siva Theja Maguluri","raw_affiliation_strings":["Industrial & Systems Engineering, Georgia Institute of Technology, Atlanta, GA 30332 USA"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Industrial & Systems Engineering, Georgia Institute of Technology, Atlanta, GA 30332 USA","institution_ids":["https://openalex.org/I130701444"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5058269077"],"corresponding_institution_ids":["https://openalex.org/I122411786"],"apc_list":null,"apc_paid":null,"fwci":0.5112,"has_fulltext":false,"cited_by_count":3,"citation_normalized_percentile":{"value":0.72759194,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":96,"max":97},"biblio":{"volume":"5","issue":"4","first_page":"1078","last_page":"1101"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T12072","display_name":"Machine Learning and Algorithms","score":0.9991000294685364,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T12072","display_name":"Machine Learning and Algorithms","score":0.9991000294685364,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9988999962806702,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12101","display_name":"Advanced Bandit Algorithms Research","score":0.9986000061035156,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/truncation","display_name":"Truncation (statistics)","score":0.7493636608123779},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7244324088096619},{"id":"https://openalex.org/keywords/function-approximation","display_name":"Function approximation","score":0.7143937945365906},{"id":"https://openalex.org/keywords/stability","display_name":"Stability (learning theory)","score":0.5659241080284119},{"id":"https://openalex.org/keywords/function","display_name":"Function (biology)","score":0.5225474238395691},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.501368522644043},{"id":"https://openalex.org/keywords/sample-complexity","display_name":"Sample complexity","score":0.48858389258384705},{"id":"https://openalex.org/keywords/applied-mathematics","display_name":"Applied mathematics","score":0.451615571975708},{"id":"https://openalex.org/keywords/sample","display_name":"Sample (material)","score":0.4443424940109253},{"id":"https://openalex.org/keywords/approximation-algorithm","display_name":"Approximation algorithm","score":0.4438108801841736},{"id":"https://openalex.org/keywords/linear-approximation","display_name":"Linear approximation","score":0.4414246678352356},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.43829819560050964},{"id":"https://openalex.org/keywords/approximation-error","display_name":"Approximation error","score":0.41509541869163513},{"id":"https://openalex.org/keywords/algorithm","display_name":"Algorithm","score":0.3590770363807678},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.29775163531303406},{"id":"https://openalex.org/keywords/artificial-neural-network","display_name":"Artificial neural network","score":0.28593727946281433},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.17572999000549316},{"id":"https://openalex.org/keywords/physics","display_name":"Physics","score":0.13111454248428345},{"id":"https://openalex.org/keywords/nonlinear-system","display_name":"Nonlinear system","score":0.09744486212730408}],"concepts":[{"id":"https://openalex.org/C106195933","wikidata":"https://www.wikidata.org/wiki/Q7847935","display_name":"Truncation (statistics)","level":2,"score":0.7493636608123779},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7244324088096619},{"id":"https://openalex.org/C91873725","wikidata":"https://www.wikidata.org/wiki/Q3445816","display_name":"Function approximation","level":3,"score":0.7143937945365906},{"id":"https://openalex.org/C112972136","wikidata":"https://www.wikidata.org/wiki/Q7595718","display_name":"Stability (learning theory)","level":2,"score":0.5659241080284119},{"id":"https://openalex.org/C14036430","wikidata":"https://www.wikidata.org/wiki/Q3736076","display_name":"Function (biology)","level":2,"score":0.5225474238395691},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.501368522644043},{"id":"https://openalex.org/C2778445095","wikidata":"https://www.wikidata.org/wiki/Q18354077","display_name":"Sample complexity","level":2,"score":0.48858389258384705},{"id":"https://openalex.org/C28826006","wikidata":"https://www.wikidata.org/wiki/Q33521","display_name":"Applied mathematics","level":1,"score":0.451615571975708},{"id":"https://openalex.org/C198531522","wikidata":"https://www.wikidata.org/wiki/Q485146","display_name":"Sample (material)","level":2,"score":0.4443424940109253},{"id":"https://openalex.org/C148764684","wikidata":"https://www.wikidata.org/wiki/Q621751","display_name":"Approximation algorithm","level":2,"score":0.4438108801841736},{"id":"https://openalex.org/C160824197","wikidata":"https://www.wikidata.org/wiki/Q2071054","display_name":"Linear approximation","level":3,"score":0.4414246678352356},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.43829819560050964},{"id":"https://openalex.org/C122383733","wikidata":"https://www.wikidata.org/wiki/Q865920","display_name":"Approximation error","level":2,"score":0.41509541869163513},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.3590770363807678},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.29775163531303406},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.28593727946281433},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.17572999000549316},{"id":"https://openalex.org/C121332964","wikidata":"https://www.wikidata.org/wiki/Q413","display_name":"Physics","level":0,"score":0.13111454248428345},{"id":"https://openalex.org/C158622935","wikidata":"https://www.wikidata.org/wiki/Q660848","display_name":"Nonlinear system","level":2,"score":0.09744486212730408},{"id":"https://openalex.org/C97355855","wikidata":"https://www.wikidata.org/wiki/Q11473","display_name":"Thermodynamics","level":1,"score":0.0},{"id":"https://openalex.org/C62520636","wikidata":"https://www.wikidata.org/wiki/Q944","display_name":"Quantum mechanics","level":1,"score":0.0},{"id":"https://openalex.org/C78458016","wikidata":"https://www.wikidata.org/wiki/Q840400","display_name":"Evolutionary biology","level":1,"score":0.0},{"id":"https://openalex.org/C86803240","wikidata":"https://www.wikidata.org/wiki/Q420","display_name":"Biology","level":0,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1137/22m1499261","is_oa":true,"landing_page_url":"https://doi.org/10.1137/22m1499261","pdf_url":null,"source":{"id":"https://openalex.org/S4210229561","display_name":"SIAM Journal on Mathematics of Data Science","issn_l":"2577-0187","issn":["2577-0187"],"is_oa":true,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310320508","host_organization_name":"Society for Industrial and Applied Mathematics","host_organization_lineage":["https://openalex.org/P4310320508"],"host_organization_lineage_names":["Society for Industrial and Applied Mathematics"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"SIAM Journal on Mathematics of Data Science","raw_type":"journal-article"}],"best_oa_location":{"id":"doi:10.1137/22m1499261","is_oa":true,"landing_page_url":"https://doi.org/10.1137/22m1499261","pdf_url":null,"source":{"id":"https://openalex.org/S4210229561","display_name":"SIAM Journal on Mathematics of Data Science","issn_l":"2577-0187","issn":["2577-0187"],"is_oa":true,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310320508","host_organization_name":"Society for Industrial and Applied Mathematics","host_organization_lineage":["https://openalex.org/P4310320508"],"host_organization_lineage_names":["Society for Industrial and Applied Mathematics"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"SIAM Journal on Mathematics of Data Science","raw_type":"journal-article"},"sustainable_development_goals":[],"awards":[{"id":"https://openalex.org/G443950390","display_name":null,"funder_award_id":"CMMI-2112533","funder_id":"https://openalex.org/F4320306076","funder_display_name":"National Science Foundation"},{"id":"https://openalex.org/G7152741550","display_name":null,"funder_award_id":"EPCN-2144316","funder_id":"https://openalex.org/F4320306076","funder_display_name":"National Science Foundation"},{"id":"https://openalex.org/G8452575566","display_name":null,"funder_award_id":"CPS-2240982","funder_id":"https://openalex.org/F4320306076","funder_display_name":"National Science Foundation"}],"funders":[{"id":"https://openalex.org/F4320306076","display_name":"National Science Foundation","ror":"https://ror.org/021nxhr62"}],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":13,"referenced_works":["https://openalex.org/W41554520","https://openalex.org/W1484867920","https://openalex.org/W1981276685","https://openalex.org/W1994616650","https://openalex.org/W2071983464","https://openalex.org/W2139418546","https://openalex.org/W2145339207","https://openalex.org/W2346626577","https://openalex.org/W2612690371","https://openalex.org/W2885549115","https://openalex.org/W3159819285","https://openalex.org/W4297329999","https://openalex.org/W4307347247"],"related_works":["https://openalex.org/W2087686193","https://openalex.org/W3113145869","https://openalex.org/W3177870706","https://openalex.org/W2097120783","https://openalex.org/W2160821628","https://openalex.org/W2768028474","https://openalex.org/W4239251873","https://openalex.org/W3089181838","https://openalex.org/W2073744204","https://openalex.org/W2096450101"],"abstract_inverted_index":{".\\(Q\\)-learning":[0],"with":[1,78],"function":[2,58,80,116,138],"approximation":[3,59,81,117],"is":[4,60,89],"one":[5,39],"of":[6,40,76,95,103,111],"the":[7,41,48,53,100,104,122,131],"most":[8,42],"empirically":[9],"successful":[10],"while":[11],"theoretically":[12],"mysterious":[13],"reinforcement":[14],"learning":[15],"(RL)":[16],"algorithms":[17],"and":[18,86,88,127],"was":[19],"identified":[20],"in":[21,25,47,52],"[R.":[22],"S.":[23],"Sutton,":[24],"European":[26],"Conference":[27],"on":[28],"Computational":[29],"Learning":[30],"Theory,":[31],"Springer,":[32],"New":[33],"York,":[34],"1999,":[35],"pp.":[36],"11\u201317]":[37],"as":[38],"important":[43],"theoretical":[44],"open":[45],"problems":[46],"RL":[49],"community.":[50],"Even":[51],"basic":[54],"setting":[55],"where":[56],"linear":[57,79],"used,":[61],"there":[62],"are":[63],"well-known":[64],"divergent":[65],"examples.":[66],"In":[67],"this":[68],"work,":[69],"we":[70,120],"propose":[71],"a":[72,92,108,115],"stable":[73],"online":[74],"variant":[75],"\\(Q\\)-learning":[77],"that":[82],"uses":[83],"target":[84],"network":[85],"truncation":[87],"driven":[90],"by":[91],"single":[93],"trajectory":[94],"Markovian":[96],"samples.":[97],"We":[98],"present":[99],"finite-sample":[101],"guarantees":[102],"algorithm,":[105],"which":[106],"imply":[107],"sample":[109],"complexity":[110],"\\(\\tilde{\\mathcal{O}}(\\epsilon^{-2})\\)":[112],"up":[113],"to":[114,134],"error.":[118],"Importantly,":[119],"establish":[121],"results":[123],"under":[124],"minimal":[125],"assumptions":[126],"do":[128],"not":[129],"modify":[130],"problem":[132],"parameters":[133],"achieve":[135],"stability.Keywordsreinforcement":[136],"learning\\(Q\\)-learninglinear":[137],"approximationfinite-sample":[139],"analysisMSC":[140],"codes60J2093E2090C4062L20":[141]},"counts_by_year":[{"year":2024,"cited_by_count":3}],"updated_date":"2025-11-06T03:46:38.306776","created_date":"2025-10-10T00:00:00"}