{"id":"https://openalex.org/W7131431141","doi":"https://doi.org/10.48550/arxiv.2602.20297","title":"Gap-Dependent Bounds for Nearly Minimax Optimal Reinforcement Learning with Linear Function Approximation","display_name":"Gap-Dependent Bounds for Nearly Minimax Optimal Reinforcement Learning with Linear Function Approximation","publication_year":2026,"publication_date":"2026-02-23","ids":{"openalex":"https://openalex.org/W7131431141","doi":"https://doi.org/10.48550/arxiv.2602.20297"},"language":null,"primary_location":{"id":"pmh:doi:10.48550/arxiv.2602.20297","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":null,"any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5044612578","display_name":"Haochen Zhang","orcid":"https://orcid.org/0009-0001-0207-2628"},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Zhang, Haochen","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5126812916","display_name":"Zhong Zheng","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zheng, Zhong","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5089400160","display_name":"Lingzhou Xue","orcid":"https://orcid.org/0000-0002-8252-0637"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Xue, Lingzhou","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5044612578"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.46209999918937683,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.46209999918937683,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12101","display_name":"Advanced Bandit Algorithms Research","score":0.4514000117778778,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},{"id":"https://openalex.org/T11612","display_name":"Stochastic Gradient Optimization Techniques","score":0.024700000882148743,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/regret","display_name":"Regret","score":0.8759999871253967},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7695000171661377},{"id":"https://openalex.org/keywords/upper-and-lower-bounds","display_name":"Upper and lower bounds","score":0.6248000264167786},{"id":"https://openalex.org/keywords/minimax","display_name":"Minimax","score":0.5866000056266785},{"id":"https://openalex.org/keywords/sample-complexity","display_name":"Sample complexity","score":0.541700005531311},{"id":"https://openalex.org/keywords/function","display_name":"Function (biology)","score":0.5242000222206116},{"id":"https://openalex.org/keywords/function-approximation","display_name":"Function approximation","score":0.44519999623298645},{"id":"https://openalex.org/keywords/simple","display_name":"Simple (philosophy)","score":0.4228000044822693},{"id":"https://openalex.org/keywords/time-horizon","display_name":"Time horizon","score":0.38690000772476196}],"concepts":[{"id":"https://openalex.org/C50817715","wikidata":"https://www.wikidata.org/wiki/Q79895177","display_name":"Regret","level":2,"score":0.8759999871253967},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7695000171661377},{"id":"https://openalex.org/C77553402","wikidata":"https://www.wikidata.org/wiki/Q13222579","display_name":"Upper and lower bounds","level":2,"score":0.6248000264167786},{"id":"https://openalex.org/C149728462","wikidata":"https://www.wikidata.org/wiki/Q751319","display_name":"Minimax","level":2,"score":0.5866000056266785},{"id":"https://openalex.org/C2778445095","wikidata":"https://www.wikidata.org/wiki/Q18354077","display_name":"Sample complexity","level":2,"score":0.541700005531311},{"id":"https://openalex.org/C14036430","wikidata":"https://www.wikidata.org/wiki/Q3736076","display_name":"Function (biology)","level":2,"score":0.5242000222206116},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.5131999850273132},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.450300008058548},{"id":"https://openalex.org/C91873725","wikidata":"https://www.wikidata.org/wiki/Q3445816","display_name":"Function approximation","level":3,"score":0.44519999623298645},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.4374000132083893},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.43160000443458557},{"id":"https://openalex.org/C2780586882","wikidata":"https://www.wikidata.org/wiki/Q7520643","display_name":"Simple (philosophy)","level":2,"score":0.4228000044822693},{"id":"https://openalex.org/C28761237","wikidata":"https://www.wikidata.org/wiki/Q7805321","display_name":"Time horizon","level":2,"score":0.38690000772476196},{"id":"https://openalex.org/C2776401178","wikidata":"https://www.wikidata.org/wiki/Q12050496","display_name":"Feature (linguistics)","level":2,"score":0.3781999945640564},{"id":"https://openalex.org/C189950617","wikidata":"https://www.wikidata.org/wiki/Q937228","display_name":"Property (philosophy)","level":2,"score":0.36480000615119934},{"id":"https://openalex.org/C41045048","wikidata":"https://www.wikidata.org/wiki/Q202843","display_name":"Linear programming","level":2,"score":0.3562000095844269},{"id":"https://openalex.org/C176248197","wikidata":"https://www.wikidata.org/wiki/Q458526","display_name":"Probably approximately correct learning","level":4,"score":0.3425000011920929},{"id":"https://openalex.org/C34388435","wikidata":"https://www.wikidata.org/wiki/Q2267362","display_name":"Bounded function","level":2,"score":0.33820000290870667},{"id":"https://openalex.org/C198531522","wikidata":"https://www.wikidata.org/wiki/Q485146","display_name":"Sample (material)","level":2,"score":0.3278999924659729},{"id":"https://openalex.org/C148764684","wikidata":"https://www.wikidata.org/wiki/Q621751","display_name":"Approximation algorithm","level":2,"score":0.3276999890804291},{"id":"https://openalex.org/C68339613","wikidata":"https://www.wikidata.org/wiki/Q1549489","display_name":"Speedup","level":2,"score":0.32440000772476196},{"id":"https://openalex.org/C311688","wikidata":"https://www.wikidata.org/wiki/Q2393193","display_name":"Time complexity","level":2,"score":0.3183000087738037},{"id":"https://openalex.org/C196921405","wikidata":"https://www.wikidata.org/wiki/Q786431","display_name":"Online algorithm","level":2,"score":0.3046000003814697},{"id":"https://openalex.org/C97542219","wikidata":"https://www.wikidata.org/wiki/Q497863","display_name":"SIMPLE algorithm","level":2,"score":0.29899999499320984},{"id":"https://openalex.org/C100776233","wikidata":"https://www.wikidata.org/wiki/Q2532492","display_name":"Bridge (graph theory)","level":2,"score":0.28139999508857727},{"id":"https://openalex.org/C188116033","wikidata":"https://www.wikidata.org/wiki/Q2664563","display_name":"Q-learning","level":3,"score":0.27649998664855957},{"id":"https://openalex.org/C163175372","wikidata":"https://www.wikidata.org/wiki/Q3339222","display_name":"Linear model","level":2,"score":0.27219998836517334},{"id":"https://openalex.org/C159176650","wikidata":"https://www.wikidata.org/wiki/Q43261","display_name":"Horizon","level":2,"score":0.2653000056743622},{"id":"https://openalex.org/C3018263672","wikidata":"https://www.wikidata.org/wiki/Q1296251","display_name":"Efficient algorithm","level":2,"score":0.2653000056743622}],"mesh":[],"locations_count":2,"locations":[{"id":"pmh:doi:10.48550/arxiv.2602.20297","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},{"id":"doi:10.48550/arxiv.2602.20297","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2602.20297","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"pmh:doi:10.48550/arxiv.2602.20297","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"We":[0,61],"study":[1],"gap-dependent":[2,21,69,95,122],"performance":[3],"guarantees":[4],"for":[5,72,127],"nearly":[6,37,74],"minimax-optimal":[7,38,75],"algorithms":[8,33],"in":[9,24],"reinforcement":[10],"learning":[11],"with":[12,131,138],"linear":[13,132,136],"function":[14,133],"approximation.":[15],"While":[16],"prior":[17],"works":[18],"have":[19],"established":[20],"regret":[22,40,70],"bounds":[23],"this":[25,63],"setting,":[26],"existing":[27],"analyses":[28],"do":[29],"not":[30],"apply":[31],"to":[32,93,140],"that":[34,110],"achieve":[35],"the":[36,46,51,57,67,73,99,120,141],"worst-case":[39],"bound":[41,71,126],"$\\tilde{O}(d\\sqrt{H^3K})$,":[42],"where":[43],"$d$":[44,89],"is":[45,50,56],"feature":[47],"dimension,":[48],"$H$":[49,91],"horizon":[52],"length,":[53],"and":[54,90,118],"$K$":[55],"number":[58,142],"of":[59,103,143],"episodes.":[60],"bridge":[62],"gap":[64],"by":[65],"providing":[66],"first":[68,121],"algorithm":[76],"LSVI-UCB++":[77],"(He":[78],"et":[79],"al.,":[80],"2023).":[81],"Our":[82],"analysis":[83],"yields":[84],"improved":[85],"dependencies":[86],"on":[87],"both":[88],"compared":[92],"previous":[94],"results.":[96],"Moreover,":[97],"leveraging":[98],"low":[100],"policy-switching":[101],"property":[102],"LSVI-UCB++,":[104],"we":[105],"introduce":[106],"a":[107],"concurrent":[108],"variant":[109],"enables":[111],"efficient":[112],"parallel":[113],"exploration":[114],"across":[115],"multiple":[116],"agents":[117],"establish":[119],"sample":[123],"complexity":[124],"upper":[125],"online":[128],"multi-agent":[129],"RL":[130],"approximation,":[134],"achieving":[135],"speedup":[137],"respect":[139],"agents.":[144]},"counts_by_year":[],"updated_date":"2026-04-04T16:13:02.066488","created_date":"2026-02-26T00:00:00"}