{"id":"https://openalex.org/W7133318564","doi":"https://doi.org/10.48550/arxiv.2603.02155","title":"Near-Optimal Regret for KL-Regularized Multi-Armed Bandits","display_name":"Near-Optimal Regret for KL-Regularized Multi-Armed Bandits","publication_year":2026,"publication_date":"2026-03-02","ids":{"openalex":"https://openalex.org/W7133318564","doi":"https://doi.org/10.48550/arxiv.2603.02155"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2603.02155","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.02155","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2603.02155","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5127917643","display_name":"Kaixuan Ji","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Ji, Kaixuan","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5127952100","display_name":"Qingyue Zhao","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhao, Qingyue","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5127903692","display_name":"Heyang Zhao","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhao, Heyang","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5114494380","display_name":"Qiwei Di","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Di, Qiwei","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5120284571","display_name":"Quanquan Gu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Gu, Quanquan","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":5,"corresponding_author_ids":["https://openalex.org/A5127917643"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T12101","display_name":"Advanced Bandit Algorithms Research","score":0.9896000027656555,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},"topics":[{"id":"https://openalex.org/T12101","display_name":"Advanced Bandit Algorithms Research","score":0.9896000027656555,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},{"id":"https://openalex.org/T11612","display_name":"Stochastic Gradient Optimization Techniques","score":0.00419999985024333,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.0008999999845400453,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/regret","display_name":"Regret","score":0.8766000270843506},{"id":"https://openalex.org/keywords/logarithm","display_name":"Logarithm","score":0.6485000252723694},{"id":"https://openalex.org/keywords/upper-and-lower-bounds","display_name":"Upper and lower bounds","score":0.6229000091552734},{"id":"https://openalex.org/keywords/bayesian-probability","display_name":"Bayesian probability","score":0.42419999837875366},{"id":"https://openalex.org/keywords/contrast","display_name":"Contrast (vision)","score":0.4163999855518341},{"id":"https://openalex.org/keywords/regularization","display_name":"Regularization (linguistics)","score":0.321399986743927}],"concepts":[{"id":"https://openalex.org/C50817715","wikidata":"https://www.wikidata.org/wiki/Q79895177","display_name":"Regret","level":2,"score":0.8766000270843506},{"id":"https://openalex.org/C39927690","wikidata":"https://www.wikidata.org/wiki/Q11197","display_name":"Logarithm","level":2,"score":0.6485000252723694},{"id":"https://openalex.org/C77553402","wikidata":"https://www.wikidata.org/wiki/Q13222579","display_name":"Upper and lower bounds","level":2,"score":0.6229000091552734},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.6079000234603882},{"id":"https://openalex.org/C107673813","wikidata":"https://www.wikidata.org/wiki/Q812534","display_name":"Bayesian probability","level":2,"score":0.42419999837875366},{"id":"https://openalex.org/C2776502983","wikidata":"https://www.wikidata.org/wiki/Q690182","display_name":"Contrast (vision)","level":2,"score":0.4163999855518341},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.39399999380111694},{"id":"https://openalex.org/C144237770","wikidata":"https://www.wikidata.org/wiki/Q747534","display_name":"Mathematical economics","level":1,"score":0.34529998898506165},{"id":"https://openalex.org/C2776135515","wikidata":"https://www.wikidata.org/wiki/Q17143721","display_name":"Regularization (linguistics)","level":2,"score":0.321399986743927},{"id":"https://openalex.org/C149782125","wikidata":"https://www.wikidata.org/wiki/Q160039","display_name":"Econometrics","level":1,"score":0.3140000104904175},{"id":"https://openalex.org/C28826006","wikidata":"https://www.wikidata.org/wiki/Q33521","display_name":"Applied mathematics","level":1,"score":0.2987000048160553},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.28949999809265137},{"id":"https://openalex.org/C57869625","wikidata":"https://www.wikidata.org/wiki/Q1783502","display_name":"Rate of convergence","level":3,"score":0.28690001368522644},{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.2800999879837036},{"id":"https://openalex.org/C134121241","wikidata":"https://www.wikidata.org/wiki/Q899301","display_name":"Yield (engineering)","level":2,"score":0.2678999900817871},{"id":"https://openalex.org/C105795698","wikidata":"https://www.wikidata.org/wiki/Q12483","display_name":"Statistics","level":1,"score":0.2671000063419342},{"id":"https://openalex.org/C207201462","wikidata":"https://www.wikidata.org/wiki/Q182505","display_name":"Bayes' theorem","level":3,"score":0.26429998874664307},{"id":"https://openalex.org/C49937458","wikidata":"https://www.wikidata.org/wiki/Q2599292","display_name":"Probabilistic logic","level":2,"score":0.26179999113082886}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2603.02155","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.02155","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2603.02155","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.02155","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[{"id":"https://metadata.un.org/sdg/16","score":0.4048018753528595,"display_name":"Peace, Justice and strong institutions"}],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Recent":[0],"studies":[1],"have":[2],"shown":[3],"that":[4,155],"reinforcement":[5],"learning":[6,36],"with":[7,37,82],"KL-regularized":[8,40,157,175],"objectives":[9,41],"can":[10],"enjoy":[11],"faster":[12],"rates":[13],"of":[14,34,64,97,117,141,174,180,189],"convergence":[15],"or":[16],"logarithmic":[17,108],"regret,":[18],"in":[19,26,146,187],"contrast":[20],"to":[21,39,50],"the":[22,27,31,77,90,95,101,123,142,147,156],"classical":[23],"$\\sqrt{T}$-type":[24],"regret":[25,80,158],"unregularized":[28],"setting.":[29],"However,":[30],"statistical":[32],"efficiency":[33],"online":[35],"respect":[38],"remains":[42],"far":[43],"from":[44,133],"completely":[45],"characterized,":[46],"even":[47],"when":[48],"specialized":[49],"multi-armed":[51],"bandits":[52],"(MABs).":[53],"We":[54],"address":[55],"this":[56],"problem":[57],"for":[58,159],"MABs":[59,160,176],"via":[60],"a":[61,67,73,138,171],"sharp":[62],"analysis":[63,119],"KL-UCB":[65],"using":[66],"novel":[68],"peeling":[69],"argument,":[70],"which":[71,131],"yields":[72],"$\\tilde{O}(\u03b7K\\log^2T)$":[74],"upper":[75],"bound:":[76],"first":[78,124],"high-probability":[79],"bound":[81,127],"linear":[83],"dependence":[84],"on":[85],"$K$.":[86],"Here,":[87],"$T$":[88],"is":[89,94,100,120,161],"time":[91],"horizon,":[92],"$K$":[93],"number":[96],"arms,":[98],"$\u03b7^{-1}$":[99],"regularization":[102],"intensity,":[103],"and":[104,137,163,182,192],"$\\tilde{O}$":[105],"hides":[106],"all":[107,178],"factors":[109],"except":[110],"those":[111],"involving":[112],"$\\log":[113],"T$.":[114],"The":[115],"near-tightness":[116],"our":[118,168],"certified":[121],"by":[122],"non-constant":[125],"lower":[126],"$\u03a9(\u03b7K":[128],"\\log":[129],"T)$,":[130],"follows":[132],"subtle":[134],"hard-instance":[135],"constructions":[136],"tailored":[139],"decomposition":[140],"Bayes":[143],"prior.":[144],"Moreover,":[145],"low-regularization":[148],"regime":[149],"(i.e.,":[150],"large":[151],"$\u03b7$),":[152],"we":[153],"show":[154],"$\u03b7$-independent":[162],"scales":[164],"as":[165],"$\\tilde\u0398(\\sqrt{KT})$.":[166],"Overall,":[167],"results":[169],"provide":[170],"thorough":[172],"understanding":[173],"across":[177],"regimes":[179],"$\u03b7$":[181],"yield":[183],"nearly":[184],"optimal":[185],"bounds":[186],"terms":[188],"$K$,":[190],"$\u03b7$,":[191],"$T$.":[193]},"counts_by_year":[],"updated_date":"2026-03-04T07:09:34.246503","created_date":"2026-03-04T00:00:00"}