{"id":"https://openalex.org/W4416514172","doi":"https://doi.org/10.1109/itw62417.2025.11240440","title":"Information-Theoretic Minimax Regret Upper Bounds for Reinforcement Learning Problems","display_name":"Information-Theoretic Minimax Regret Upper Bounds for Reinforcement Learning Problems","publication_year":2025,"publication_date":"2025-09-29","ids":{"openalex":"https://openalex.org/W4416514172","doi":"https://doi.org/10.1109/itw62417.2025.11240440"},"language":null,"primary_location":{"id":"doi:10.1109/itw62417.2025.11240440","is_oa":false,"landing_page_url":"https://doi.org/10.1109/itw62417.2025.11240440","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE Information Theory Workshop (ITW)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5114534520","display_name":"Raghav Bongole","orcid":null},"institutions":[{"id":"https://openalex.org/I86987016","display_name":"KTH Royal Institute of Technology","ror":"https://ror.org/026vcq606","country_code":"SE","type":"education","lineage":["https://openalex.org/I86987016"]}],"countries":["SE"],"is_corresponding":false,"raw_author_name":"Raghav Bongole","raw_affiliation_strings":["KTH Royal Institute of Technology,Division of Information Science and Engineering (ISE)"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"KTH Royal Institute of Technology,Division of Information Science and Engineering (ISE)","institution_ids":["https://openalex.org/I86987016"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5010481265","display_name":"Amaury Gouverneur","orcid":null},"institutions":[{"id":"https://openalex.org/I86987016","display_name":"KTH Royal Institute of Technology","ror":"https://ror.org/026vcq606","country_code":"SE","type":"education","lineage":["https://openalex.org/I86987016"]}],"countries":["SE"],"is_corresponding":false,"raw_author_name":"Amaury Gouverneur","raw_affiliation_strings":["KTH Royal Institute of Technology,Division of Information Science and Engineering (ISE)"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"KTH Royal Institute of Technology,Division of Information Science and Engineering (ISE)","institution_ids":["https://openalex.org/I86987016"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5079492269","display_name":"Tobias J. Oechtering","orcid":"https://orcid.org/0000-0002-0036-9049"},"institutions":[{"id":"https://openalex.org/I86987016","display_name":"KTH Royal Institute of Technology","ror":"https://ror.org/026vcq606","country_code":"SE","type":"education","lineage":["https://openalex.org/I86987016"]}],"countries":["SE"],"is_corresponding":false,"raw_author_name":"Tobias J. Oechtering","raw_affiliation_strings":["KTH Royal Institute of Technology,Division of Information Science and Engineering (ISE)"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"KTH Royal Institute of Technology,Division of Information Science and Engineering (ISE)","institution_ids":["https://openalex.org/I86987016"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5041348422","display_name":"Mikael Skoglund","orcid":"https://orcid.org/0000-0002-7926-5081"},"institutions":[{"id":"https://openalex.org/I86987016","display_name":"KTH Royal Institute of Technology","ror":"https://ror.org/026vcq606","country_code":"SE","type":"education","lineage":["https://openalex.org/I86987016"]}],"countries":["SE"],"is_corresponding":false,"raw_author_name":"Mikael Skoglund","raw_affiliation_strings":["KTH Royal Institute of Technology,Division of Information Science and Engineering (ISE)"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"KTH Royal Institute of Technology,Division of Information Science and Engineering (ISE)","institution_ids":["https://openalex.org/I86987016"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":4,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.37192093,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"6"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T12101","display_name":"Advanced Bandit Algorithms Research","score":0.8253999948501587,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},"topics":[{"id":"https://openalex.org/T12101","display_name":"Advanced Bandit Algorithms Research","score":0.8253999948501587,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.11729999631643295,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11031","display_name":"Game Theory and Applications","score":0.010900000110268593,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/regret","display_name":"Regret","score":0.9474999904632568},{"id":"https://openalex.org/keywords/minimax","display_name":"Minimax","score":0.7490000128746033},{"id":"https://openalex.org/keywords/markov-decision-process","display_name":"Markov decision process","score":0.699400007724762},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.6270999908447266},{"id":"https://openalex.org/keywords/upper-and-lower-bounds","display_name":"Upper and lower bounds","score":0.4964999854564667},{"id":"https://openalex.org/keywords/bayesian-probability","display_name":"Bayesian probability","score":0.4950000047683716},{"id":"https://openalex.org/keywords/markov-chain","display_name":"Markov chain","score":0.38670000433921814}],"concepts":[{"id":"https://openalex.org/C50817715","wikidata":"https://www.wikidata.org/wiki/Q79895177","display_name":"Regret","level":2,"score":0.9474999904632568},{"id":"https://openalex.org/C149728462","wikidata":"https://www.wikidata.org/wiki/Q751319","display_name":"Minimax","level":2,"score":0.7490000128746033},{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.699400007724762},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.6270999908447266},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.5534999966621399},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.49950000643730164},{"id":"https://openalex.org/C77553402","wikidata":"https://www.wikidata.org/wiki/Q13222579","display_name":"Upper and lower bounds","level":2,"score":0.4964999854564667},{"id":"https://openalex.org/C107673813","wikidata":"https://www.wikidata.org/wiki/Q812534","display_name":"Bayesian probability","level":2,"score":0.4950000047683716},{"id":"https://openalex.org/C98763669","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov chain","level":2,"score":0.38670000433921814},{"id":"https://openalex.org/C28901747","wikidata":"https://www.wikidata.org/wiki/Q177571","display_name":"Decision theory","level":2,"score":0.3499000072479248},{"id":"https://openalex.org/C159886148","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov process","level":2,"score":0.3425000011920929},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.34150001406669617},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.3246000111103058},{"id":"https://openalex.org/C117148685","wikidata":"https://www.wikidata.org/wiki/Q6865376","display_name":"Minimax approximation algorithm","level":2,"score":0.2865000069141388},{"id":"https://openalex.org/C150325174","wikidata":"https://www.wikidata.org/wiki/Q4335500","display_name":"Optimal decision","level":3,"score":0.2653999924659729},{"id":"https://openalex.org/C115988155","wikidata":"https://www.wikidata.org/wiki/Q3262192","display_name":"Decision problem","level":2,"score":0.25859999656677246},{"id":"https://openalex.org/C160234255","wikidata":"https://www.wikidata.org/wiki/Q812535","display_name":"Bayesian inference","level":3,"score":0.2538999915122986},{"id":"https://openalex.org/C176248197","wikidata":"https://www.wikidata.org/wiki/Q458526","display_name":"Probably approximately correct learning","level":4,"score":0.25029999017715454}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/itw62417.2025.11240440","is_oa":false,"landing_page_url":"https://doi.org/10.1109/itw62417.2025.11240440","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE Information Theory Workshop (ITW)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":8,"referenced_works":["https://openalex.org/W1570963478","https://openalex.org/W1985077192","https://openalex.org/W2959895084","https://openalex.org/W4205710519","https://openalex.org/W4308216308","https://openalex.org/W4383982036","https://openalex.org/W4408345588","https://openalex.org/W4408353307"],"related_works":[],"abstract_inverted_index":{"We":[0,13,47,87],"study":[1],"different":[2],"classes":[3],"of":[4,28,117,147,156],"reinforcement":[5,17,44,166],"learning":[6,18,45,138],"problems":[7],"using":[8],"the":[9,25,81,90,100,118,130,133,137,141,144,148,154,177],"minimax":[10,29,50,82,91,101,111,178],"regret":[11,30,74,83,107,112,120,146],"framework.":[12,86],"formalize":[14],"a":[15,49,104],"finite-horizon":[16],"problem":[19],"setting":[20,55],"that":[21,56,71],"is":[22],"suitable":[23],"for":[24,99,176],"information-theoretic":[26,96],"analysis":[27],"which":[31],"encompasses":[32],"linear":[33,38,163,169],"bandits,":[34,164],"Markov":[35,39,170],"decision":[36,40,171],"processes,":[37,41,172],"and":[42,140,143,168],"other":[43],"problems.":[46],"derive":[48],"theorem":[51,92],"applicable":[52],"to":[53,79,93,125],"this":[54,67],"does":[57],"not":[58],"require":[59],"any":[60,72],"finiteness":[61],"or":[62],"deterministic":[63],"policy":[64],"constraints.":[65],"Using":[66],"theorem,":[68],"we":[69,152],"show":[70],"Bayesian":[73,106,119,145],"bound":[75,80,98,113],"can":[76],"be":[77],"used":[78],"within":[84],"our":[85,157],"then":[88],"apply":[89],"obtain":[94],"an":[95],"upper":[97],"regret,":[102],"leveraging":[103],"general":[105],"bound.":[108],"The":[109],"derived":[110],"inherits":[114],"key":[115],"properties":[116],"bound,":[121],"including":[122,162],"its":[123],"ability":[124],"isolate":[126],"factors":[127],"such":[128],"as":[129],"information":[131,135],"ratio,":[132],"mutual":[134],"between":[136],"target":[139,149],"environment,":[142],"policy.":[150],"Finally,":[151],"demonstrate":[153],"applicability":[155],"bounds":[158],"in":[159],"various":[160],"settings,":[161],"episodic":[165],"learning,":[167],"recovering":[173],"known":[174],"results":[175],"regret.":[179]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2025-11-23T00:00:00"}