{"id":"https://openalex.org/W3216234803","doi":"https://doi.org/10.1109/itw48936.2021.9611510","title":"A Multi-Armed Bandit Problem with the Optimal Arm Depending on a Hidden Markov Model","display_name":"A Multi-Armed Bandit Problem with the Optimal Arm Depending on a Hidden Markov Model","publication_year":2021,"publication_date":"2021-10-17","ids":{"openalex":"https://openalex.org/W3216234803","doi":"https://doi.org/10.1109/itw48936.2021.9611510","mag":"3216234803"},"language":"en","primary_location":{"id":"doi:10.1109/itw48936.2021.9611510","is_oa":false,"landing_page_url":"https://doi.org/10.1109/itw48936.2021.9611510","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2021 IEEE Information Theory Workshop (ITW)","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5032432450","display_name":"Talha Cihad G\u00fclc\u00fc","orcid":"https://orcid.org/0000-0002-8841-8617"},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Talha Cihad Gulcu","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":0,"corresponding_author_ids":["https://openalex.org/A5032432450"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"6"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T12101","display_name":"Advanced Bandit Algorithms Research","score":1.0,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},"topics":[{"id":"https://openalex.org/T12101","display_name":"Advanced Bandit Algorithms Research","score":1.0,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},{"id":"https://openalex.org/T12288","display_name":"Optimization and Search Problems","score":0.998199999332428,"subfield":{"id":"https://openalex.org/subfields/1705","display_name":"Computer Networks and Communications"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9975000023841858,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/regret","display_name":"Regret","score":0.8049159049987793},{"id":"https://openalex.org/keywords/markov-decision-process","display_name":"Markov decision process","score":0.5921420454978943},{"id":"https://openalex.org/keywords/markov-process","display_name":"Markov process","score":0.5753603577613831},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.5733198523521423},{"id":"https://openalex.org/keywords/markov-chain","display_name":"Markov chain","score":0.5680952668190002},{"id":"https://openalex.org/keywords/mathematical-optimization","display_name":"Mathematical optimization","score":0.553991436958313},{"id":"https://openalex.org/keywords/algorithm","display_name":"Algorithm","score":0.5070316791534424},{"id":"https://openalex.org/keywords/outcome","display_name":"Outcome (game theory)","score":0.49303290247917175},{"id":"https://openalex.org/keywords/process","display_name":"Process (computing)","score":0.4573584794998169},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.33484727144241333},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.14339229464530945},{"id":"https://openalex.org/keywords/statistics","display_name":"Statistics","score":0.10513988137245178}],"concepts":[{"id":"https://openalex.org/C50817715","wikidata":"https://www.wikidata.org/wiki/Q79895177","display_name":"Regret","level":2,"score":0.8049159049987793},{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.5921420454978943},{"id":"https://openalex.org/C159886148","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov process","level":2,"score":0.5753603577613831},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.5733198523521423},{"id":"https://openalex.org/C98763669","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov chain","level":2,"score":0.5680952668190002},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.553991436958313},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.5070316791534424},{"id":"https://openalex.org/C148220186","wikidata":"https://www.wikidata.org/wiki/Q7111912","display_name":"Outcome (game theory)","level":2,"score":0.49303290247917175},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.4573584794998169},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.33484727144241333},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.14339229464530945},{"id":"https://openalex.org/C105795698","wikidata":"https://www.wikidata.org/wiki/Q12483","display_name":"Statistics","level":1,"score":0.10513988137245178},{"id":"https://openalex.org/C111919701","wikidata":"https://www.wikidata.org/wiki/Q9135","display_name":"Operating system","level":1,"score":0.0},{"id":"https://openalex.org/C144237770","wikidata":"https://www.wikidata.org/wiki/Q747534","display_name":"Mathematical economics","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/itw48936.2021.9611510","is_oa":false,"landing_page_url":"https://doi.org/10.1109/itw48936.2021.9611510","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2021 IEEE Information Theory Workshop (ITW)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":45,"referenced_works":["https://openalex.org/W1861050369","https://openalex.org/W1944205345","https://openalex.org/W2008737310","https://openalex.org/W2009551863","https://openalex.org/W2023599408","https://openalex.org/W2044439361","https://openalex.org/W2098258765","https://openalex.org/W2104389751","https://openalex.org/W2112420033","https://openalex.org/W2113733815","https://openalex.org/W2137715997","https://openalex.org/W2138909795","https://openalex.org/W2148696022","https://openalex.org/W2158807713","https://openalex.org/W2163112974","https://openalex.org/W2170307371","https://openalex.org/W2346589071","https://openalex.org/W2499002200","https://openalex.org/W2737900586","https://openalex.org/W2751923451","https://openalex.org/W2790607499","https://openalex.org/W2798776137","https://openalex.org/W2962818688","https://openalex.org/W2962901793","https://openalex.org/W2963511480","https://openalex.org/W2964186085","https://openalex.org/W2964295918","https://openalex.org/W3016156492","https://openalex.org/W3107765940","https://openalex.org/W3123482145","https://openalex.org/W3159979150","https://openalex.org/W4299286629","https://openalex.org/W6640716383","https://openalex.org/W6674868663","https://openalex.org/W6680482420","https://openalex.org/W6684260611","https://openalex.org/W6684588631","https://openalex.org/W6685031738","https://openalex.org/W6697287935","https://openalex.org/W6705045919","https://openalex.org/W6741838961","https://openalex.org/W6743785172","https://openalex.org/W6748139578","https://openalex.org/W6750761875","https://openalex.org/W6795193314"],"related_works":["https://openalex.org/W2377003726","https://openalex.org/W2065691918","https://openalex.org/W2970347269","https://openalex.org/W4287863949","https://openalex.org/W4287102143","https://openalex.org/W1850488217","https://openalex.org/W2945119207","https://openalex.org/W3182614517","https://openalex.org/W2379651310","https://openalex.org/W2113019827"],"abstract_inverted_index":{"We":[0,73,121],"consider":[1],"a":[2,17],"novel":[3],"multi-armed":[4],"bandit":[5],"setup":[6,23],"in":[7,139],"which":[8],"the":[9,39,49,57,62,65,79,93,98,102,105,116,131,142],"reward":[10],"distribution":[11],"of":[12,38,59,64,95,104],"each":[13,33],"arm":[14,67,107],"depends":[15],"on":[16,78],"single":[18],"discrete":[19],"Markov":[20],"process.":[21],"This":[22,113],"involves":[24],"correlation":[25,31],"among":[26,32],"arms,":[27],"as":[28,30],"well":[29],"time":[34,99],"instant":[35],"when":[36],"one":[37],"arms":[40],"is":[41,89],"pulled.":[42],"For":[43],"this":[44],"problem":[45],"we":[46],"show":[47,123],"that":[48,115,124],"cumulative":[50],"regret":[51,96],"has":[52],"to":[53,91],"grow":[54],"linearly":[55],"with":[56],"number":[58],"instances":[60,100],"where":[61,101],"outcome":[63,103],"previous":[66,106],"pull":[68,108],"cannot":[69],"be":[70,110],"determined":[71],"uniquely.":[72,112],"propose":[74],"an":[75],"algorithm":[76,88,117,126,133],"relying":[77],"empirical":[80],"transition":[81],"matrix":[82],"and":[83,141],"analyze":[84],"its":[85],"performance.":[86],"The":[87],"shown":[90],"minimize":[92],"contribution":[94],"for":[97],"can":[109,127],"identified":[111],"implies":[114],"performs":[118],"order-wise":[119],"optimally.":[120],"experimentally":[122],"our":[125],"perform":[128],"better":[129],"than":[130],"correlated-UCB":[132],"introduced":[134],"by":[135],"Gupta":[136],"et.":[137],"al.":[138],"2018":[140],"classical":[143],"UCB":[144],"algorithm.":[145]},"counts_by_year":[],"updated_date":"2026-07-14T23:27:15.235271","created_date":"2025-10-10T00:00:00"}