{"id":"https://openalex.org/W7131381874","doi":"https://doi.org/10.48550/arxiv.2602.20404","title":"$\u03ba$-Explorer: A Unified Framework for Active Model Estimation in MDPs","display_name":"$\u03ba$-Explorer: A Unified Framework for Active Model Estimation in MDPs","publication_year":2026,"publication_date":"2026-02-23","ids":{"openalex":"https://openalex.org/W7131381874","doi":"https://doi.org/10.48550/arxiv.2602.20404"},"language":null,"primary_location":{"id":"pmh:doi:10.48550/arxiv.2602.20404","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"publisher-specific-oa","license_id":"https://openalex.org/licenses/publisher-specific-oa","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":null,"any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5123540865","display_name":"Xihe Gu","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Gu, Xihe","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5072739163","display_name":"Urbashi Mitra","orcid":"https://orcid.org/0000-0002-8896-1177"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Mitra, Urbashi","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5122331649","display_name":"Tara Javidi","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Javidi, Tara","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5123540865"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.6383000016212463,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.6383000016212463,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12101","display_name":"Advanced Bandit Algorithms Research","score":0.15530000627040863,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},{"id":"https://openalex.org/T12814","display_name":"Gaussian Processes and Bayesian Inference","score":0.029500000178813934,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/benchmark","display_name":"Benchmark (surveying)","score":0.6761999726295471},{"id":"https://openalex.org/keywords/regret","display_name":"Regret","score":0.6485999822616577},{"id":"https://openalex.org/keywords/smoothness","display_name":"Smoothness","score":0.6252999901771545},{"id":"https://openalex.org/keywords/parameterized-complexity","display_name":"Parameterized complexity","score":0.5913000106811523},{"id":"https://openalex.org/keywords/trajectory","display_name":"Trajectory","score":0.5404000282287598},{"id":"https://openalex.org/keywords/markov-decision-process","display_name":"Markov decision process","score":0.5006999969482422},{"id":"https://openalex.org/keywords/markov-process","display_name":"Markov process","score":0.3792000114917755},{"id":"https://openalex.org/keywords/matching","display_name":"Matching (statistics)","score":0.3569999933242798}],"concepts":[{"id":"https://openalex.org/C185798385","wikidata":"https://www.wikidata.org/wiki/Q1161707","display_name":"Benchmark (surveying)","level":2,"score":0.6761999726295471},{"id":"https://openalex.org/C50817715","wikidata":"https://www.wikidata.org/wiki/Q79895177","display_name":"Regret","level":2,"score":0.6485999822616577},{"id":"https://openalex.org/C102634674","wikidata":"https://www.wikidata.org/wiki/Q868473","display_name":"Smoothness","level":2,"score":0.6252999901771545},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6202999949455261},{"id":"https://openalex.org/C165464430","wikidata":"https://www.wikidata.org/wiki/Q1570441","display_name":"Parameterized complexity","level":2,"score":0.5913000106811523},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.572700023651123},{"id":"https://openalex.org/C13662910","wikidata":"https://www.wikidata.org/wiki/Q193139","display_name":"Trajectory","level":2,"score":0.5404000282287598},{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.5006999969482422},{"id":"https://openalex.org/C159886148","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov process","level":2,"score":0.3792000114917755},{"id":"https://openalex.org/C165064840","wikidata":"https://www.wikidata.org/wiki/Q1321061","display_name":"Matching (statistics)","level":2,"score":0.3569999933242798},{"id":"https://openalex.org/C98763669","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov chain","level":2,"score":0.3531000018119812},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.3384000062942505},{"id":"https://openalex.org/C179799912","wikidata":"https://www.wikidata.org/wiki/Q205084","display_name":"Computational complexity theory","level":2,"score":0.3255000114440918},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.31940001249313354},{"id":"https://openalex.org/C18762648","wikidata":"https://www.wikidata.org/wiki/Q42213","display_name":"Work (physics)","level":2,"score":0.31610000133514404},{"id":"https://openalex.org/C48103436","wikidata":"https://www.wikidata.org/wiki/Q599031","display_name":"State (computer science)","level":2,"score":0.3138999938964844},{"id":"https://openalex.org/C96250715","wikidata":"https://www.wikidata.org/wiki/Q965330","display_name":"Estimation","level":2,"score":0.31040000915527344},{"id":"https://openalex.org/C195065555","wikidata":"https://www.wikidata.org/wiki/Q214881","display_name":"Curvature","level":2,"score":0.29589998722076416},{"id":"https://openalex.org/C163836022","wikidata":"https://www.wikidata.org/wiki/Q6771326","display_name":"Markov model","level":3,"score":0.2921999990940094},{"id":"https://openalex.org/C173801870","wikidata":"https://www.wikidata.org/wiki/Q201413","display_name":"Heuristic","level":2,"score":0.2728999853134155},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.26350000500679016},{"id":"https://openalex.org/C167928553","wikidata":"https://www.wikidata.org/wiki/Q1376021","display_name":"Estimation theory","level":2,"score":0.2540000081062317}],"mesh":[],"locations_count":2,"locations":[{"id":"pmh:doi:10.48550/arxiv.2602.20404","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"publisher-specific-oa","license_id":"https://openalex.org/licenses/publisher-specific-oa","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},{"id":"doi:10.48550/arxiv.2602.20404","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2602.20404","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"pmh:doi:10.48550/arxiv.2602.20404","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"publisher-specific-oa","license_id":"https://openalex.org/licenses/publisher-specific-oa","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},"sustainable_development_goals":[{"id":"https://metadata.un.org/sdg/16","score":0.7123986482620239,"display_name":"Peace, Justice and strong institutions"}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"In":[0],"tabular":[1],"Markov":[2],"decision":[3],"processes":[4],"(MDPs)":[5],"with":[6,38],"perfect":[7],"state":[8],"observability,":[9],"each":[10,43],"trajectory":[11],"provides":[12,80,168],"active":[13,110],"samples":[14],"from":[15],"the":[16,30,39,77,90,98,102],"transition":[17,44],"distributions":[18],"conditioned":[19],"on":[20,28,47,50,162],"state-action":[21,118],"pairs.":[22],"Consequently,":[23],"accurate":[24],"model":[25],"estimation":[26,70,94],"depends":[27],"how":[29],"exploration":[31,111,174],"policy":[32],"allocates":[33],"visitation":[34,74],"frequencies":[35],"in":[36],"accordance":[37],"intrinsic":[40,69],"complexity":[41,71],"of":[42,58,84,101,104,124],"distribution.":[45],"Building":[46],"recent":[48],"work":[49],"coverage-based":[51],"exploration,":[52],"we":[53,106],"introduce":[54,149],"a":[55,81,150],"parameterized":[56],"family":[57],"decomposable":[59],"and":[60,72,92,129,147,153],"concave":[61],"objective":[62],"functions":[63],"$U_\u03ba$":[64,125],"that":[65,113,136,166],"explicitly":[66],"incorporate":[67],"both":[68],"extrinsic":[73],"frequency.":[75],"Moreover,":[76],"curvature":[78],"$\u03ba$":[79],"unified":[82],"treatment":[83],"various":[85],"global":[86],"objectives,":[87],"such":[88],"as":[89],"average-case":[91],"worst-case":[93],"error":[95],"objectives.":[96],"Using":[97],"closed-form":[99],"characterization":[100],"gradient":[103],"$U_\u03ba$,":[105],"propose":[107],"$\u03ba$-Explorer,":[108],"an":[109],"algorithm":[112,157],"performs":[114],"Frank-Wolfe-style":[115],"optimization":[116],"over":[117],"occupancy":[119],"measures.":[120],"The":[121],"diminishing-returns":[122],"structure":[123],"naturally":[126],"prioritizes":[127],"underexplored":[128],"high-variance":[130],"transitions,":[131],"while":[132],"preserving":[133],"smoothness":[134],"properties":[135],"enable":[137],"efficient":[138,155],"optimization.":[139],"We":[140],"establish":[141],"tight":[142],"regret":[143],"guarantees":[144],"for":[145,158],"$\u03ba$-Explorer":[146,167],"further":[148],"fully":[151],"online":[152],"computationally":[154],"surrogate":[156],"practical":[159],"use.":[160],"Experiments":[161],"benchmark":[163],"MDPs":[164],"demonstrate":[165],"superior":[169],"performance":[170],"compared":[171],"to":[172],"existing":[173],"strategies.":[175]},"counts_by_year":[],"updated_date":"2026-04-04T16:13:02.066488","created_date":"2026-02-26T00:00:00"}