{"id":"https://openalex.org/W4399520802","doi":"https://doi.org/10.1145/3618260.3649710","title":"Exploring and Learning in Sparse Linear MDPs without Computationally Intractable Oracles","display_name":"Exploring and Learning in Sparse Linear MDPs without Computationally Intractable Oracles","publication_year":2024,"publication_date":"2024-06-10","ids":{"openalex":"https://openalex.org/W4399520802","doi":"https://doi.org/10.1145/3618260.3649710"},"language":"en","primary_location":{"id":"doi:10.1145/3618260.3649710","is_oa":true,"landing_page_url":"https://doi.org/10.1145/3618260.3649710","pdf_url":"https://dl.acm.org/doi/pdf/10.1145/3618260.3649710","source":null,"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 56th Annual ACM Symposium on Theory of Computing","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":true,"oa_status":"gold","oa_url":"https://dl.acm.org/doi/pdf/10.1145/3618260.3649710","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5089252105","display_name":"Noah Golowich","orcid":"https://orcid.org/0000-0003-2274-7861"},"institutions":[{"id":"https://openalex.org/I63966007","display_name":"Massachusetts Institute of Technology","ror":"https://ror.org/042nb2s44","country_code":"US","type":"education","lineage":["https://openalex.org/I63966007"]}],"countries":["US"],"is_corresponding":true,"raw_author_name":"Noah Golowich","raw_affiliation_strings":["Massachusetts Institute of Technology, Cambridge, USA"],"affiliations":[{"raw_affiliation_string":"Massachusetts Institute of Technology, Cambridge, USA","institution_ids":["https://openalex.org/I63966007"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5045798295","display_name":"Ankur Moitra","orcid":"https://orcid.org/0000-0001-7047-0495"},"institutions":[{"id":"https://openalex.org/I63966007","display_name":"Massachusetts Institute of Technology","ror":"https://ror.org/042nb2s44","country_code":"US","type":"education","lineage":["https://openalex.org/I63966007"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Ankur Moitra","raw_affiliation_strings":["Massachusetts Institute of Technology, Cambridge, USA"],"affiliations":[{"raw_affiliation_string":"Massachusetts Institute of Technology, Cambridge, USA","institution_ids":["https://openalex.org/I63966007"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5036102061","display_name":"Dhruv Rohatgi","orcid":"https://orcid.org/0000-0002-0569-6698"},"institutions":[{"id":"https://openalex.org/I63966007","display_name":"Massachusetts Institute of Technology","ror":"https://ror.org/042nb2s44","country_code":"US","type":"education","lineage":["https://openalex.org/I63966007"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Dhruv Rohatgi","raw_affiliation_strings":["Massachusetts Institute of Technology, Cambridge, USA"],"affiliations":[{"raw_affiliation_string":"Massachusetts Institute of Technology, Cambridge, USA","institution_ids":["https://openalex.org/I63966007"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5089252105"],"corresponding_institution_ids":["https://openalex.org/I63966007"],"apc_list":null,"apc_paid":null,"fwci":1.022,"has_fulltext":true,"cited_by_count":3,"citation_normalized_percentile":{"value":0.79530098,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":91,"max":96},"biblio":{"volume":null,"issue":null,"first_page":"183","last_page":"193"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T12072","display_name":"Machine Learning and Algorithms","score":0.9983999729156494,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T12072","display_name":"Machine Learning and Algorithms","score":0.9983999729156494,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9932000041007996,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11303","display_name":"Bayesian Modeling and Causal Inference","score":0.984499990940094,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/markov-decision-process","display_name":"Markov decision process","score":0.6759384274482727},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.6587116718292236},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.5964365601539612},{"id":"https://openalex.org/keywords/linear-programming","display_name":"Linear programming","score":0.5669127106666565},{"id":"https://openalex.org/keywords/corollary","display_name":"Corollary","score":0.5248044729232788},{"id":"https://openalex.org/keywords/mathematical-optimization","display_name":"Mathematical optimization","score":0.5086046457290649},{"id":"https://openalex.org/keywords/dynamic-programming","display_name":"Dynamic programming","score":0.45664119720458984},{"id":"https://openalex.org/keywords/bounded-function","display_name":"Bounded function","score":0.4375115633010864},{"id":"https://openalex.org/keywords/feature","display_name":"Feature (linguistics)","score":0.4355732500553131},{"id":"https://openalex.org/keywords/representation","display_name":"Representation (politics)","score":0.41519150137901306},{"id":"https://openalex.org/keywords/set","display_name":"Set (abstract data type)","score":0.411357045173645},{"id":"https://openalex.org/keywords/theoretical-computer-science","display_name":"Theoretical computer science","score":0.3613477945327759},{"id":"https://openalex.org/keywords/markov-process","display_name":"Markov process","score":0.34477686882019043},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.2812104821205139},{"id":"https://openalex.org/keywords/algorithm","display_name":"Algorithm","score":0.2711977958679199},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.22991392016410828},{"id":"https://openalex.org/keywords/discrete-mathematics","display_name":"Discrete mathematics","score":0.12501093745231628}],"concepts":[{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.6759384274482727},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6587116718292236},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.5964365601539612},{"id":"https://openalex.org/C41045048","wikidata":"https://www.wikidata.org/wiki/Q202843","display_name":"Linear programming","level":2,"score":0.5669127106666565},{"id":"https://openalex.org/C2780012671","wikidata":"https://www.wikidata.org/wiki/Q1343870","display_name":"Corollary","level":2,"score":0.5248044729232788},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.5086046457290649},{"id":"https://openalex.org/C37404715","wikidata":"https://www.wikidata.org/wiki/Q380679","display_name":"Dynamic programming","level":2,"score":0.45664119720458984},{"id":"https://openalex.org/C34388435","wikidata":"https://www.wikidata.org/wiki/Q2267362","display_name":"Bounded function","level":2,"score":0.4375115633010864},{"id":"https://openalex.org/C2776401178","wikidata":"https://www.wikidata.org/wiki/Q12050496","display_name":"Feature (linguistics)","level":2,"score":0.4355732500553131},{"id":"https://openalex.org/C2776359362","wikidata":"https://www.wikidata.org/wiki/Q2145286","display_name":"Representation (politics)","level":3,"score":0.41519150137901306},{"id":"https://openalex.org/C177264268","wikidata":"https://www.wikidata.org/wiki/Q1514741","display_name":"Set (abstract data type)","level":2,"score":0.411357045173645},{"id":"https://openalex.org/C80444323","wikidata":"https://www.wikidata.org/wiki/Q2878974","display_name":"Theoretical computer science","level":1,"score":0.3613477945327759},{"id":"https://openalex.org/C159886148","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov process","level":2,"score":0.34477686882019043},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.2812104821205139},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.2711977958679199},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.22991392016410828},{"id":"https://openalex.org/C118615104","wikidata":"https://www.wikidata.org/wiki/Q121416","display_name":"Discrete mathematics","level":1,"score":0.12501093745231628},{"id":"https://openalex.org/C134306372","wikidata":"https://www.wikidata.org/wiki/Q7754","display_name":"Mathematical analysis","level":1,"score":0.0},{"id":"https://openalex.org/C17744445","wikidata":"https://www.wikidata.org/wiki/Q36442","display_name":"Political science","level":0,"score":0.0},{"id":"https://openalex.org/C199360897","wikidata":"https://www.wikidata.org/wiki/Q9143","display_name":"Programming language","level":1,"score":0.0},{"id":"https://openalex.org/C138885662","wikidata":"https://www.wikidata.org/wiki/Q5891","display_name":"Philosophy","level":0,"score":0.0},{"id":"https://openalex.org/C105795698","wikidata":"https://www.wikidata.org/wiki/Q12483","display_name":"Statistics","level":1,"score":0.0},{"id":"https://openalex.org/C41895202","wikidata":"https://www.wikidata.org/wiki/Q8162","display_name":"Linguistics","level":1,"score":0.0},{"id":"https://openalex.org/C94625758","wikidata":"https://www.wikidata.org/wiki/Q7163","display_name":"Politics","level":2,"score":0.0},{"id":"https://openalex.org/C199539241","wikidata":"https://www.wikidata.org/wiki/Q7748","display_name":"Law","level":1,"score":0.0}],"mesh":[],"locations_count":2,"locations":[{"id":"doi:10.1145/3618260.3649710","is_oa":true,"landing_page_url":"https://doi.org/10.1145/3618260.3649710","pdf_url":"https://dl.acm.org/doi/pdf/10.1145/3618260.3649710","source":null,"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 56th Annual ACM Symposium on Theory of Computing","raw_type":"proceedings-article"},{"id":"pmh:oai:dspace.mit.edu:1721.1/155662","is_oa":true,"landing_page_url":"https://hdl.handle.net/1721.1/155662","pdf_url":"https://dspace.mit.edu/bitstream/1721.1/155662/1/3618260.3649710.pdf","source":{"id":"https://openalex.org/S4306400425","display_name":"DSpace@MIT (Massachusetts Institute of Technology)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I63966007","host_organization_name":"Massachusetts Institute of Technology","host_organization_lineage":["https://openalex.org/I63966007"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by-nc","license_id":"https://openalex.org/licenses/cc-by-nc","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":"Association for Computing Machinery","raw_type":"http://purl.org/eprint/type/ConferencePaper"}],"best_oa_location":{"id":"doi:10.1145/3618260.3649710","is_oa":true,"landing_page_url":"https://doi.org/10.1145/3618260.3649710","pdf_url":"https://dl.acm.org/doi/pdf/10.1145/3618260.3649710","source":null,"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 56th Annual ACM Symposium on Theory of Computing","raw_type":"proceedings-article"},"sustainable_development_goals":[],"awards":[{"id":"https://openalex.org/G2811237814","display_name":null,"funder_award_id":"Grant","funder_id":"https://openalex.org/F4320337345","funder_display_name":"Office of Naval Research"},{"id":"https://openalex.org/G2994132860","display_name":null,"funder_award_id":"NDSEG","funder_id":"https://openalex.org/F4320337345","funder_display_name":"Office of Naval Research"},{"id":"https://openalex.org/G6621079209","display_name":null,"funder_award_id":"NDSEG","funder_id":"https://openalex.org/F4320306076","funder_display_name":"National Science Foundation"},{"id":"https://openalex.org/G6894402473","display_name":null,"funder_award_id":"Fellowship","funder_id":"https://openalex.org/F4320306076","funder_display_name":"National Science Foundation"},{"id":"https://openalex.org/G848032724","display_name":null,"funder_award_id":"Science","funder_id":"https://openalex.org/F4320306076","funder_display_name":"National Science Foundation"},{"id":"https://openalex.org/G8926491534","display_name":null,"funder_award_id":"Fellowship","funder_id":"https://openalex.org/F4320333566","funder_display_name":"National Defense Science and Engineering Graduate"}],"funders":[{"id":"https://openalex.org/F4320306076","display_name":"National Science Foundation","ror":"https://ror.org/021nxhr62"},{"id":"https://openalex.org/F4320333566","display_name":"National Defense Science and Engineering Graduate","ror":null},{"id":"https://openalex.org/F4320337345","display_name":"Office of Naval Research","ror":"https://ror.org/00rk2pe57"}],"has_content":{"grobid_xml":true,"pdf":true},"content_urls":{"pdf":"https://content.openalex.org/works/W4399520802.pdf","grobid_xml":"https://content.openalex.org/works/W4399520802.grobid-xml"},"referenced_works_count":26,"referenced_works":["https://openalex.org/W2029058452","https://openalex.org/W2116581043","https://openalex.org/W2127271355","https://openalex.org/W2128406106","https://openalex.org/W2135046866","https://openalex.org/W2140856955","https://openalex.org/W2161966552","https://openalex.org/W2162312215","https://openalex.org/W2163361804","https://openalex.org/W2510244936","https://openalex.org/W2575705757","https://openalex.org/W2583993537","https://openalex.org/W2912500072","https://openalex.org/W2913668833","https://openalex.org/W2971716595","https://openalex.org/W3035625450","https://openalex.org/W3035936851","https://openalex.org/W3083025901","https://openalex.org/W3099718522","https://openalex.org/W3100944043","https://openalex.org/W3121832289","https://openalex.org/W3168185438","https://openalex.org/W3168315810","https://openalex.org/W3216656735","https://openalex.org/W4281734303","https://openalex.org/W4399520802"],"related_works":["https://openalex.org/W4389475841","https://openalex.org/W4241327272","https://openalex.org/W2120406836","https://openalex.org/W1996214847","https://openalex.org/W2903299703","https://openalex.org/W2117282672","https://openalex.org/W4211224558","https://openalex.org/W4281791088","https://openalex.org/W2119790124","https://openalex.org/W4385342861"],"abstract_inverted_index":{"The":[0],"key":[1],"assumption":[2],"underlying":[3],"linear":[4,37,87,98,191],"Markov":[5],"Decision":[6],"Processes":[7],"(MDPs)":[8],"is":[9,59,101,119,135,198,243,298],"that":[10,22,30,68,152,182,208],"the":[11,31,50,62,69,90,113,117,130,136,154,166,170,180,248,262,265,292],"learner":[12],"has":[13],"access":[14],"to":[15,26,60,120],"a":[16,56,75,96,122,175,194,222,234,244,256,273,287],"known":[17],"feature":[18,93],"map":[19],"\u03c6(x,":[20],"a)":[21],"maps":[23],"state-action":[24],"pairs":[25],"d-dimensional":[27],"vectors,":[28],"and":[29,33,66,116,212,254],"rewards":[32],"transition":[34],"probabilities":[35],"are":[36,72,193],"functions":[38],"in":[39,74,125,237,251,280],"this":[40,83,141],"representation.":[41],"But":[42],"where":[43,290],"do":[44,210],"these":[45],"features":[46,71],"come":[47],"from?":[48],"In":[49,82,95,143],"absence":[51],"of":[52,79,92,108,172,179,224,259,264,277],"expert":[53],"domain":[54],"knowledge,":[55],"tempting":[57],"strategy":[58],"use":[61],"\u201ckitchen":[63],"sink\u201d":[64],"approach":[65],"hope":[67],"true":[70],"included":[73],"much":[76],"larger":[77],"set":[78],"potential":[80],"features.":[81],"paper":[84],"we":[85,168,228],"revisit":[86],"MDPs":[88,192,239],"from":[89],"perspective":[91],"selection.":[94],"k-sparse":[97],"MDP,":[99],"there":[100],"an":[102,173,230],"unknown":[103],"subset":[104],"S":[105],"\u2282":[106],"[d]":[107],"size":[109,263],"k":[110],"containing":[111],"all":[112],"relevant":[114],"features,":[115],"goal":[118],"learn":[121],"near-optimal":[123,235],"policy":[124,236],"only":[126],"poly(k,logd)":[127],"interactions":[128],"with":[129],"environment.":[131],"Our":[132],"main":[133,226],"result":[134],"first":[137],"polynomial-time":[138],"algorithm":[139,231,249],"for":[140,156,185,232],"problem.":[142],"contrast,":[144],"earlier":[145],"works":[146],"either":[147],"made":[148],"prohibitively":[149],"strong":[150],"assumptions":[151],"obviated":[153],"need":[155],"exploration,":[157],"or":[158],"required":[159],"solving":[160],"computationally":[161,299],"intractable":[162],"optimization":[163],"problems.":[164],"Along":[165],"way":[167],"introduce":[169],"notion":[171],"emulator:":[174],"succinct":[176],"approximate":[177],"representation":[178,296],"transitions,":[181],"still":[183],"suffices":[184],"computing":[186],"certain":[187],"Bellman":[188],"backups.":[189],"Since":[190],"non-parametric":[195],"model,":[196],"it":[197,285],"not":[199],"even":[200],"obvious":[201],"whether":[202],"polynomial-sized":[203],"emulators":[204],"exist.":[205],"We":[206],"show":[207],"they":[209],"exist,":[211],"moreover":[213],"can":[214,269],"be":[215,270],"computed":[216],"efficiently":[217],"via":[218,295],"convex":[219],"programming.":[220],"As":[221],"corollary":[223],"our":[225],"result,":[227],"give":[229],"learning":[233,275,282,297],"block":[238],"whose":[240],"decoding":[241],"function":[242],"low-depth":[245],"decision":[246,266],"tree;":[247],"runs":[250],"quasi-polynomial":[252],"time":[253],"takes":[255],"polynomial":[257],"number":[258],"samples":[260],"(in":[261],"tree).":[267],"This":[268],"seen":[271],"as":[272],"reinforcement":[274],"analogue":[276],"classic":[278],"results":[279],"computational":[281],"theory.":[283],"Furthermore,":[284],"gives":[286],"natural":[288],"model":[289],"improving":[291],"sample":[293],"complexity":[294],"feasible.":[300]},"counts_by_year":[{"year":2025,"cited_by_count":1},{"year":2024,"cited_by_count":2}],"updated_date":"2026-04-10T15:06:20.359241","created_date":"2025-10-10T00:00:00"}