{"id":"https://openalex.org/W7128821102","doi":"https://doi.org/10.48550/arxiv.2602.11387","title":"Provably Efficient Algorithms for S- and Non-Rectangular Robust MDPs with General Parameterization","display_name":"Provably Efficient Algorithms for S- and Non-Rectangular Robust MDPs with General Parameterization","publication_year":2026,"publication_date":"2026-02-11","ids":{"openalex":"https://openalex.org/W7128821102","doi":"https://doi.org/10.48550/arxiv.2602.11387"},"language":null,"primary_location":{"id":"pmh:doi:10.48550/arxiv.2602.11387","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":null,"any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5125520320","display_name":"Anirudh Satheesh","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Satheesh, Anirudh","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5125901427","display_name":"Ziyi Chen","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Chen, Ziyi","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5125951954","display_name":"Furong Huang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Huang, Furong","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5125964051","display_name":"Heng Huang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Huang, Heng","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":4,"corresponding_author_ids":["https://openalex.org/A5125520320"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.8087000250816345,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.8087000250816345,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12101","display_name":"Advanced Bandit Algorithms Research","score":0.08290000259876251,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},{"id":"https://openalex.org/T11612","display_name":"Stochastic Gradient Optimization Techniques","score":0.019500000402331352,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/estimator","display_name":"Estimator","score":0.5482000112533569},{"id":"https://openalex.org/keywords/lipschitz-continuity","display_name":"Lipschitz continuity","score":0.5364999771118164},{"id":"https://openalex.org/keywords/markov-decision-process","display_name":"Markov decision process","score":0.4794999957084656},{"id":"https://openalex.org/keywords/gradient-descent","display_name":"Gradient descent","score":0.47110000252723694},{"id":"https://openalex.org/keywords/sample","display_name":"Sample (material)","score":0.46389999985694885},{"id":"https://openalex.org/keywords/markov-chain-monte-carlo","display_name":"Markov chain Monte Carlo","score":0.4000000059604645},{"id":"https://openalex.org/keywords/monte-carlo-method","display_name":"Monte Carlo method","score":0.38429999351501465},{"id":"https://openalex.org/keywords/duality","display_name":"Duality (order theory)","score":0.36559998989105225}],"concepts":[{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.6467999815940857},{"id":"https://openalex.org/C185429906","wikidata":"https://www.wikidata.org/wiki/Q1130160","display_name":"Estimator","level":2,"score":0.5482000112533569},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.5389999747276306},{"id":"https://openalex.org/C22324862","wikidata":"https://www.wikidata.org/wiki/Q652707","display_name":"Lipschitz continuity","level":2,"score":0.5364999771118164},{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.4794999957084656},{"id":"https://openalex.org/C153258448","wikidata":"https://www.wikidata.org/wiki/Q1199743","display_name":"Gradient descent","level":3,"score":0.47110000252723694},{"id":"https://openalex.org/C198531522","wikidata":"https://www.wikidata.org/wiki/Q485146","display_name":"Sample (material)","level":2,"score":0.46389999985694885},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.41620001196861267},{"id":"https://openalex.org/C111350023","wikidata":"https://www.wikidata.org/wiki/Q1191869","display_name":"Markov chain Monte Carlo","level":3,"score":0.4000000059604645},{"id":"https://openalex.org/C19499675","wikidata":"https://www.wikidata.org/wiki/Q232207","display_name":"Monte Carlo method","level":2,"score":0.38429999351501465},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.3675999939441681},{"id":"https://openalex.org/C2778023678","wikidata":"https://www.wikidata.org/wiki/Q554403","display_name":"Duality (order theory)","level":2,"score":0.36559998989105225},{"id":"https://openalex.org/C18762648","wikidata":"https://www.wikidata.org/wiki/Q42213","display_name":"Work (physics)","level":2,"score":0.3357999920845032},{"id":"https://openalex.org/C206688291","wikidata":"https://www.wikidata.org/wiki/Q7617819","display_name":"Stochastic gradient descent","level":3,"score":0.3287999927997589},{"id":"https://openalex.org/C159886148","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov process","level":2,"score":0.3206000030040741},{"id":"https://openalex.org/C160343169","wikidata":"https://www.wikidata.org/wiki/Q968642","display_name":"Backward induction","level":3,"score":0.30730000138282776},{"id":"https://openalex.org/C63479239","wikidata":"https://www.wikidata.org/wiki/Q7353546","display_name":"Robustness (evolution)","level":3,"score":0.3046000003814697},{"id":"https://openalex.org/C179799912","wikidata":"https://www.wikidata.org/wiki/Q205084","display_name":"Computational complexity theory","level":2,"score":0.3010999858379364},{"id":"https://openalex.org/C98763669","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov chain","level":2,"score":0.29420000314712524},{"id":"https://openalex.org/C48103436","wikidata":"https://www.wikidata.org/wiki/Q599031","display_name":"State (computer science)","level":2,"score":0.29350000619888306},{"id":"https://openalex.org/C28826006","wikidata":"https://www.wikidata.org/wiki/Q33521","display_name":"Applied mathematics","level":1,"score":0.2896000146865845},{"id":"https://openalex.org/C147764199","wikidata":"https://www.wikidata.org/wiki/Q6865248","display_name":"Minification","level":2,"score":0.28610000014305115},{"id":"https://openalex.org/C193254401","wikidata":"https://www.wikidata.org/wiki/Q2160088","display_name":"Robust optimization","level":2,"score":0.26750001311302185},{"id":"https://openalex.org/C115680565","wikidata":"https://www.wikidata.org/wiki/Q5977448","display_name":"Gradient method","level":2,"score":0.2628999948501587}],"mesh":[],"locations_count":2,"locations":[{"id":"pmh:doi:10.48550/arxiv.2602.11387","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},{"id":"doi:10.48550/arxiv.2602.11387","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2602.11387","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"pmh:doi:10.48550/arxiv.2602.11387","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},"sustainable_development_goals":[{"id":"https://metadata.un.org/sdg/16","display_name":"Peace, Justice and strong institutions","score":0.7038466930389404}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"We":[0,57],"study":[1],"robust":[2,47,176],"Markov":[3],"decision":[4],"processes":[5],"(RMDPs)":[6],"with":[7,87,151],"general":[8,65,152],"policy":[9,66,153],"parameterization":[10,154],"under":[11],"s-rectangular":[12,110],"and":[13,25,52,61,113,134,170],"non-rectangular":[14,118],"uncertainty":[15,111,119],"sets.":[16],"Prior":[17],"work":[18,139],"is":[19,140],"largely":[20],"limited":[21],"to":[22,44,70,144],"tabular":[23],"policies,":[24],"hence":[26],"either":[27],"lacks":[28],"sample":[29,89,146],"complexity":[30,147],"guarantees":[31,148,164],"or":[32],"incurs":[33],"high":[34],"computational":[35],"cost.":[36],"Our":[37,138],"method":[38],"reduces":[39],"the":[40,131,141,161,166],"average":[41,123,135,167],"reward":[42,136,168],"RMDPs":[43,150],"entropy-regularized":[45],"discounted":[46,132,175],"MDPs,":[48],"restoring":[49],"strong":[50],"duality":[51],"enabling":[53],"tractable":[54],"equilibrium":[55],"computation.":[56],"prove":[58],"novel":[59],"Lipschitz":[60],"Lipschitz-smoothness":[62],"properties":[63],"for":[64,109,117,149,174],"parameterizations":[67],"that":[68],"extends":[69],"infinite":[71],"state":[72],"spaces.":[73],"To":[74],"address":[75],"infinite-horizon":[76],"gradient":[77,85,106],"estimation,":[78],"we":[79,102],"introduce":[80],"a":[81,91,104,114],"multilevel":[82],"Monte":[83],"Carlo":[84],"estimator":[86],"$\\tilde{\\mathcal{O}}(\u03b5^{-2})$":[88],"complexity,":[90],"factor":[92],"of":[93],"$\\mathcal{O}(\u03b5^{-2})$":[94],"improvement":[95],"over":[96],"prior":[97,127],"work.":[98],"Building":[99],"on":[100],"this,":[101],"design":[103],"projected":[105],"descent":[107],"algorithm":[108,116],"($\\mathcal{O}(\u03b5^{-5})$)":[112],"Frank--Wolfe":[115],"($\\mathcal{O}(\u03b5^{-4})$":[120],"discounted,":[121],"$\\mathcal{O}(\u03b5^{-10.5})$":[122],"reward),":[124],"significantly":[125],"improving":[126],"results":[128],"in":[129,165],"both":[130],"setting":[133,169],"setting.":[137],"first":[142,162],"one":[143],"provide":[145],"beyond":[155],"$(s,":[156],"a)$-rectangularity.":[157],"It":[158],"also":[159],"provides":[160],"such":[163],"improves":[171],"existing":[172],"bounds":[173],"MDPs.":[177]},"counts_by_year":[],"updated_date":"2026-04-04T16:13:02.066488","created_date":"2026-02-14T00:00:00"}