{"id":"https://openalex.org/W7118473839","doi":"https://doi.org/10.48550/arxiv.2601.00831","title":"Horizon Reduction as Information Loss in Offline Reinforcement Learning","display_name":"Horizon Reduction as Information Loss in Offline Reinforcement Learning","publication_year":2025,"publication_date":"2025-12-25","ids":{"openalex":"https://openalex.org/W7118473839","doi":"https://doi.org/10.48550/arxiv.2601.00831"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2601.00831","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2601.00831","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2601.00831","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5095745271","display_name":"Uday Kumar Nidadala","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Nidadala, Uday Kumar","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5121981240","display_name":"Venkata Bhumika Guthi","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Guthi, Venkata Bhumika","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":2,"corresponding_author_ids":["https://openalex.org/A5095745271"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.5386999845504761,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.5386999845504761,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11653","display_name":"Financial Distress and Bankruptcy Prediction","score":0.1462000012397766,"subfield":{"id":"https://openalex.org/subfields/1402","display_name":"Accounting"},"field":{"id":"https://openalex.org/fields/14","display_name":"Business, Management and Accounting"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},{"id":"https://openalex.org/T12026","display_name":"Explainable Artificial Intelligence (XAI)","score":0.06069999933242798,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.698199987411499},{"id":"https://openalex.org/keywords/reduction","display_name":"Reduction (mathematics)","score":0.628000020980835},{"id":"https://openalex.org/keywords/identifiability","display_name":"Identifiability","score":0.520799994468689},{"id":"https://openalex.org/keywords/scalability","display_name":"Scalability","score":0.45329999923706055},{"id":"https://openalex.org/keywords/offline-learning","display_name":"Offline learning","score":0.4399000108242035},{"id":"https://openalex.org/keywords/set","display_name":"Set (abstract data type)","score":0.4311000108718872},{"id":"https://openalex.org/keywords/markov-decision-process","display_name":"Markov decision process","score":0.39629998803138733},{"id":"https://openalex.org/keywords/function","display_name":"Function (biology)","score":0.38690000772476196}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.698199987411499},{"id":"https://openalex.org/C111335779","wikidata":"https://www.wikidata.org/wiki/Q3454686","display_name":"Reduction (mathematics)","level":2,"score":0.628000020980835},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.557699978351593},{"id":"https://openalex.org/C122770356","wikidata":"https://www.wikidata.org/wiki/Q1656753","display_name":"Identifiability","level":2,"score":0.520799994468689},{"id":"https://openalex.org/C48044578","wikidata":"https://www.wikidata.org/wiki/Q727490","display_name":"Scalability","level":2,"score":0.45329999923706055},{"id":"https://openalex.org/C2780490138","wikidata":"https://www.wikidata.org/wiki/Q7079636","display_name":"Offline learning","level":3,"score":0.4399000108242035},{"id":"https://openalex.org/C177264268","wikidata":"https://www.wikidata.org/wiki/Q1514741","display_name":"Set (abstract data type)","level":2,"score":0.4311000108718872},{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.39629998803138733},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.3898000121116638},{"id":"https://openalex.org/C14036430","wikidata":"https://www.wikidata.org/wiki/Q3736076","display_name":"Function (biology)","level":2,"score":0.38690000772476196},{"id":"https://openalex.org/C2776359362","wikidata":"https://www.wikidata.org/wiki/Q2145286","display_name":"Representation (politics)","level":3,"score":0.3695000112056732},{"id":"https://openalex.org/C162838799","wikidata":"https://www.wikidata.org/wiki/Q596077","display_name":"Counterexample","level":2,"score":0.36730000376701355},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.36309999227523804},{"id":"https://openalex.org/C28761237","wikidata":"https://www.wikidata.org/wiki/Q7805321","display_name":"Time horizon","level":2,"score":0.3578999936580658},{"id":"https://openalex.org/C159176650","wikidata":"https://www.wikidata.org/wiki/Q43261","display_name":"Horizon","level":2,"score":0.35350000858306885},{"id":"https://openalex.org/C13662910","wikidata":"https://www.wikidata.org/wiki/Q193139","display_name":"Trajectory","level":2,"score":0.3528999984264374},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.3382999897003174},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.2922999858856201},{"id":"https://openalex.org/C98763669","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov chain","level":2,"score":0.29170000553131104},{"id":"https://openalex.org/C2780102126","wikidata":"https://www.wikidata.org/wiki/Q10928179","display_name":"Online and offline","level":2,"score":0.28940001130104065},{"id":"https://openalex.org/C113336015","wikidata":"https://www.wikidata.org/wiki/Q574010","display_name":"Complete information","level":2,"score":0.2800000011920929},{"id":"https://openalex.org/C207390915","wikidata":"https://www.wikidata.org/wiki/Q1230525","display_name":"Divergence (linguistics)","level":2,"score":0.27790001034736633},{"id":"https://openalex.org/C159886148","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov process","level":2,"score":0.2705000042915344},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.26019999384880066},{"id":"https://openalex.org/C99844830","wikidata":"https://www.wikidata.org/wiki/Q102441924","display_name":"Scaling","level":2,"score":0.2556000053882599}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2601.00831","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2601.00831","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2601.00831","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2601.00831","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Horizon":[0],"reduction":[1,50,75,89,175],"is":[2],"a":[3,129,202],"common":[4],"design":[5],"strategy":[6],"in":[7,83],"offline":[8,56,84,161,206],"reinforcement":[9],"learning":[10,23,91,104],"(RL),":[11],"used":[12],"to":[13,107,149],"mitigate":[14],"long-horizon":[15],"credit":[16],"assignment,":[17],"improve":[18,52],"stability,":[19],"and":[20,79,96,102,124,159,164,179,197],"enable":[21],"scalable":[22],"through":[24],"truncated":[25,157],"rollouts,":[26],"windowed":[27],"training,":[28],"or":[29],"hierarchical":[30],"decomposition":[31],"(Levine":[32],"et":[33,37,41,65,210,214,218],"al.,":[34,38,42,66,211,215,219],"2020;":[35,216],"Prudencio":[36],"2023;":[39],"Park":[40],"2025).":[43,67],"Despite":[44],"recent":[45],"empirical":[46],"evidence":[47],"that":[48,73,183,200],"horizon":[49,74,88,174],"can":[51,76,176],"scaling":[53],"on":[54,194],"challenging":[55],"RL":[57,207],"benchmarks,":[58],"its":[59],"theoretical":[60],"implications":[61],"remain":[62],"underdeveloped":[63],"(Park":[64],"In":[68],"this":[69,100],"paper,":[70],"we":[71,138],"show":[72],"induce":[77],"fundamental":[78],"irrecoverable":[80],"information":[81],"loss":[82],"RL.":[85],"We":[86],"formalize":[87],"as":[90],"from":[92,117],"fixed-length":[93,108],"trajectory":[94,109],"segments":[95],"prove":[97],"that,":[98],"under":[99,172],"paradigm":[101],"any":[103],"interface":[105],"restricted":[106],"segments,":[110],"optimal":[111],"policies":[112],"may":[113],"be":[114,177,185],"statistically":[115],"indistinguishable":[116],"suboptimal":[118],"ones":[119],"even":[120],"with":[121],"infinite":[122],"data":[123],"perfect":[125],"function":[126],"approximation.":[127],"Through":[128],"set":[130],"of":[131,205],"minimal":[132],"counterexample":[133],"Markov":[134],"decision":[135],"processes":[136],"(MDPs),":[137],"identify":[139],"three":[140],"distinct":[141],"structural":[142],"failure":[143],"modes:":[144],"(i)":[145],"prefix":[146],"indistinguishability":[147],"leading":[148],"identifiability":[150],"failure,":[151],"(ii)":[152],"objective":[153],"misspecification":[154],"induced":[155],"by":[156,187],"returns,":[158],"(iii)":[160],"dataset":[162],"support":[163],"representation":[165],"aliasing.":[166],"Our":[167],"results":[168],"establish":[169],"necessary":[170],"conditions":[171],"which":[173],"safe":[178],"highlight":[180],"intrinsic":[181],"limitations":[182],"cannot":[184],"overcome":[186],"algorithmic":[188,192],"improvements":[189],"alone,":[190],"complementing":[191],"work":[193],"conservative":[195],"objectives":[196],"distribution":[198],"shift":[199],"addresses":[201],"different":[203],"axis":[204],"difficulty":[208],"(Fujimoto":[209],"2019;":[212],"Kumar":[213],"Gulcehre":[217],"2020).":[220]},"counts_by_year":[],"updated_date":"2026-01-08T20:10:11.968330","created_date":"2026-01-08T00:00:00"}