{"id":"https://openalex.org/W7128080087","doi":"https://doi.org/10.48550/arxiv.2602.04131","title":"Decoupling Time and Risk: Risk-Sensitive Reinforcement Learning with General Discounting","display_name":"Decoupling Time and Risk: Risk-Sensitive Reinforcement Learning with General Discounting","publication_year":2026,"publication_date":"2026-02-04","ids":{"openalex":"https://openalex.org/W7128080087","doi":"https://doi.org/10.48550/arxiv.2602.04131"},"language":null,"primary_location":{"id":"pmh:doi:10.48550/arxiv.2602.04131","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":null,"any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5102487518","display_name":"Mehrdad Moghimi","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Moghimi, Mehrdad","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5004743961","display_name":"Anthony Coache","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Coache, Anthony","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5067984321","display_name":"Hyejin Ku","orcid":"https://orcid.org/0000-0003-0107-6974"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Ku, Hyejin","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5102487518"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.621399998664856,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.621399998664856,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12026","display_name":"Explainable Artificial Intelligence (XAI)","score":0.0763000026345253,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Machine Learning","score":0.07509999722242355,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/discounting","display_name":"Discounting","score":0.8708000183105469},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.6940000057220459},{"id":"https://openalex.org/keywords/markov-decision-process","display_name":"Markov decision process","score":0.6358000040054321},{"id":"https://openalex.org/keywords/robustness","display_name":"Robustness (evolution)","score":0.6338000297546387},{"id":"https://openalex.org/keywords/markov-process","display_name":"Markov process","score":0.5080000162124634},{"id":"https://openalex.org/keywords/decoupling","display_name":"Decoupling (probability)","score":0.47690001130104065},{"id":"https://openalex.org/keywords/function","display_name":"Function (biology)","score":0.40639999508857727},{"id":"https://openalex.org/keywords/bellman-equation","display_name":"Bellman equation","score":0.38769999146461487}],"concepts":[{"id":"https://openalex.org/C6177178","wikidata":"https://www.wikidata.org/wiki/Q10998070","display_name":"Discounting","level":2,"score":0.8708000183105469},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.6940000057220459},{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.6358000040054321},{"id":"https://openalex.org/C63479239","wikidata":"https://www.wikidata.org/wiki/Q7353546","display_name":"Robustness (evolution)","level":3,"score":0.6338000297546387},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.5848000049591064},{"id":"https://openalex.org/C159886148","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov process","level":2,"score":0.5080000162124634},{"id":"https://openalex.org/C205606062","wikidata":"https://www.wikidata.org/wiki/Q5249645","display_name":"Decoupling (probability)","level":2,"score":0.47690001130104065},{"id":"https://openalex.org/C14036430","wikidata":"https://www.wikidata.org/wiki/Q3736076","display_name":"Function (biology)","level":2,"score":0.40639999508857727},{"id":"https://openalex.org/C14646407","wikidata":"https://www.wikidata.org/wiki/Q1430750","display_name":"Bellman equation","level":2,"score":0.38769999146461487},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.37229999899864197},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.3564000129699707},{"id":"https://openalex.org/C98763669","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov chain","level":2,"score":0.34279999136924744},{"id":"https://openalex.org/C2777893452","wikidata":"https://www.wikidata.org/wiki/Q186412","display_name":"Temporal discounting","level":3,"score":0.34209999442100525},{"id":"https://openalex.org/C17098449","wikidata":"https://www.wikidata.org/wiki/Q176814","display_name":"Partially observable Markov decision process","level":4,"score":0.3377000093460083},{"id":"https://openalex.org/C165064840","wikidata":"https://www.wikidata.org/wiki/Q1321061","display_name":"Matching (statistics)","level":2,"score":0.310699999332428},{"id":"https://openalex.org/C2778029271","wikidata":"https://www.wikidata.org/wiki/Q5421931","display_name":"Extension (predicate logic)","level":2,"score":0.3050999939441681},{"id":"https://openalex.org/C2780616401","wikidata":"https://www.wikidata.org/wiki/Q1133673","display_name":"Cornerstone","level":2,"score":0.3028999865055084},{"id":"https://openalex.org/C149782125","wikidata":"https://www.wikidata.org/wiki/Q160039","display_name":"Econometrics","level":1,"score":0.30059999227523804},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.2948000133037567},{"id":"https://openalex.org/C151376022","wikidata":"https://www.wikidata.org/wiki/Q168698","display_name":"Exponential function","level":2,"score":0.2921000123023987},{"id":"https://openalex.org/C127729010","wikidata":"https://www.wikidata.org/wiki/Q60165","display_name":"Dynamic inconsistency","level":2,"score":0.28630000352859497},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.28519999980926514},{"id":"https://openalex.org/C2984634286","wikidata":"https://www.wikidata.org/wiki/Q1331926","display_name":"Decision process","level":2,"score":0.25760000944137573}],"mesh":[],"locations_count":2,"locations":[{"id":"pmh:doi:10.48550/arxiv.2602.04131","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},{"id":"doi:10.48550/arxiv.2602.04131","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2602.04131","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"pmh:doi:10.48550/arxiv.2602.04131","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},"sustainable_development_goals":[{"display_name":"Peace, Justice and strong institutions","score":0.8108013868331909,"id":"https://metadata.un.org/sdg/16"}],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Distributional":[0],"reinforcement":[1],"learning":[2],"(RL)":[3],"is":[4,27,32,61,147],"a":[5,36,68,92,112,148],"powerful":[6],"framework":[7,94],"increasingly":[8],"adopted":[9],"in":[10,71,107,150],"safety-critical":[11,167],"domains":[12],"for":[13,153,165],"its":[14,51],"ability":[15],"to":[16],"optimize":[17],"risk-sensitive":[18],"objectives.":[19],"However,":[20],"the":[21,24,40,54,58,64,116,134],"role":[22,70],"of":[23,39,50,75,99,104,115,118,136],"discount":[25,81],"factor":[26,82],"often":[28],"overlooked,":[29],"as":[30,35],"it":[31,60],"typically":[33],"treated":[34],"fixed":[37],"parameter":[38],"Markov":[41],"decision":[42],"process":[43],"or":[44],"tunable":[45],"hyperparameter,":[46],"with":[47,129,162],"little":[48],"consideration":[49],"effect":[52],"on":[53,87],"learned":[55],"policy.":[56],"In":[57],"literature,":[59],"well-known":[62],"that":[63,95,122,145],"discounting":[65,98,146],"function":[66],"plays":[67],"major":[69],"characterizing":[72],"time":[73],"preferences":[74,160],"an":[76,79],"agent,":[77],"which":[78],"exponential":[80],"cannot":[83],"fully":[84],"capture.":[85],"Building":[86],"this":[88],"insight,":[89],"we":[90],"propose":[91],"novel":[93],"supports":[96],"flexible":[97],"future":[100],"rewards":[101],"and":[102,132,158],"optimization":[103],"risk":[105,159],"measures":[106],"distributional":[108],"RL.":[109],"We":[110],"provide":[111],"technical":[113],"analysis":[114],"optimality":[117],"our":[119,123,137],"algorithms,":[120],"show":[121],"multi-horizon":[124],"extension":[125],"fixes":[126],"issues":[127],"raised":[128],"existing":[130],"methodologies,":[131],"validate":[133],"robustness":[135],"methods":[138],"through":[139],"extensive":[140],"experiments.":[141],"Our":[142],"results":[143],"highlight":[144],"cornerstone":[149],"decision-making":[151],"problems":[152],"capturing":[154],"more":[155],"expressive":[156],"temporal":[157],"profiles,":[161],"potential":[163],"implications":[164],"real-world":[166],"applications.":[168]},"counts_by_year":[],"updated_date":"2026-04-04T16:13:02.066488","created_date":"2026-02-07T00:00:00"}