{"id":"https://openalex.org/W4288079541","doi":"https://doi.org/10.1145/3383455.3422519","title":"Risk-sensitive reinforcement learning","display_name":"Risk-sensitive reinforcement learning","publication_year":2020,"publication_date":"2020-10-15","ids":{"openalex":"https://openalex.org/W4288079541","doi":"https://doi.org/10.1145/3383455.3422519"},"language":"en","primary_location":{"id":"doi:10.1145/3383455.3422519","is_oa":false,"landing_page_url":"https://doi.org/10.1145/3383455.3422519","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the First ACM International Conference on AI in Finance","raw_type":"proceedings-article"},"type":"preprint","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5046489226","display_name":"Nelson Vadori","orcid":"https://orcid.org/0000-0002-0690-4866"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Nelson Vadori","raw_affiliation_strings":["J.P. Morgan AI Research"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"J.P. Morgan AI Research","institution_ids":[]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5081450666","display_name":"Sumitra Ganesh","orcid":"https://orcid.org/0000-0003-1695-8574"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Sumitra Ganesh","raw_affiliation_strings":["J.P. Morgan AI Research"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"J.P. Morgan AI Research","institution_ids":[]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5111266756","display_name":"Prashant Reddy","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Prashant Reddy","raw_affiliation_strings":["J.P. Morgan AI Research"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"J.P. Morgan AI Research","institution_ids":[]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5057963205","display_name":"Manuela Veloso","orcid":"https://orcid.org/0000-0002-1995-095X"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Manuela Veloso","raw_affiliation_strings":["J.P. Morgan AI Research"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"J.P. Morgan AI Research","institution_ids":[]}]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":4,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":2.0312,"has_fulltext":false,"cited_by_count":26,"citation_normalized_percentile":{"value":0.89842083,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":90,"max":98},"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"9"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9993000030517578,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9993000030517578,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12101","display_name":"Advanced Bandit Algorithms Research","score":0.9983999729156494,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},{"id":"https://openalex.org/T11413","display_name":"Risk and Portfolio Optimization","score":0.9950000047683716,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.8204002976417542},{"id":"https://openalex.org/keywords/markov-decision-process","display_name":"Markov decision process","score":0.6365494728088379},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.5976454615592957},{"id":"https://openalex.org/keywords/randomness","display_name":"Randomness","score":0.552955150604248},{"id":"https://openalex.org/keywords/martingale","display_name":"Martingale (probability theory)","score":0.5465185642242432},{"id":"https://openalex.org/keywords/cumulative-prospect-theory","display_name":"Cumulative prospect theory","score":0.5263054370880127},{"id":"https://openalex.org/keywords/markov-process","display_name":"Markov process","score":0.44163939356803894},{"id":"https://openalex.org/keywords/bellman-equation","display_name":"Bellman equation","score":0.43014103174209595},{"id":"https://openalex.org/keywords/mathematical-optimization","display_name":"Mathematical optimization","score":0.41613101959228516},{"id":"https://openalex.org/keywords/cumulative-distribution-function","display_name":"Cumulative distribution function","score":0.4130387306213379},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.38887614011764526},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.32991963624954224},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.2593785524368286},{"id":"https://openalex.org/keywords/expected-utility-hypothesis","display_name":"Expected utility hypothesis","score":0.2557143270969391},{"id":"https://openalex.org/keywords/mathematical-economics","display_name":"Mathematical economics","score":0.16210585832595825},{"id":"https://openalex.org/keywords/probability-density-function","display_name":"Probability density function","score":0.13051855564117432}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.8204002976417542},{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.6365494728088379},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.5976454615592957},{"id":"https://openalex.org/C125112378","wikidata":"https://www.wikidata.org/wiki/Q176640","display_name":"Randomness","level":2,"score":0.552955150604248},{"id":"https://openalex.org/C48406656","wikidata":"https://www.wikidata.org/wiki/Q534112","display_name":"Martingale (probability theory)","level":2,"score":0.5465185642242432},{"id":"https://openalex.org/C2779449553","wikidata":"https://www.wikidata.org/wiki/Q5194187","display_name":"Cumulative prospect theory","level":3,"score":0.5263054370880127},{"id":"https://openalex.org/C159886148","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov process","level":2,"score":0.44163939356803894},{"id":"https://openalex.org/C14646407","wikidata":"https://www.wikidata.org/wiki/Q1430750","display_name":"Bellman equation","level":2,"score":0.43014103174209595},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.41613101959228516},{"id":"https://openalex.org/C103784038","wikidata":"https://www.wikidata.org/wiki/Q386228","display_name":"Cumulative distribution function","level":3,"score":0.4130387306213379},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.38887614011764526},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.32991963624954224},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.2593785524368286},{"id":"https://openalex.org/C205706631","wikidata":"https://www.wikidata.org/wiki/Q2319304","display_name":"Expected utility hypothesis","level":2,"score":0.2557143270969391},{"id":"https://openalex.org/C144237770","wikidata":"https://www.wikidata.org/wiki/Q747534","display_name":"Mathematical economics","level":1,"score":0.16210585832595825},{"id":"https://openalex.org/C197055811","wikidata":"https://www.wikidata.org/wiki/Q207522","display_name":"Probability density function","level":2,"score":0.13051855564117432},{"id":"https://openalex.org/C105795698","wikidata":"https://www.wikidata.org/wiki/Q12483","display_name":"Statistics","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1145/3383455.3422519","is_oa":false,"landing_page_url":"https://doi.org/10.1145/3383455.3422519","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the First ACM International Conference on AI in Finance","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[{"score":0.7900000214576721,"id":"https://metadata.un.org/sdg/16","display_name":"Peace, Justice and strong institutions"}],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":27,"referenced_works":["https://openalex.org/W1581437610","https://openalex.org/W1585575029","https://openalex.org/W1678814353","https://openalex.org/W1985291828","https://openalex.org/W2070570138","https://openalex.org/W2094387729","https://openalex.org/W2102288976","https://openalex.org/W2118821424","https://openalex.org/W2139914196","https://openalex.org/W2141203641","https://openalex.org/W2192829189","https://openalex.org/W2279759792","https://openalex.org/W2284276045","https://openalex.org/W2356031020","https://openalex.org/W2949963197","https://openalex.org/W2963856199","https://openalex.org/W3005158858","https://openalex.org/W3046126333","https://openalex.org/W3106238320","https://openalex.org/W3129717163","https://openalex.org/W3157409643","https://openalex.org/W3162902207","https://openalex.org/W4229915002","https://openalex.org/W4230778209","https://openalex.org/W4240813273","https://openalex.org/W4298876402","https://openalex.org/W6706320068"],"related_works":["https://openalex.org/W2152670157","https://openalex.org/W4308702637","https://openalex.org/W2386410636","https://openalex.org/W176737593","https://openalex.org/W2243595037","https://openalex.org/W2808418668","https://openalex.org/W2903299703","https://openalex.org/W2016648086","https://openalex.org/W3105579180","https://openalex.org/W2156021013"],"abstract_inverted_index":{"We":[0,117],"introduce":[1,88],"a":[2,35,67,84,89],"novel":[3],"framework":[4],"to":[5,9,43,112],"account":[6],"for":[7,19],"sensitivity":[8],"rewards":[10],"uncertainty":[11],"in":[12,59,74],"sequential":[13],"decision-making":[14],"problems.":[15,150],"While":[16],"risk-sensitive":[17,128],"formulations":[18],"Markov":[20],"decision":[21],"processes":[22],"studied":[23],"so":[24],"far":[25],"focus":[26],"on":[27,79,119,144],"the":[28,31,44,48,52,71,75,80,94,104,108,113,120],"distribution":[29],"of":[30,47,54,70,83,107],"cumulative":[32,76,114],"reward":[33,77,115],"as":[34,103],"whole,":[36],"we":[37,65],"aim":[38],"at":[39],"learning":[40,122],"policies":[41],"sensitive":[42],"uncertain/stochastic":[45],"nature":[46],"rewards,":[49],"which":[50,98],"has":[51],"advantage":[53],"being":[55],"conceptually":[56],"more":[57],"meaningful":[58],"some":[60],"cases.":[61],"To":[62],"this":[63,126],"end,":[64],"present":[66],"new":[68,90,127],"decomposition":[69,82],"randomness":[72],"contained":[73],"based":[78],"Doob":[81],"stochastic":[85],"process,":[86],"and":[87,136,140,147],"conceptual":[91],"tool":[92],"-":[93,97],"chaotic":[95],"variation":[96],"can":[99],"rigorously":[100],"be":[101],"interpreted":[102],"risk":[105],"measure":[106],"martingale":[109],"component":[110],"associated":[111],"process.":[116],"innovate":[118],"reinforcement":[121],"side":[123],"by":[124],"incorporating":[125],"approach":[129],"into":[130],"model-free":[131],"algorithms,":[132],"both":[133],"policy":[134],"gradient":[135],"value":[137],"function":[138],"based,":[139],"illustrate":[141],"its":[142],"relevance":[143],"grid":[145],"world":[146],"portfolio":[148],"optimization":[149]},"counts_by_year":[{"year":2024,"cited_by_count":2},{"year":2023,"cited_by_count":4},{"year":2022,"cited_by_count":5},{"year":2021,"cited_by_count":4},{"year":2020,"cited_by_count":2},{"year":2019,"cited_by_count":2},{"year":2018,"cited_by_count":2},{"year":2017,"cited_by_count":1},{"year":2014,"cited_by_count":1},{"year":2012,"cited_by_count":1}],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2022-07-28T00:00:00"}