{"id":"https://openalex.org/W2783447922","doi":"https://doi.org/10.1109/allerton.2017.8262843","title":"Transition-based versus state-based reward functions for MDPs with Value-at-Risk","display_name":"Transition-based versus state-based reward functions for MDPs with Value-at-Risk","publication_year":2017,"publication_date":"2017-10-01","ids":{"openalex":"https://openalex.org/W2783447922","doi":"https://doi.org/10.1109/allerton.2017.8262843","mag":"2783447922"},"language":"en","primary_location":{"id":"doi:10.1109/allerton.2017.8262843","is_oa":false,"landing_page_url":"https://doi.org/10.1109/allerton.2017.8262843","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2017 55th Annual Allerton Conference on Communication, Control, and Computing (Allerton)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5022564470","display_name":"Shuai Ma","orcid":"https://orcid.org/0000-0002-0325-9347"},"institutions":[{"id":"https://openalex.org/I60158472","display_name":"Concordia University","ror":"https://ror.org/0420zvk78","country_code":"CA","type":"education","lineage":["https://openalex.org/I60158472"]}],"countries":["CA"],"is_corresponding":false,"raw_author_name":"Shuai Ma","raw_affiliation_strings":["Faculty of Engineering and Computer Science, Concordia University, Montreal, Quebec, Canada"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Faculty of Engineering and Computer Science, Concordia University, Montreal, Quebec, Canada","institution_ids":["https://openalex.org/I60158472"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5101868923","display_name":"Jia Yuan Yu","orcid":"https://orcid.org/0000-0002-6674-6150"},"institutions":[{"id":"https://openalex.org/I60158472","display_name":"Concordia University","ror":"https://ror.org/0420zvk78","country_code":"CA","type":"education","lineage":["https://openalex.org/I60158472"]}],"countries":["CA"],"is_corresponding":false,"raw_author_name":"Jia Yuan Yu","raw_affiliation_strings":["Faculty of Engineering and Computer Science, Concordia University, Montreal, Quebec, Canada"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Faculty of Engineering and Computer Science, Concordia University, Montreal, Quebec, Canada","institution_ids":["https://openalex.org/I60158472"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":[],"corresponding_institution_ids":["https://openalex.org/I60158472"],"apc_list":null,"apc_paid":null,"fwci":0.6195,"has_fulltext":false,"cited_by_count":5,"citation_normalized_percentile":{"value":0.78565433,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":89,"max":96},"biblio":{"volume":null,"issue":null,"first_page":"974","last_page":"981"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9936000108718872,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9936000108718872,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10876","display_name":"Fault Detection and Control Systems","score":0.9789999723434448,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11303","display_name":"Bayesian Modeling and Causal Inference","score":0.9739999771118164,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/markov-decision-process","display_name":"Markov decision process","score":0.7931877374649048},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7649596929550171},{"id":"https://openalex.org/keywords/markov-process","display_name":"Markov process","score":0.560879647731781},{"id":"https://openalex.org/keywords/function","display_name":"Function (biology)","score":0.5411627888679504},{"id":"https://openalex.org/keywords/bellman-equation","display_name":"Bellman equation","score":0.5386331677436829},{"id":"https://openalex.org/keywords/action","display_name":"Action (physics)","score":0.5317809581756592},{"id":"https://openalex.org/keywords/transformation","display_name":"Transformation (genetics)","score":0.5309281945228577},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.4951383173465729},{"id":"https://openalex.org/keywords/markov-chain","display_name":"Markov chain","score":0.49325746297836304},{"id":"https://openalex.org/keywords/mathematical-optimization","display_name":"Mathematical optimization","score":0.4896858036518097},{"id":"https://openalex.org/keywords/state","display_name":"State (computer science)","score":0.44634929299354553},{"id":"https://openalex.org/keywords/markov-model","display_name":"Markov model","score":0.41033995151519775},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.31626904010772705},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.20554479956626892},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.1482190489768982},{"id":"https://openalex.org/keywords/statistics","display_name":"Statistics","score":0.14787504076957703},{"id":"https://openalex.org/keywords/algorithm","display_name":"Algorithm","score":0.11048176884651184}],"concepts":[{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.7931877374649048},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7649596929550171},{"id":"https://openalex.org/C159886148","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov process","level":2,"score":0.560879647731781},{"id":"https://openalex.org/C14036430","wikidata":"https://www.wikidata.org/wiki/Q3736076","display_name":"Function (biology)","level":2,"score":0.5411627888679504},{"id":"https://openalex.org/C14646407","wikidata":"https://www.wikidata.org/wiki/Q1430750","display_name":"Bellman equation","level":2,"score":0.5386331677436829},{"id":"https://openalex.org/C2780791683","wikidata":"https://www.wikidata.org/wiki/Q846785","display_name":"Action (physics)","level":2,"score":0.5317809581756592},{"id":"https://openalex.org/C204241405","wikidata":"https://www.wikidata.org/wiki/Q461499","display_name":"Transformation (genetics)","level":3,"score":0.5309281945228577},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.4951383173465729},{"id":"https://openalex.org/C98763669","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov chain","level":2,"score":0.49325746297836304},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.4896858036518097},{"id":"https://openalex.org/C48103436","wikidata":"https://www.wikidata.org/wiki/Q599031","display_name":"State (computer science)","level":2,"score":0.44634929299354553},{"id":"https://openalex.org/C163836022","wikidata":"https://www.wikidata.org/wiki/Q6771326","display_name":"Markov model","level":3,"score":0.41033995151519775},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.31626904010772705},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.20554479956626892},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.1482190489768982},{"id":"https://openalex.org/C105795698","wikidata":"https://www.wikidata.org/wiki/Q12483","display_name":"Statistics","level":1,"score":0.14787504076957703},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.11048176884651184},{"id":"https://openalex.org/C55493867","wikidata":"https://www.wikidata.org/wiki/Q7094","display_name":"Biochemistry","level":1,"score":0.0},{"id":"https://openalex.org/C185592680","wikidata":"https://www.wikidata.org/wiki/Q2329","display_name":"Chemistry","level":0,"score":0.0},{"id":"https://openalex.org/C86803240","wikidata":"https://www.wikidata.org/wiki/Q420","display_name":"Biology","level":0,"score":0.0},{"id":"https://openalex.org/C104317684","wikidata":"https://www.wikidata.org/wiki/Q7187","display_name":"Gene","level":2,"score":0.0},{"id":"https://openalex.org/C78458016","wikidata":"https://www.wikidata.org/wiki/Q840400","display_name":"Evolutionary biology","level":1,"score":0.0},{"id":"https://openalex.org/C62520636","wikidata":"https://www.wikidata.org/wiki/Q944","display_name":"Quantum mechanics","level":1,"score":0.0},{"id":"https://openalex.org/C121332964","wikidata":"https://www.wikidata.org/wiki/Q413","display_name":"Physics","level":0,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/allerton.2017.8262843","is_oa":false,"landing_page_url":"https://doi.org/10.1109/allerton.2017.8262843","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2017 55th Annual Allerton Conference on Communication, Control, and Computing (Allerton)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[{"display_name":"Peace, Justice and strong institutions","id":"https://metadata.un.org/sdg/16","score":0.8100000023841858}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":40,"referenced_works":["https://openalex.org/W32403112","https://openalex.org/W145735272","https://openalex.org/W1518931405","https://openalex.org/W1607065182","https://openalex.org/W1678814353","https://openalex.org/W1765717155","https://openalex.org/W1969027466","https://openalex.org/W1980019479","https://openalex.org/W1980079915","https://openalex.org/W1987073631","https://openalex.org/W1997933673","https://openalex.org/W2008129990","https://openalex.org/W2019291268","https://openalex.org/W2059526210","https://openalex.org/W2060110534","https://openalex.org/W2066118288","https://openalex.org/W2071692771","https://openalex.org/W2102660061","https://openalex.org/W2110016544","https://openalex.org/W2115814664","https://openalex.org/W2128723253","https://openalex.org/W2165622730","https://openalex.org/W2279759792","https://openalex.org/W2334782222","https://openalex.org/W2401992734","https://openalex.org/W2405532007","https://openalex.org/W2548674525","https://openalex.org/W2587083293","https://openalex.org/W2599078145","https://openalex.org/W2762030425","https://openalex.org/W2962951833","https://openalex.org/W3103262232","https://openalex.org/W3122931884","https://openalex.org/W3125094392","https://openalex.org/W3125145310","https://openalex.org/W6637429886","https://openalex.org/W6676641049","https://openalex.org/W6695246873","https://openalex.org/W6713492654","https://openalex.org/W6765780914"],"related_works":["https://openalex.org/W4400868993","https://openalex.org/W3096874164","https://openalex.org/W1985560493","https://openalex.org/W2937181779","https://openalex.org/W2357975469","https://openalex.org/W2145363145","https://openalex.org/W1626977535","https://openalex.org/W2341346307","https://openalex.org/W3168977894","https://openalex.org/W2386410636"],"abstract_inverted_index":{"In":[0],"reinforcement":[1],"learning,":[2],"the":[3,15,19,22,32,35,39,64,75,91,106,114,118,124,130,140,153,158,170],"reward":[4,25,37,60,77,102,137,141,155,159,177],"function":[5,78,103,116,142,160,172],"on":[6,143,161],"current":[7,87,99,144,162],"state":[8,100,145],"and":[9,52,85,88,98,123,163],"action":[10,84,97],"is":[11,17,79,133],"widely":[12],"used.":[13],"When":[14],"objective":[16,33],"about":[18],"expectation":[20],"of":[21,120],"(discounted)":[23],"total":[24,36,176],"only,":[26,146],"it":[27],"works":[28],"perfectly.":[29],"However,":[30],"if":[31],"involves":[34],"distribution,":[38],"result":[40],"will":[41,104],"be":[42],"wrong.":[43],"This":[44],"paper":[45],"studies":[46],"Value-at-Risk":[47],"(VaR)":[48],"problems":[49],"in":[50,166],"short-":[51],"long-horizon":[53,110],"Markov":[54,136,154],"decision":[55],"processes":[56],"(MDPs)":[57],"with":[58,71,94,117,139,157,173],"two":[59],"functions,":[61],"which":[62],"share":[63],"same":[65],"expectations.":[66],"Firstly":[67],"we":[68,112,147],"show":[69],"that":[70],"VaR":[72,115,171],"objective,":[73],"when":[74],"real":[76],"transition-based":[80],"(with":[81],"respect":[82,95],"to":[83,96,168],"both":[86],"next":[89,164],"states),":[90],"simplified":[92],"(state-based,":[93],"only)":[101],"change":[105],"VaR.":[107],"Secondly,":[108],"for":[109,134,152],"MDPs,":[111],"estimate":[113,169],"aid":[119],"spectral":[121],"theory":[122],"central":[125],"limit":[126],"theorem.":[127],"Thirdly,":[128],"since":[129],"estimation":[131],"method":[132],"a":[135,149],"process":[138,156],"present":[148],"transformation":[150],"algorithm":[151],"states,":[165],"order":[167],"an":[174],"intact":[175],"distribution.":[178]},"counts_by_year":[{"year":2024,"cited_by_count":1},{"year":2021,"cited_by_count":1},{"year":2019,"cited_by_count":2},{"year":2018,"cited_by_count":1}],"updated_date":"2026-06-26T08:34:08.712188","created_date":"2025-10-10T00:00:00"}