{"id":"https://openalex.org/W2977518448","doi":"https://doi.org/10.5220/0008175604120423","title":"Risk-averse Distributional Reinforcement Learning: A CVaR Optimization Approach","display_name":"Risk-averse Distributional Reinforcement Learning: A CVaR Optimization Approach","publication_year":2019,"publication_date":"2019-01-01","ids":{"openalex":"https://openalex.org/W2977518448","doi":"https://doi.org/10.5220/0008175604120423","mag":"2977518448"},"language":"en","primary_location":{"id":"doi:10.5220/0008175604120423","is_oa":true,"landing_page_url":"https://doi.org/10.5220/0008175604120423","pdf_url":null,"source":null,"license":"cc-by-nc-nd","license_id":"https://openalex.org/licenses/cc-by-nc-nd","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 11th International Joint Conference on Computational Intelligence","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":true,"oa_status":"gold","oa_url":"https://doi.org/10.5220/0008175604120423","any_repository_has_fulltext":null},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5035818745","display_name":"Silvestr Stanko","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Silvestr Stanko","raw_affiliation_strings":["DHL ITS Digital Lab and Czech Republic, --- Select a Country ---"],"affiliations":[{"raw_affiliation_string":"DHL ITS Digital Lab and Czech Republic, --- Select a Country ---","institution_ids":[]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5001351494","display_name":"Karel Macek","orcid":"https://orcid.org/0000-0002-3914-447X"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Karel Macek","raw_affiliation_strings":["DHL ITS Digital Lab and Czech Republic, --- Select a Country ---"],"affiliations":[{"raw_affiliation_string":"DHL ITS Digital Lab and Czech Republic, --- Select a Country ---","institution_ids":[]}]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":2,"corresponding_author_ids":["https://openalex.org/A5035818745"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.4201,"has_fulltext":false,"cited_by_count":12,"citation_normalized_percentile":{"value":0.71371178,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":89,"max":99},"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9940000176429749,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9940000176429749,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Machine Learning","score":0.9905999898910522,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11413","display_name":"Risk and Portfolio Optimization","score":0.9811999797821045,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/cvar","display_name":"CVAR","score":0.993873655796051},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.6493593454360962},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.6285873055458069},{"id":"https://openalex.org/keywords/expected-shortfall","display_name":"Expected shortfall","score":0.6128546595573425},{"id":"https://openalex.org/keywords/mathematical-optimization","display_name":"Mathematical optimization","score":0.5776968598365784},{"id":"https://openalex.org/keywords/context","display_name":"Context (archaeology)","score":0.5145794749259949},{"id":"https://openalex.org/keywords/robustness","display_name":"Robustness (evolution)","score":0.45243149995803833},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.3378831744194031},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.2223566174507141},{"id":"https://openalex.org/keywords/risk-management","display_name":"Risk management","score":0.1102340817451477}],"concepts":[{"id":"https://openalex.org/C2779922397","wikidata":"https://www.wikidata.org/wiki/Q5014755","display_name":"CVAR","level":4,"score":0.993873655796051},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.6493593454360962},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6285873055458069},{"id":"https://openalex.org/C5496284","wikidata":"https://www.wikidata.org/wiki/Q5420856","display_name":"Expected shortfall","level":3,"score":0.6128546595573425},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.5776968598365784},{"id":"https://openalex.org/C2779343474","wikidata":"https://www.wikidata.org/wiki/Q3109175","display_name":"Context (archaeology)","level":2,"score":0.5145794749259949},{"id":"https://openalex.org/C63479239","wikidata":"https://www.wikidata.org/wiki/Q7353546","display_name":"Robustness (evolution)","level":3,"score":0.45243149995803833},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.3378831744194031},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.2223566174507141},{"id":"https://openalex.org/C32896092","wikidata":"https://www.wikidata.org/wiki/Q189447","display_name":"Risk management","level":2,"score":0.1102340817451477},{"id":"https://openalex.org/C151730666","wikidata":"https://www.wikidata.org/wiki/Q7205","display_name":"Paleontology","level":1,"score":0.0},{"id":"https://openalex.org/C187736073","wikidata":"https://www.wikidata.org/wiki/Q2920921","display_name":"Management","level":1,"score":0.0},{"id":"https://openalex.org/C86803240","wikidata":"https://www.wikidata.org/wiki/Q420","display_name":"Biology","level":0,"score":0.0},{"id":"https://openalex.org/C104317684","wikidata":"https://www.wikidata.org/wiki/Q7187","display_name":"Gene","level":2,"score":0.0},{"id":"https://openalex.org/C162324750","wikidata":"https://www.wikidata.org/wiki/Q8134","display_name":"Economics","level":0,"score":0.0},{"id":"https://openalex.org/C55493867","wikidata":"https://www.wikidata.org/wiki/Q7094","display_name":"Biochemistry","level":1,"score":0.0},{"id":"https://openalex.org/C185592680","wikidata":"https://www.wikidata.org/wiki/Q2329","display_name":"Chemistry","level":0,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.5220/0008175604120423","is_oa":true,"landing_page_url":"https://doi.org/10.5220/0008175604120423","pdf_url":null,"source":null,"license":"cc-by-nc-nd","license_id":"https://openalex.org/licenses/cc-by-nc-nd","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 11th International Joint Conference on Computational Intelligence","raw_type":"proceedings-article"}],"best_oa_location":{"id":"doi:10.5220/0008175604120423","is_oa":true,"landing_page_url":"https://doi.org/10.5220/0008175604120423","pdf_url":null,"source":null,"license":"cc-by-nc-nd","license_id":"https://openalex.org/licenses/cc-by-nc-nd","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 11th International Joint Conference on Computational Intelligence","raw_type":"proceedings-article"},"sustainable_development_goals":[{"display_name":"Peace, Justice and strong institutions","score":0.5400000214576721,"id":"https://metadata.un.org/sdg/16"}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":19,"referenced_works":["https://openalex.org/W51049863","https://openalex.org/W99771112","https://openalex.org/W1647779468","https://openalex.org/W1845972764","https://openalex.org/W2088413745","https://openalex.org/W2163605009","https://openalex.org/W2167696704","https://openalex.org/W2173564293","https://openalex.org/W2266738696","https://openalex.org/W2294047900","https://openalex.org/W2313791856","https://openalex.org/W2561666900","https://openalex.org/W2607276279","https://openalex.org/W2623491082","https://openalex.org/W2766447205","https://openalex.org/W2803308811","https://openalex.org/W2947867310","https://openalex.org/W2963423916","https://openalex.org/W2963590277"],"related_works":["https://openalex.org/W4316167276","https://openalex.org/W2002736235","https://openalex.org/W2232143283","https://openalex.org/W1647779468","https://openalex.org/W48101171","https://openalex.org/W2008510020","https://openalex.org/W2096554740","https://openalex.org/W2989754218","https://openalex.org/W3124407081","https://openalex.org/W3096753274"],"abstract_inverted_index":{"Conditional":[0],"Value-at-Risk":[1],"(CVaR)":[2],"is":[3],"a":[4,47,63,81,95,105,141,149],"well-known":[5],"measure":[6],"of":[7,19,35,69,84,123],"risk":[8,170],"that":[9,65],"has":[10],"been":[11],"directly":[12],"equated":[13],"to":[14,41,75,119,168],"robustness,":[15],"an":[16,128],"important":[17],"component":[18],"Artificial":[20],"Intelligence":[21],"(AI)":[22],"safety.":[23],"In":[24],"this":[25],"paper":[26],"we":[27,51,79,88,126,145],"focus":[28],"on":[29],"optimizing":[30],"CVaR":[31,54,85,90,115,135,162],"in":[32,62,148],"the":[33,42,53,70,109,113,121,134,160],"context":[34],"Reinforcement":[36],"Learning":[37],"(RL),":[38],"as":[39,104,140],"opposed":[40],"usual":[43],"risk-neutral":[44],"expectation.":[45],"As":[46],"first":[48],"original":[49,71],"contribution,":[50],"improve":[52],"Value":[55,86],"Iteration":[56,87],"algorithm":[57,72,131],"(Chow":[58],"et":[59],"al.,":[60],"2015)":[61],"way":[64],"reduces":[66],"computational":[67],"complexity":[68],"from":[73,112,171],"polynomial":[74],"linear":[76],"time.":[77],"Secondly,":[78],"propose":[80,127],"sampling":[82],"version":[83],"call":[89],"Q-learning.":[91],"We":[92],"also":[93],"derive":[94],"distributional":[96],"policy":[97,111],"improvement":[98],"algorithm,":[99],"and":[100],"later":[101,146],"use":[102,147],"it":[103],"heuristic":[106],"for":[107],"extracting":[108],"optimal":[110],"converged":[114],"Q-learning":[116,130,163],"algorithm.":[117],"Finally,":[118],"show":[120],"scalability":[122],"our":[124],"method,":[125],"approximate":[129],"by":[132],"reformulating":[133],"Temporal":[136],"Difference":[137],"update":[138],"rule":[139],"loss":[142],"function":[143],"which":[144,165],"deep":[150],"learning":[151],"context.":[152],"All":[153],"proposed":[154],"methods":[155],"are":[156],"experimentally":[157],"analyzed,":[158],"including":[159],"Deep":[161],"agent":[164],"learns":[166],"how":[167],"avoid":[169],"raw":[172],"pixels.":[173]},"counts_by_year":[{"year":2026,"cited_by_count":1},{"year":2025,"cited_by_count":2},{"year":2024,"cited_by_count":4},{"year":2023,"cited_by_count":2},{"year":2022,"cited_by_count":2},{"year":2021,"cited_by_count":1}],"updated_date":"2025-11-06T03:46:38.306776","created_date":"2025-10-10T00:00:00"}