{"id":"https://openalex.org/W4391019914","doi":"https://doi.org/10.1109/cdc49753.2023.10383692","title":"Risk-Sensitive RL Using Sampling-Based Expectation-Maximization","display_name":"Risk-Sensitive RL Using Sampling-Based Expectation-Maximization","publication_year":2023,"publication_date":"2023-12-13","ids":{"openalex":"https://openalex.org/W4391019914","doi":"https://doi.org/10.1109/cdc49753.2023.10383692"},"language":"en","primary_location":{"id":"doi:10.1109/cdc49753.2023.10383692","is_oa":false,"landing_page_url":"https://doi.org/10.1109/cdc49753.2023.10383692","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2023 62nd IEEE Conference on Decision and Control (CDC)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5051837539","display_name":"Erfaun Noorani","orcid":"https://orcid.org/0000-0002-5171-122X"},"institutions":[{"id":"https://openalex.org/I66946132","display_name":"University of Maryland, College Park","ror":"https://ror.org/047s2c258","country_code":"US","type":"education","lineage":["https://openalex.org/I66946132"]}],"countries":["US"],"is_corresponding":true,"raw_author_name":"Erfaun Noorani","raw_affiliation_strings":["Institute for Systems Research (ISR) at the University of Maryland,Department of Electrical and Computer Engineering,College Park,MD,USA","Department of Electrical and Computer Engineering, Institute for Systems Research (ISR) at the University of Maryland, College Park, MD, USA"],"affiliations":[{"raw_affiliation_string":"Institute for Systems Research (ISR) at the University of Maryland,Department of Electrical and Computer Engineering,College Park,MD,USA","institution_ids":["https://openalex.org/I66946132"]},{"raw_affiliation_string":"Department of Electrical and Computer Engineering, Institute for Systems Research (ISR) at the University of Maryland, College Park, MD, USA","institution_ids":["https://openalex.org/I66946132"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5044395526","display_name":"John S. Baras","orcid":"https://orcid.org/0000-0002-4955-8561"},"institutions":[{"id":"https://openalex.org/I66946132","display_name":"University of Maryland, College Park","ror":"https://ror.org/047s2c258","country_code":"US","type":"education","lineage":["https://openalex.org/I66946132"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"John S. Baras","raw_affiliation_strings":["Institute for Systems Research (ISR) at the University of Maryland,Department of Electrical and Computer Engineering,College Park,MD,USA","Department of Electrical and Computer Engineering, Institute for Systems Research (ISR) at the University of Maryland, College Park, MD, USA"],"affiliations":[{"raw_affiliation_string":"Institute for Systems Research (ISR) at the University of Maryland,Department of Electrical and Computer Engineering,College Park,MD,USA","institution_ids":["https://openalex.org/I66946132"]},{"raw_affiliation_string":"Department of Electrical and Computer Engineering, Institute for Systems Research (ISR) at the University of Maryland, College Park, MD, USA","institution_ids":["https://openalex.org/I66946132"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5045975901","display_name":"Karl Henrik Johansson","orcid":"https://orcid.org/0000-0001-9940-5929"},"institutions":[{"id":"https://openalex.org/I86987016","display_name":"KTH Royal Institute of Technology","ror":"https://ror.org/026vcq606","country_code":"SE","type":"education","lineage":["https://openalex.org/I86987016"]}],"countries":["SE"],"is_corresponding":false,"raw_author_name":"Karl H. Johansson","raw_affiliation_strings":["Royal Institute of Technology,Automatic Control Lab,Stockholm,Sweden","Automatic Control Lab, Royal Institute of Technology, Stockholm, Sweden"],"affiliations":[{"raw_affiliation_string":"Royal Institute of Technology,Automatic Control Lab,Stockholm,Sweden","institution_ids":["https://openalex.org/I86987016"]},{"raw_affiliation_string":"Automatic Control Lab, Royal Institute of Technology, Stockholm, Sweden","institution_ids":["https://openalex.org/I86987016"]}]}],"institutions":[],"countries_distinct_count":2,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5051837539"],"corresponding_institution_ids":["https://openalex.org/I66946132"],"apc_list":null,"apc_paid":null,"fwci":0.1961,"has_fulltext":false,"cited_by_count":1,"citation_normalized_percentile":{"value":0.5939728,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":91,"max":95},"biblio":{"volume":null,"issue":null,"first_page":"7015","last_page":"7020"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9994999766349792,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9994999766349792,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11195","display_name":"Simulation Techniques and Applications","score":0.9843999743461609,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},{"id":"https://openalex.org/T10848","display_name":"Advanced Multi-Objective Optimization Algorithms","score":0.9821000099182129,"subfield":{"id":"https://openalex.org/subfields/1703","display_name":"Computational Theory and Mathematics"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.6756715774536133},{"id":"https://openalex.org/keywords/probabilistic-logic","display_name":"Probabilistic logic","score":0.6658422946929932},{"id":"https://openalex.org/keywords/monte-carlo-method","display_name":"Monte Carlo method","score":0.6066737174987793},{"id":"https://openalex.org/keywords/markov-chain-monte-carlo","display_name":"Markov chain Monte Carlo","score":0.5691601037979126},{"id":"https://openalex.org/keywords/importance-sampling","display_name":"Importance sampling","score":0.5304279327392578},{"id":"https://openalex.org/keywords/expectation\u2013maximization-algorithm","display_name":"Expectation\u2013maximization algorithm","score":0.49927186965942383},{"id":"https://openalex.org/keywords/mathematical-optimization","display_name":"Mathematical optimization","score":0.4933604300022125},{"id":"https://openalex.org/keywords/algorithm","display_name":"Algorithm","score":0.4557774066925049},{"id":"https://openalex.org/keywords/bayesian-probability","display_name":"Bayesian probability","score":0.3786325454711914},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.23377743363380432},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.21024516224861145},{"id":"https://openalex.org/keywords/maximum-likelihood","display_name":"Maximum likelihood","score":0.16283896565437317},{"id":"https://openalex.org/keywords/statistics","display_name":"Statistics","score":0.09766870737075806}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6756715774536133},{"id":"https://openalex.org/C49937458","wikidata":"https://www.wikidata.org/wiki/Q2599292","display_name":"Probabilistic logic","level":2,"score":0.6658422946929932},{"id":"https://openalex.org/C19499675","wikidata":"https://www.wikidata.org/wiki/Q232207","display_name":"Monte Carlo method","level":2,"score":0.6066737174987793},{"id":"https://openalex.org/C111350023","wikidata":"https://www.wikidata.org/wiki/Q1191869","display_name":"Markov chain Monte Carlo","level":3,"score":0.5691601037979126},{"id":"https://openalex.org/C52740198","wikidata":"https://www.wikidata.org/wiki/Q1539564","display_name":"Importance sampling","level":3,"score":0.5304279327392578},{"id":"https://openalex.org/C182081679","wikidata":"https://www.wikidata.org/wiki/Q1275153","display_name":"Expectation\u2013maximization algorithm","level":3,"score":0.49927186965942383},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.4933604300022125},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.4557774066925049},{"id":"https://openalex.org/C107673813","wikidata":"https://www.wikidata.org/wiki/Q812534","display_name":"Bayesian probability","level":2,"score":0.3786325454711914},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.23377743363380432},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.21024516224861145},{"id":"https://openalex.org/C49781872","wikidata":"https://www.wikidata.org/wiki/Q1045555","display_name":"Maximum likelihood","level":2,"score":0.16283896565437317},{"id":"https://openalex.org/C105795698","wikidata":"https://www.wikidata.org/wiki/Q12483","display_name":"Statistics","level":1,"score":0.09766870737075806}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/cdc49753.2023.10383692","is_oa":false,"landing_page_url":"https://doi.org/10.1109/cdc49753.2023.10383692","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2023 62nd IEEE Conference on Decision and Control (CDC)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[{"display_name":"Partnerships for the goals","score":0.44999998807907104,"id":"https://metadata.un.org/sdg/17"}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":22,"referenced_works":["https://openalex.org/W1515062618","https://openalex.org/W1965878388","https://openalex.org/W1993411524","https://openalex.org/W2088413745","https://openalex.org/W2121863487","https://openalex.org/W2134199473","https://openalex.org/W2167117957","https://openalex.org/W2462906003","https://openalex.org/W2567948266","https://openalex.org/W2799151646","https://openalex.org/W4200630212","https://openalex.org/W4205513846","https://openalex.org/W4210564515","https://openalex.org/W4236670843","https://openalex.org/W4243772471","https://openalex.org/W4249753958","https://openalex.org/W4285213594","https://openalex.org/W4294691491","https://openalex.org/W4301009830","https://openalex.org/W6630819043","https://openalex.org/W6718836005","https://openalex.org/W6750186571"],"related_works":["https://openalex.org/W2151689585","https://openalex.org/W2380816257","https://openalex.org/W3087071515","https://openalex.org/W4283726152","https://openalex.org/W1525770572","https://openalex.org/W1485888979","https://openalex.org/W3172507773","https://openalex.org/W2806680938","https://openalex.org/W4302285290","https://openalex.org/W4399590296"],"abstract_inverted_index":{"There":[0],"is":[1],"a":[2,36,71,81,146],"need":[3],"for":[4,48,96],"robust":[5,27],"Reinforcement":[6],"Learning":[7],"(RL)":[8],"algorithms":[9,29,99],"that":[10,117,141],"can":[11,122],"cope":[12],"with":[13,79,136],"model":[14],"misspecification,":[15],"parameter":[16],"uncertainty,":[17],"disturbances,":[18],"etc.":[19],"Risk-sensitive":[20],"methods":[21,121],"offer":[22,93],"an":[23,94],"approach":[24,95],"to":[25,129,145],"developing":[26,97],"RL":[28],"by":[30,100,125],"hedging":[31],"against":[32],"undesirable":[33],"outcomes":[34],"in":[35,75,84],"probabilistic":[37],"manner.":[38],"The":[39],"Probabilistic":[40],"Graphical":[41],"Model":[42],"(PGM)":[43],"framework":[44],"offers":[45],"systematic":[46],"exploration":[47],"risk-sensitive":[49,73,98,118,147,156],"RL.":[50],"In":[51],"this":[52,90],"paper,":[53],"we":[54,92],"bridge":[55],"the":[56,62,67,76,85,102,107,112,130,137,155,159],"Markov":[57],"Decision":[58],"Process":[59],"(MDP)":[60],"and":[61],"PGM":[63,86,103,113],"frameworks.":[64],"We":[65,105,115,139],"exploit":[66],"equivalence":[68],"of":[69,158],"optimizing":[70,80],"certain":[72],"criterion":[74],"MDP":[77],"formalism":[78],"log-likelihood":[82],"objective":[83],"formalism.":[87,114],"By":[88],"utilizing":[89],"equivalence,":[91],"leveraging":[101],"framework.":[104],"explore":[106],"Expectation-Maximization":[108],"(EM)":[109],"algorithm":[110],"under":[111],"show":[116,140],"policy":[119,149],"gradient":[120,150],"be":[123],"obtained":[124],"applying":[126],"sampling-based":[127],"approaches":[128],"EM":[131,143],"algorithm,":[132],"e.g.,":[133],"Monte-Carlo":[134,142,148],"EM,":[135],"log-likelihood.":[138],"leads":[144],"algorithm.":[151,161],"Our":[152],"simulations":[153],"illustrate":[154],"nature":[157],"resulting":[160]},"counts_by_year":[{"year":2025,"cited_by_count":1}],"updated_date":"2025-11-06T03:46:38.306776","created_date":"2025-10-10T00:00:00"}