{"id":"https://openalex.org/W7123356239","doi":"https://doi.org/10.1109/cdc57313.2025.11312575","title":"Safety-Aware Reinforcement Learning for Control via Risk-Sensitive Action-Value Iteration and Quantile Regression","display_name":"Safety-Aware Reinforcement Learning for Control via Risk-Sensitive Action-Value Iteration and Quantile Regression","publication_year":2025,"publication_date":"2025-12-09","ids":{"openalex":"https://openalex.org/W7123356239","doi":"https://doi.org/10.1109/cdc57313.2025.11312575"},"language":null,"primary_location":{"id":"doi:10.1109/cdc57313.2025.11312575","is_oa":false,"landing_page_url":"https://doi.org/10.1109/cdc57313.2025.11312575","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE 64th Conference on Decision and Control (CDC)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5017857965","display_name":"Clinton Enwerem","orcid":"https://orcid.org/0000-0002-4239-2941"},"institutions":[{"id":"https://openalex.org/I66946132","display_name":"University of Maryland, College Park","ror":"https://ror.org/047s2c258","country_code":"US","type":"education","lineage":["https://openalex.org/I66946132"]}],"countries":["US"],"is_corresponding":true,"raw_author_name":"Clinton Enwerem","raw_affiliation_strings":["University of Maryland,Institute for Systems Research,College Park,MD"],"affiliations":[{"raw_affiliation_string":"University of Maryland,Institute for Systems Research,College Park,MD","institution_ids":["https://openalex.org/I66946132"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5010006741","display_name":"Aniruddh G. Puranic","orcid":"https://orcid.org/0000-0003-0010-9789"},"institutions":[{"id":"https://openalex.org/I66946132","display_name":"University of Maryland, College Park","ror":"https://ror.org/047s2c258","country_code":"US","type":"education","lineage":["https://openalex.org/I66946132"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Aniruddh G. Puranic","raw_affiliation_strings":["University of Maryland,Institute for Systems Research,College Park,MD"],"affiliations":[{"raw_affiliation_string":"University of Maryland,Institute for Systems Research,College Park,MD","institution_ids":["https://openalex.org/I66946132"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5044395526","display_name":"John S. Baras","orcid":"https://orcid.org/0000-0002-4955-8561"},"institutions":[{"id":"https://openalex.org/I66946132","display_name":"University of Maryland, College Park","ror":"https://ror.org/047s2c258","country_code":"US","type":"education","lineage":["https://openalex.org/I66946132"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"John S. Baras","raw_affiliation_strings":["University of Maryland,Institute for Systems Research,College Park,MD"],"affiliations":[{"raw_affiliation_string":"University of Maryland,Institute for Systems Research,College Park,MD","institution_ids":["https://openalex.org/I66946132"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5000180146","display_name":"Belta Calin","orcid":null},"institutions":[{"id":"https://openalex.org/I66946132","display_name":"University of Maryland, College Park","ror":"https://ror.org/047s2c258","country_code":"US","type":"education","lineage":["https://openalex.org/I66946132"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Calin Belta","raw_affiliation_strings":["University of Maryland,Institute for Systems Research,College Park,MD"],"affiliations":[{"raw_affiliation_string":"University of Maryland,Institute for Systems Research,College Park,MD","institution_ids":["https://openalex.org/I66946132"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":4,"corresponding_author_ids":["https://openalex.org/A5017857965"],"corresponding_institution_ids":["https://openalex.org/I66946132"],"apc_list":null,"apc_paid":null,"fwci":2.3568,"has_fulltext":false,"cited_by_count":1,"citation_normalized_percentile":{"value":0.93341419,"is_in_top_1_percent":false,"is_in_top_10_percent":true},"cited_by_percentile_year":{"min":96,"max":98},"biblio":{"volume":null,"issue":null,"first_page":"4890","last_page":"4895"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.5842000246047974,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.5842000246047974,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10653","display_name":"Robot Manipulation and Learning","score":0.17579999566078186,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11206","display_name":"Model Reduction and Neural Networks","score":0.05909999832510948,"subfield":{"id":"https://openalex.org/subfields/3109","display_name":"Statistical and Nonlinear Physics"},"field":{"id":"https://openalex.org/fields/31","display_name":"Physics and Astronomy"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7479000091552734},{"id":"https://openalex.org/keywords/quantile-regression","display_name":"Quantile regression","score":0.5996000170707703},{"id":"https://openalex.org/keywords/convergence","display_name":"Convergence (economics)","score":0.48750001192092896},{"id":"https://openalex.org/keywords/quantile","display_name":"Quantile","score":0.44940000772476196},{"id":"https://openalex.org/keywords/task","display_name":"Task (project management)","score":0.44679999351501465},{"id":"https://openalex.org/keywords/operator","display_name":"Operator (biology)","score":0.4203999936580658},{"id":"https://openalex.org/keywords/control","display_name":"Control (management)","score":0.38850000500679016},{"id":"https://openalex.org/keywords/stochastic-control","display_name":"Stochastic control","score":0.3750999867916107},{"id":"https://openalex.org/keywords/q-learning","display_name":"Q-learning","score":0.3612000048160553}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7479000091552734},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6437000036239624},{"id":"https://openalex.org/C63817138","wikidata":"https://www.wikidata.org/wiki/Q3455889","display_name":"Quantile regression","level":2,"score":0.5996000170707703},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.5623000264167786},{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.48750001192092896},{"id":"https://openalex.org/C118671147","wikidata":"https://www.wikidata.org/wiki/Q578714","display_name":"Quantile","level":2,"score":0.44940000772476196},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.44679999351501465},{"id":"https://openalex.org/C17020691","wikidata":"https://www.wikidata.org/wiki/Q139677","display_name":"Operator (biology)","level":5,"score":0.4203999936580658},{"id":"https://openalex.org/C2775924081","wikidata":"https://www.wikidata.org/wiki/Q55608371","display_name":"Control (management)","level":2,"score":0.38850000500679016},{"id":"https://openalex.org/C170131372","wikidata":"https://www.wikidata.org/wiki/Q7617811","display_name":"Stochastic control","level":3,"score":0.3750999867916107},{"id":"https://openalex.org/C188116033","wikidata":"https://www.wikidata.org/wiki/Q2664563","display_name":"Q-learning","level":3,"score":0.3612000048160553},{"id":"https://openalex.org/C149441793","wikidata":"https://www.wikidata.org/wiki/Q200726","display_name":"Probability distribution","level":2,"score":0.36000001430511475},{"id":"https://openalex.org/C45374587","wikidata":"https://www.wikidata.org/wiki/Q12525525","display_name":"Computation","level":2,"score":0.34380000829696655},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.33570000529289246},{"id":"https://openalex.org/C91575142","wikidata":"https://www.wikidata.org/wiki/Q1971426","display_name":"Optimal control","level":2,"score":0.3353999853134155},{"id":"https://openalex.org/C117619785","wikidata":"https://www.wikidata.org/wiki/Q6094414","display_name":"Iterative learning control","level":3,"score":0.2987000048160553},{"id":"https://openalex.org/C159694833","wikidata":"https://www.wikidata.org/wiki/Q2321565","display_name":"Iterative method","level":2,"score":0.28780001401901245},{"id":"https://openalex.org/C177148314","wikidata":"https://www.wikidata.org/wiki/Q170084","display_name":"Generalization","level":2,"score":0.2854999899864197},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.273499995470047},{"id":"https://openalex.org/C79581498","wikidata":"https://www.wikidata.org/wiki/Q1367530","display_name":"Suite","level":2,"score":0.27149999141693115},{"id":"https://openalex.org/C196340769","wikidata":"https://www.wikidata.org/wiki/Q7698910","display_name":"Temporal difference learning","level":3,"score":0.2703999876976013},{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.2685999870300293},{"id":"https://openalex.org/C175154964","wikidata":"https://www.wikidata.org/wiki/Q380077","display_name":"Task analysis","level":3,"score":0.26600000262260437},{"id":"https://openalex.org/C83546350","wikidata":"https://www.wikidata.org/wiki/Q1139051","display_name":"Regression","level":2,"score":0.2655999958515167},{"id":"https://openalex.org/C14646407","wikidata":"https://www.wikidata.org/wiki/Q1430750","display_name":"Bellman equation","level":2,"score":0.2549000084400177},{"id":"https://openalex.org/C43555835","wikidata":"https://www.wikidata.org/wiki/Q2300258","display_name":"Conditional probability distribution","level":2,"score":0.2549000084400177}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/cdc57313.2025.11312575","is_oa":false,"landing_page_url":"https://doi.org/10.1109/cdc57313.2025.11312575","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE 64th Conference on Decision and Control (CDC)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[{"id":"https://openalex.org/F4320338295","display_name":"Army Research Laboratory","ror":"https://ror.org/011hc8f90"}],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":9,"referenced_works":["https://openalex.org/W1986208405","https://openalex.org/W2084285929","https://openalex.org/W2129905273","https://openalex.org/W2765302304","https://openalex.org/W3011669652","https://openalex.org/W4285606945","https://openalex.org/W4289829119","https://openalex.org/W4402836811","https://openalex.org/W4411408301"],"related_works":[],"abstract_inverted_index":{"Mainstream":[0],"approximate":[1],"action-value":[2,21],"iteration":[3,22],"reinforcement":[4],"learning":[5,28],"(RL)":[6],"algorithms":[7],"suffer":[8],"from":[9],"overestimation":[10],"bias,":[11],"leading":[12],"to":[13,72,89,115,135],"suboptimal":[14],"policies":[15],"in":[16,110,125],"high-variance":[17],"stochastic":[18],"environments.":[19],"Quantile-based":[20],"methods":[23,62],"reduce":[24],"this":[25],"bias":[26],"by":[27],"a":[29,48,81,116,122,126],"distribution":[30],"of":[31,104,121],"the":[32,41,58,101,105],"expected":[33],"cost-to-go":[34],"using":[35],"quantile":[36],"regression.":[37],"However,":[38],"ensuring":[39,113],"that":[40,131],"learned":[42],"policy":[43],"satisfies":[44],"safety":[45,91],"constraints":[46,52],"remains":[47],"challenge":[49],"when":[50],"these":[51],"are":[53],"not":[54],"explicitly":[55],"integrated":[56],"into":[57],"RL":[59],"framework.":[60],"Existing":[61],"often":[63],"require":[64],"complex":[65,93],"neural":[66],"architectures":[67],"or":[68],"manual":[69],"tradeoffs":[70],"due":[71],"combined":[73],"cost":[74,118],"functions.":[75],"To":[76],"address":[77],"this,":[78],"we":[79],"propose":[80],"risk-regularized":[82],"quantile-based":[83],"algorithm":[84],"integrating":[85],"Conditional":[86],"Value-at-Risk":[87],"(CVaR)":[88],"enforce":[90],"without":[92],"architectures.":[94],"We":[95],"also":[96],"provide":[97],"theoretical":[98],"guarantees":[99],"on":[100],"contraction":[102],"properties":[103],"risk-sensitive":[106],"distributional":[107],"Bellman":[108],"operator":[109],"Wasserstein":[111],"space,":[112],"convergence":[114],"unique":[117],"distribution.":[119],"Simulations":[120],"mobile":[123],"robot":[124],"dynamic":[127],"reach-avoid":[128],"task":[129],"show":[130],"our":[132],"approach":[133],"leads":[134],"more":[136],"goal":[137],"successes,":[138],"fewer":[139],"collisions,":[140],"and":[141],"better":[142],"safety-performance":[143],"trade-offs":[144],"than":[145],"risk-neutral":[146],"methods.":[147]},"counts_by_year":[{"year":2026,"cited_by_count":1}],"updated_date":"2026-04-09T08:11:56.329763","created_date":"2026-01-14T00:00:00"}