{"id":"https://openalex.org/W4415428365","doi":"https://doi.org/10.3233/faia251033","title":"Optimistic Exploration for Risk-Averse Constrained Reinforcement Learning","display_name":"Optimistic Exploration for Risk-Averse Constrained Reinforcement Learning","publication_year":2025,"publication_date":"2025-10-21","ids":{"openalex":"https://openalex.org/W4415428365","doi":"https://doi.org/10.3233/faia251033"},"language":null,"primary_location":{"id":"doi:10.3233/faia251033","is_oa":true,"landing_page_url":"https://doi.org/10.3233/faia251033","pdf_url":null,"source":{"id":"https://openalex.org/S4210201731","display_name":"Frontiers in artificial intelligence and applications","issn_l":"0922-6389","issn":["0922-6389","1879-8314"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"journal"},"license":"cc-by-nc","license_id":"https://openalex.org/licenses/cc-by-nc","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Frontiers in Artificial Intelligence and Applications","raw_type":"book-chapter"},"type":"book-chapter","indexed_in":["crossref"],"open_access":{"is_oa":true,"oa_status":"hybrid","oa_url":"https://doi.org/10.3233/faia251033","any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5055957305","display_name":"James McCarthy","orcid":"https://orcid.org/0000-0001-6596-9718"},"institutions":[{"id":"https://openalex.org/I205274468","display_name":"Trinity College Dublin","ror":"https://ror.org/02tyrky19","country_code":"IE","type":"education","lineage":["https://openalex.org/I205274468"]},{"id":"https://openalex.org/I4210145784","display_name":"IBM Research - Ireland","ror":"https://ror.org/04jnxr720","country_code":"IE","type":"facility","lineage":["https://openalex.org/I1341412227","https://openalex.org/I4210114115","https://openalex.org/I4210145784"]}],"countries":["IE"],"is_corresponding":false,"raw_author_name":"James McCarthy","raw_affiliation_strings":["IBM Research Ireland","Trinity College Dublin"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"IBM Research Ireland","institution_ids":["https://openalex.org/I4210145784"]},{"raw_affiliation_string":"Trinity College Dublin","institution_ids":["https://openalex.org/I205274468"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5101514813","display_name":"Radu Marinescu","orcid":"https://orcid.org/0000-0002-7551-0414"},"institutions":[{"id":"https://openalex.org/I4210145784","display_name":"IBM Research - Ireland","ror":"https://ror.org/04jnxr720","country_code":"IE","type":"facility","lineage":["https://openalex.org/I1341412227","https://openalex.org/I4210114115","https://openalex.org/I4210145784"]}],"countries":["IE"],"is_corresponding":false,"raw_author_name":"Radu Marinescu","raw_affiliation_strings":["IBM Research Ireland"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"IBM Research Ireland","institution_ids":["https://openalex.org/I4210145784"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5029550449","display_name":"Elizabeth Daly","orcid":"https://orcid.org/0000-0003-0162-3683"},"institutions":[{"id":"https://openalex.org/I4210145784","display_name":"IBM Research - Ireland","ror":"https://ror.org/04jnxr720","country_code":"IE","type":"facility","lineage":["https://openalex.org/I1341412227","https://openalex.org/I4210114115","https://openalex.org/I4210145784"]}],"countries":["IE"],"is_corresponding":false,"raw_author_name":"Elizabeth Daly","raw_affiliation_strings":["IBM Research Ireland"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"IBM Research Ireland","institution_ids":["https://openalex.org/I4210145784"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5059738292","display_name":"Ivana Duspari\u0107","orcid":"https://orcid.org/0000-0003-0621-5400"},"institutions":[{"id":"https://openalex.org/I205274468","display_name":"Trinity College Dublin","ror":"https://ror.org/02tyrky19","country_code":"IE","type":"education","lineage":["https://openalex.org/I205274468"]}],"countries":["IE"],"is_corresponding":false,"raw_author_name":"Ivana Dusparic","raw_affiliation_strings":["Trinity College Dublin"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Trinity College Dublin","institution_ids":["https://openalex.org/I205274468"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.44007646,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.6446999907493591,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.6446999907493591,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.769599974155426},{"id":"https://openalex.org/keywords/weighting","display_name":"Weighting","score":0.6870999932289124},{"id":"https://openalex.org/keywords/constraint","display_name":"Constraint (computer-aided design)","score":0.6258000135421753},{"id":"https://openalex.org/keywords/bellman-equation","display_name":"Bellman equation","score":0.5404999852180481},{"id":"https://openalex.org/keywords/function","display_name":"Function (biology)","score":0.5273000001907349},{"id":"https://openalex.org/keywords/convergence","display_name":"Convergence (economics)","score":0.5177000164985657},{"id":"https://openalex.org/keywords/value","display_name":"Value (mathematics)","score":0.5159000158309937}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.769599974155426},{"id":"https://openalex.org/C183115368","wikidata":"https://www.wikidata.org/wiki/Q856577","display_name":"Weighting","level":2,"score":0.6870999932289124},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.626800000667572},{"id":"https://openalex.org/C2776036281","wikidata":"https://www.wikidata.org/wiki/Q48769818","display_name":"Constraint (computer-aided design)","level":2,"score":0.6258000135421753},{"id":"https://openalex.org/C14646407","wikidata":"https://www.wikidata.org/wiki/Q1430750","display_name":"Bellman equation","level":2,"score":0.5404999852180481},{"id":"https://openalex.org/C14036430","wikidata":"https://www.wikidata.org/wiki/Q3736076","display_name":"Function (biology)","level":2,"score":0.5273000001907349},{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.5177000164985657},{"id":"https://openalex.org/C2776291640","wikidata":"https://www.wikidata.org/wiki/Q2912517","display_name":"Value (mathematics)","level":2,"score":0.5159000158309937},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.46129998564720154},{"id":"https://openalex.org/C2775924081","wikidata":"https://www.wikidata.org/wiki/Q55608371","display_name":"Control (management)","level":2,"score":0.4156000018119812},{"id":"https://openalex.org/C77553402","wikidata":"https://www.wikidata.org/wiki/Q13222579","display_name":"Upper and lower bounds","level":2,"score":0.40689998865127563},{"id":"https://openalex.org/C112930515","wikidata":"https://www.wikidata.org/wiki/Q4389547","display_name":"Risk analysis (engineering)","level":1,"score":0.3677000105381012},{"id":"https://openalex.org/C42475967","wikidata":"https://www.wikidata.org/wiki/Q194292","display_name":"Operations research","level":1,"score":0.3506999909877777},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.3285999894142151},{"id":"https://openalex.org/C201236551","wikidata":"https://www.wikidata.org/wiki/Q7310809","display_name":"Relative value","level":2,"score":0.3010999858379364},{"id":"https://openalex.org/C70136482","wikidata":"https://www.wikidata.org/wiki/Q13583781","display_name":"A-weighting","level":3,"score":0.29660001397132874},{"id":"https://openalex.org/C2775907273","wikidata":"https://www.wikidata.org/wiki/Q7805281","display_name":"Time constraint","level":2,"score":0.2955999970436096},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.27480000257492065},{"id":"https://openalex.org/C162324750","wikidata":"https://www.wikidata.org/wiki/Q8134","display_name":"Economics","level":0,"score":0.26989999413490295},{"id":"https://openalex.org/C85973986","wikidata":"https://www.wikidata.org/wiki/Q1091731","display_name":"Exploratory research","level":2,"score":0.2653999924659729},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.2632000148296356},{"id":"https://openalex.org/C55660270","wikidata":"https://www.wikidata.org/wiki/Q5164377","display_name":"Constrained optimization","level":2,"score":0.2531999945640564}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.3233/faia251033","is_oa":true,"landing_page_url":"https://doi.org/10.3233/faia251033","pdf_url":null,"source":{"id":"https://openalex.org/S4210201731","display_name":"Frontiers in artificial intelligence and applications","issn_l":"0922-6389","issn":["0922-6389","1879-8314"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"journal"},"license":"cc-by-nc","license_id":"https://openalex.org/licenses/cc-by-nc","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Frontiers in Artificial Intelligence and Applications","raw_type":"book-chapter"}],"best_oa_location":{"id":"doi:10.3233/faia251033","is_oa":true,"landing_page_url":"https://doi.org/10.3233/faia251033","pdf_url":null,"source":{"id":"https://openalex.org/S4210201731","display_name":"Frontiers in artificial intelligence and applications","issn_l":"0922-6389","issn":["0922-6389","1879-8314"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"journal"},"license":"cc-by-nc","license_id":"https://openalex.org/licenses/cc-by-nc","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Frontiers in Artificial Intelligence and Applications","raw_type":"book-chapter"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Risk-averse":[0,70],"Constrained":[1],"Reinforcement":[2],"Learning":[3],"(RaCRL)":[4],"aims":[5],"to":[6,29,40,45,54,113,137,144,165],"learn":[7],"policies":[8,42,167],"that":[9,43,159],"minimise":[10],"the":[11,33,56,87,100,110,114,127,133,142,152,160,171],"likelihood":[12],"of":[13,32,86,99,141],"rare":[14],"and":[15,168,182],"catastrophic":[16],"constraint":[17,129],"violations":[18],"caused":[19],"by":[20,79],"an":[21,63,76],"environment\u2019s":[22],"inherent":[23],"randomness.":[24],"In":[25,58],"general,":[26],"risk-aversion":[27],"leads":[28],"conservative":[30],"exploration":[31],"environment":[34,143,188],"which":[35,74],"typically":[36],"results":[37,157],"in":[38,50,174],"converging":[39],"sub-optimal":[41,166],"fail":[44,53],"adequately":[46],"maximise":[47],"reward":[48,89,147],"or,":[49],"some":[51],"cases,":[52],"achieve":[55],"goal.":[57],"this":[59],"paper,":[60],"we":[61],"propose":[62],"exploration-based":[64],"approach":[65,162],"for":[66],"RaCRL":[67],"called":[68],"Optimistic":[69],"Actor":[71],"Critic":[72],"(ORAC),":[73],"constructs":[75],"exploratory":[77],"policy":[78,134],"maximising":[80],"a":[81,94,183],"local":[82,95],"upper":[83],"confidence":[84,97],"bound":[85,98],"state-action":[88,102],"value":[90,104,116],"function":[91],"whilst":[92,149],"minimising":[93],"lower":[96],"risk-averse":[101],"cost":[103,115],"function.":[105],"Specifically,":[106],"at":[107],"each":[108],"step,":[109],"weighting":[111],"assigned":[112],"is":[117,135],"increased":[118],"or":[119,124],"decreased":[120],"if":[121],"it":[122],"exceeds":[123],"falls":[125],"below":[126],"safety":[128,153],"value.":[130],"This":[131],"way":[132],"encouraged":[136],"explore":[138],"uncertain":[139],"regions":[140],"discover":[145],"high":[146],"states":[148],"still":[150],"satisfying":[151],"constraints.":[154],"Our":[155],"experimental":[156],"demonstrate":[158],"ORAC":[161],"prevents":[163],"convergence":[164],"improves":[169],"significantly":[170],"reward-cost":[172],"trade-off":[173],"various":[175],"continuous":[176],"control":[177],"tasks":[178],"such":[179],"as":[180],"Safety-Gymnasium":[181],"complex":[184],"building":[185],"energy":[186],"management":[187],"CityLearn.":[189]},"counts_by_year":[],"updated_date":"2026-05-21T06:26:12.895304","created_date":"2025-10-24T00:00:00"}