{"id":"https://openalex.org/W7133327175","doi":"https://doi.org/10.1016/j.eswa.2026.131838","title":"Risk-sensitive actor-critic with static spectral risk measures for online and offline reinforcement learning","display_name":"Risk-sensitive actor-critic with static spectral risk measures for online and offline reinforcement learning","publication_year":2026,"publication_date":"2026-03-03","ids":{"openalex":"https://openalex.org/W7133327175","doi":"https://doi.org/10.1016/j.eswa.2026.131838"},"language":"en","primary_location":{"id":"doi:10.1016/j.eswa.2026.131838","is_oa":true,"landing_page_url":"https://doi.org/10.1016/j.eswa.2026.131838","pdf_url":null,"source":{"id":"https://openalex.org/S13144211","display_name":"Expert Systems with Applications","issn_l":"0957-4174","issn":["0957-4174","1873-6793"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310320990","host_organization_name":"Elsevier BV","host_organization_lineage":["https://openalex.org/P4310320990"],"host_organization_lineage_names":["Elsevier BV"],"type":"journal"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Expert Systems with Applications","raw_type":"journal-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":true,"oa_status":"hybrid","oa_url":"https://doi.org/10.1016/j.eswa.2026.131838","any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5102487518","display_name":"Mehrdad Moghimi","orcid":null},"institutions":[{"id":"https://openalex.org/I192455969","display_name":"York University","ror":"https://ror.org/05fq50484","country_code":"CA","type":"education","lineage":["https://openalex.org/I192455969"]}],"countries":["CA"],"is_corresponding":false,"raw_author_name":"Mehrdad Moghimi","raw_affiliation_strings":["Department of Mathematics and Statistics, York University, 4700 Keele Street, Toronto, M3J 1P3, Ontario, Canada"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Department of Mathematics and Statistics, York University, 4700 Keele Street, Toronto, M3J 1P3, Ontario, Canada","institution_ids":["https://openalex.org/I192455969"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5067984321","display_name":"Hyejin Ku","orcid":"https://orcid.org/0000-0003-0107-6974"},"institutions":[{"id":"https://openalex.org/I192455969","display_name":"York University","ror":"https://ror.org/05fq50484","country_code":"CA","type":"education","lineage":["https://openalex.org/I192455969"]}],"countries":["CA"],"is_corresponding":true,"raw_author_name":"Hyejin Ku","raw_affiliation_strings":["Department of Mathematics and Statistics, York University, 4700 Keele Street, Toronto, M3J 1P3, Ontario, Canada"],"raw_orcid":"https://orcid.org/0000-0003-0107-6974","affiliations":[{"raw_affiliation_string":"Department of Mathematics and Statistics, York University, 4700 Keele Street, Toronto, M3J 1P3, Ontario, Canada","institution_ids":["https://openalex.org/I192455969"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":["https://openalex.org/A5067984321"],"corresponding_institution_ids":["https://openalex.org/I192455969"],"apc_list":{"value":3220,"currency":"USD","value_usd":3220},"apc_paid":{"value":3220,"currency":"USD","value_usd":3220},"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.43409801,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":"317","issue":null,"first_page":"131838","last_page":"131838"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.4855000078678131,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.4855000078678131,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Machine Learning","score":0.1290999948978424,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11612","display_name":"Stochastic Gradient Optimization Techniques","score":0.029899999499320984,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.6949999928474426},{"id":"https://openalex.org/keywords/cvar","display_name":"CVAR","score":0.6654000282287598},{"id":"https://openalex.org/keywords/convergence","display_name":"Convergence (economics)","score":0.5963000059127808},{"id":"https://openalex.org/keywords/online-and-offline","display_name":"Online and offline","score":0.4562000036239624},{"id":"https://openalex.org/keywords/risk-measure","display_name":"Risk measure","score":0.400299996137619},{"id":"https://openalex.org/keywords/measure","display_name":"Measure (data warehouse)","score":0.3970000147819519},{"id":"https://openalex.org/keywords/sensitivity","display_name":"Sensitivity (control systems)","score":0.3564000129699707},{"id":"https://openalex.org/keywords/online-algorithm","display_name":"Online algorithm","score":0.3546999990940094}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.8052999973297119},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.6949999928474426},{"id":"https://openalex.org/C2779922397","wikidata":"https://www.wikidata.org/wiki/Q5014755","display_name":"CVAR","level":4,"score":0.6654000282287598},{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.5963000059127808},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.5303999781608582},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5097000002861023},{"id":"https://openalex.org/C2780102126","wikidata":"https://www.wikidata.org/wiki/Q10928179","display_name":"Online and offline","level":2,"score":0.4562000036239624},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.4505999982357025},{"id":"https://openalex.org/C2781472820","wikidata":"https://www.wikidata.org/wiki/Q2154759","display_name":"Risk measure","level":3,"score":0.400299996137619},{"id":"https://openalex.org/C2780009758","wikidata":"https://www.wikidata.org/wiki/Q6804172","display_name":"Measure (data warehouse)","level":2,"score":0.3970000147819519},{"id":"https://openalex.org/C21200559","wikidata":"https://www.wikidata.org/wiki/Q7451068","display_name":"Sensitivity (control systems)","level":2,"score":0.3564000129699707},{"id":"https://openalex.org/C196921405","wikidata":"https://www.wikidata.org/wiki/Q786431","display_name":"Online algorithm","level":2,"score":0.3546999990940094},{"id":"https://openalex.org/C5496284","wikidata":"https://www.wikidata.org/wiki/Q5420856","display_name":"Expected shortfall","level":3,"score":0.3409999907016754},{"id":"https://openalex.org/C34413123","wikidata":"https://www.wikidata.org/wiki/Q170978","display_name":"Robotics","level":3,"score":0.30469998717308044},{"id":"https://openalex.org/C137836250","wikidata":"https://www.wikidata.org/wiki/Q984063","display_name":"Optimization problem","level":2,"score":0.2985000014305115},{"id":"https://openalex.org/C129915516","wikidata":"https://www.wikidata.org/wiki/Q17083550","display_name":"Risk aversion (psychology)","level":3,"score":0.2919999957084656},{"id":"https://openalex.org/C120936955","wikidata":"https://www.wikidata.org/wiki/Q2155640","display_name":"Empirical research","level":2,"score":0.27059999108314514},{"id":"https://openalex.org/C2779530757","wikidata":"https://www.wikidata.org/wiki/Q1207505","display_name":"Quality (philosophy)","level":2,"score":0.26910001039505005},{"id":"https://openalex.org/C2164484","wikidata":"https://www.wikidata.org/wiki/Q5170150","display_name":"Core (optical fiber)","level":2,"score":0.2667999863624573},{"id":"https://openalex.org/C112930515","wikidata":"https://www.wikidata.org/wiki/Q4389547","display_name":"Risk analysis (engineering)","level":1,"score":0.26019999384880066},{"id":"https://openalex.org/C2780490138","wikidata":"https://www.wikidata.org/wiki/Q7079636","display_name":"Offline learning","level":3,"score":0.2531999945640564}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1016/j.eswa.2026.131838","is_oa":true,"landing_page_url":"https://doi.org/10.1016/j.eswa.2026.131838","pdf_url":null,"source":{"id":"https://openalex.org/S13144211","display_name":"Expert Systems with Applications","issn_l":"0957-4174","issn":["0957-4174","1873-6793"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310320990","host_organization_name":"Elsevier BV","host_organization_lineage":["https://openalex.org/P4310320990"],"host_organization_lineage_names":["Elsevier BV"],"type":"journal"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Expert Systems with Applications","raw_type":"journal-article"}],"best_oa_location":{"id":"doi:10.1016/j.eswa.2026.131838","is_oa":true,"landing_page_url":"https://doi.org/10.1016/j.eswa.2026.131838","pdf_url":null,"source":{"id":"https://openalex.org/S13144211","display_name":"Expert Systems with Applications","issn_l":"0957-4174","issn":["0957-4174","1873-6793"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310320990","host_organization_name":"Elsevier BV","host_organization_lineage":["https://openalex.org/P4310320990"],"host_organization_lineage_names":["Elsevier BV"],"type":"journal"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Expert Systems with Applications","raw_type":"journal-article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":20,"referenced_works":["https://openalex.org/W1540764732","https://openalex.org/W2000769684","https://openalex.org/W2027106436","https://openalex.org/W2053984877","https://openalex.org/W2109122936","https://openalex.org/W2145339207","https://openalex.org/W2160769068","https://openalex.org/W2255503339","https://openalex.org/W2266738696","https://openalex.org/W2561666900","https://openalex.org/W2625101268","https://openalex.org/W2765302304","https://openalex.org/W2793864397","https://openalex.org/W2949963197","https://openalex.org/W2998059334","https://openalex.org/W3024896014","https://openalex.org/W3177161388","https://openalex.org/W3184586974","https://openalex.org/W4221088011","https://openalex.org/W4225482307"],"related_works":[],"abstract_inverted_index":{"\u2022":[0,12,24,35,46],"Propose":[1],"a":[2,66,146,156],"novel":[3,147],"actor-critic":[4,76],"framework":[5,148],"for":[6,30,51,128,149],"static":[7,151],"spectral":[8],"risk":[9,55,71,80,110,160,175],"measure":[10],"optimization":[11],"Support":[13],"both":[14,182,216],"online":[15,97,183,217],"and":[16,21,44,75,98,134,168,170,184,218],"offline":[17,99,185,219],"RL":[18,100,186],"with":[19],"stochastic":[20],"deterministic":[22],"policies":[23,131],"Prove":[25],"convergence":[26,194],"in":[27,41,85,95,114,123,195,215],"finite":[28,197],"MDPs":[29],"the":[31,86,106,126,172,196],"proposed":[32],"risk-sensitive":[33,130,213],"algorithms":[34,101,209],"Demonstrate":[36],"superior":[37],"performance":[38],"over":[39],"baselines":[40],"finance,":[42],"healthcare":[43],"robotics":[45],"Enable":[47],"flexible":[48,157],"policy":[49],"tailoring":[50,173],"varying":[52],"levels":[53],"of":[54,59,109,159,174],"aversion":[56],"The":[57],"development":[58],"Distributional":[60],"Reinforcement":[61],"Learning":[62],"(DRL)":[63],"has":[64],"introduced":[65],"natural":[67],"way":[68],"to":[69,103,181],"incorporate":[70],"sensitivity":[72],"into":[73],"value-based":[74],"methods":[77,214],"by":[78,192],"employing":[79],"measures":[81,111,161],"other":[82],"than":[83],"expectation":[84],"value":[87],"function.":[88],"While":[89],"this":[90,142],"approach":[91],"is":[92,132,179],"widely":[93],"adopted":[94],"many":[96],"due":[102],"its":[104],"simplicity,":[105],"naive":[107],"integration":[108],"often":[112],"results":[113],"suboptimal":[115],"policies.":[116],"This":[117],"limitation":[118],"can":[119],"be":[120],"particularly":[121],"harmful":[122],"scenarios":[124],"where":[125],"need":[127],"effective":[129],"critical":[133],"worst-case":[135],"outcomes":[136],"carry":[137],"severe":[138],"consequences.":[139],"To":[140],"address":[141],"challenge,":[143],"we":[144,205],"propose":[145],"optimizing":[150],"Spectral":[152],"Risk":[153],"Measures":[154],"(SRM),":[155],"family":[158],"that":[162,207],"generalizes":[163],"objectives":[164],"such":[165],"as":[166],"CVaR":[167],"Mean-CVaR,":[169],"enables":[171],"preferences.":[176],"Our":[177],"method":[178],"applicable":[180],"algorithms.":[187],"We":[188],"establish":[189],"theoretical":[190],"guarantees":[191],"proving":[193],"state-action":[198],"setting.":[199],"Moreover,":[200],"through":[201],"extensive":[202],"empirical":[203],"evaluations,":[204],"demonstrate":[206],"our":[208],"consistently":[210],"outperform":[211],"existing":[212],"environments":[220],"across":[221],"diverse":[222],"domains.":[223]},"counts_by_year":[],"updated_date":"2026-03-09T07:00:12.390032","created_date":"2026-03-04T00:00:00"}