{"id":"https://openalex.org/W7155186597","doi":"https://doi.org/10.48550/arxiv.2604.19737","title":"Safe Continual Reinforcement Learning in Non-stationary Environments","display_name":"Safe Continual Reinforcement Learning in Non-stationary Environments","publication_year":2026,"publication_date":"2026-04-21","ids":{"openalex":"https://openalex.org/W7155186597","doi":"https://doi.org/10.48550/arxiv.2604.19737"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2604.19737","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.19737","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2604.19737","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5037114121","display_name":"Austin Coursey","orcid":"https://orcid.org/0000-0003-1774-6442"},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Coursey, Austin","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5124220239","display_name":"Abel Diaz-Gonzalez","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Diaz-Gonzalez, Abel","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5134271452","display_name":"Marcos Quinones-Grueiro","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Quinones-Grueiro, Marcos","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5134349399","display_name":"Gautam Biswas","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Biswas, Gautam","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":4,"corresponding_author_ids":["https://openalex.org/A5037114121"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.3578000068664551,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.3578000068664551,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Machine Learning","score":0.1704999953508377,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12794","display_name":"Adaptive Dynamic Programming Control","score":0.15459999442100525,"subfield":{"id":"https://openalex.org/subfields/1703","display_name":"Computational Theory and Mathematics"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.8162000179290771},{"id":"https://openalex.org/keywords/forgetting","display_name":"Forgetting","score":0.5313000082969666},{"id":"https://openalex.org/keywords/adaptation","display_name":"Adaptation (eye)","score":0.5008999705314636},{"id":"https://openalex.org/keywords/key","display_name":"Key (lock)","score":0.4514000117778778},{"id":"https://openalex.org/keywords/intersection","display_name":"Intersection (aeronautics)","score":0.41850000619888306},{"id":"https://openalex.org/keywords/leverage","display_name":"Leverage (statistics)","score":0.40119999647140503}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.8162000179290771},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6427000164985657},{"id":"https://openalex.org/C7149132","wikidata":"https://www.wikidata.org/wiki/Q1377840","display_name":"Forgetting","level":2,"score":0.5313000082969666},{"id":"https://openalex.org/C139807058","wikidata":"https://www.wikidata.org/wiki/Q352374","display_name":"Adaptation (eye)","level":2,"score":0.5008999705314636},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.4514000117778778},{"id":"https://openalex.org/C64543145","wikidata":"https://www.wikidata.org/wiki/Q162942","display_name":"Intersection (aeronautics)","level":2,"score":0.41850000619888306},{"id":"https://openalex.org/C153083717","wikidata":"https://www.wikidata.org/wiki/Q6535263","display_name":"Leverage (statistics)","level":2,"score":0.40119999647140503},{"id":"https://openalex.org/C112930515","wikidata":"https://www.wikidata.org/wiki/Q4389547","display_name":"Risk analysis (engineering)","level":1,"score":0.37389999628067017},{"id":"https://openalex.org/C205711294","wikidata":"https://www.wikidata.org/wiki/Q176953","display_name":"Rendering (computer graphics)","level":2,"score":0.3569999933242798},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.32350000739097595},{"id":"https://openalex.org/C185798385","wikidata":"https://www.wikidata.org/wiki/Q1161707","display_name":"Benchmark (surveying)","level":2,"score":0.30880001187324524},{"id":"https://openalex.org/C2775924081","wikidata":"https://www.wikidata.org/wiki/Q55608371","display_name":"Control (management)","level":2,"score":0.29280000925064087},{"id":"https://openalex.org/C100776233","wikidata":"https://www.wikidata.org/wiki/Q2532492","display_name":"Bridge (graph theory)","level":2,"score":0.2777999937534332},{"id":"https://openalex.org/C133731056","wikidata":"https://www.wikidata.org/wiki/Q4917288","display_name":"Control engineering","level":1,"score":0.2689000070095062}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2604.19737","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.19737","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2604.19737","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.19737","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[{"id":"https://metadata.un.org/sdg/17","score":0.47290220856666565,"display_name":"Partnerships for the goals"}],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Reinforcement":[0],"learning":[1,57,112],"(RL)":[2],"offers":[3],"a":[4,140],"compelling":[5],"data-driven":[6],"paradigm":[7],"for":[8,11],"synthesizing":[9],"controllers":[10,46,197],"complex":[12],"systems":[13],"when":[14],"accurate":[15],"physical":[16,49],"models":[17],"are":[18],"unavailable;":[19],"however,":[20],"most":[21],"existing":[22,155],"control-oriented":[23],"RL":[24,45,69,72,91],"methods":[25,156],"assume":[26],"stationarity":[27],"and,":[28],"therefore,":[29],"struggle":[30],"in":[31,48,203],"real-world":[32],"non-stationary":[33,152],"deployments":[34],"where":[35],"system":[36],"dynamics":[37],"and":[38,58,70,77,123,133,147,177,181,189],"operating":[39],"conditions":[40],"can":[41,94],"change":[42],"unexpectedly.":[43],"Moreover,":[44],"acting":[47],"environments":[50,117],"must":[51],"satisfy":[52],"safety":[53,145],"constraints":[54,146],"throughout":[55],"their":[56,80,134,179],"execution":[59],"phases,":[60],"rendering":[61],"transient":[62],"violations":[63],"during":[64],"adaptation":[65,122],"unacceptable.":[66],"Although":[67],"continual":[68,90,110,121,131],"safe":[71,89,109,129],"have":[73],"each":[74],"addressed":[75],"non-stationarity":[76],"safety,":[78],"respectively,":[79],"intersection":[81],"remains":[82],"comparatively":[83],"unexplored,":[84],"motivating":[85],"the":[86,97],"study":[87],"of":[88,199],"algorithms":[92],"that":[93,118,172],"adapt":[95],"over":[96],"system's":[98],"lifetime":[99],"while":[100],"preserving":[101],"safety.":[102],"In":[103],"this":[104,166,175],"work,":[105],"we":[106,168,184],"systematically":[107],"investigate":[108],"reinforcement":[111],"by":[113,124],"introducing":[114],"three":[115],"benchmark":[116],"capture":[119],"safety-critical":[120],"evaluating":[125],"representative":[126],"approaches":[127],"from":[128],"RL,":[130,132],"combinations.":[135],"Our":[136],"empirical":[137],"results":[138],"reveal":[139],"fundamental":[141],"tension":[142],"between":[143],"maintaining":[144],"preventing":[148],"catastrophic":[149],"forgetting":[150],"under":[151],"dynamics,":[153],"with":[154],"generally":[157],"failing":[158],"to":[159],"achieve":[160],"both":[161],"objectives":[162],"simultaneously.":[163],"To":[164],"address":[165],"shortcoming,":[167],"examine":[169],"regularization-based":[170],"strategies":[171],"partially":[173],"mitigate":[174],"trade-off":[176],"characterize":[178],"benefits":[180],"limitations.":[182],"Finally,":[183],"outline":[185],"key":[186],"open":[187],"challenges":[188],"research":[190],"directions":[191],"toward":[192],"developing":[193],"safe,":[194],"resilient":[195],"learning-based":[196],"capable":[198],"sustained":[200],"autonomous":[201],"operation":[202],"changing":[204],"environments.":[205]},"counts_by_year":[],"updated_date":"2026-04-23T06:20:18.424754","created_date":"2026-04-23T00:00:00"}