{"id":"https://openalex.org/W7155632178","doi":"https://doi.org/10.1145/3789418.3789420","title":"Beyond Rewards: Extended Evaluation Metrics for Safe Reinforcement Learning with PPO-Lagrangian","display_name":"Beyond Rewards: Extended Evaluation Metrics for Safe Reinforcement Learning with PPO-Lagrangian","publication_year":2025,"publication_date":"2025-12-12","ids":{"openalex":"https://openalex.org/W7155632178","doi":"https://doi.org/10.1145/3789418.3789420"},"language":null,"primary_location":{"id":"doi:10.1145/3789418.3789420","is_oa":false,"landing_page_url":"https://doi.org/10.1145/3789418.3789420","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 9th International Conference on Algorithms, Computing and Systems","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5101388825","display_name":"Haoran Lin","orcid":"https://orcid.org/0009-0008-7611-844X"},"institutions":[{"id":"https://openalex.org/I135310074","display_name":"University of Wisconsin\u2013Madison","ror":"https://ror.org/01y2jtd41","country_code":"US","type":"education","lineage":["https://openalex.org/I135310074"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Haoran Lin","raw_affiliation_strings":["Department of Computer Sciences, University of Wisconsin-Madison, Madison, WI, USA,"],"raw_orcid":"https://orcid.org/0009-0001-9528-3247","affiliations":[{"raw_affiliation_string":"Department of Computer Sciences, University of Wisconsin-Madison, Madison, WI, USA,","institution_ids":["https://openalex.org/I135310074"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5134611190","display_name":"Chengyun Chi","orcid":"https://orcid.org/0009-0003-6229-5115"},"institutions":[{"id":"https://openalex.org/I183067930","display_name":"Shanghai Jiao Tong University","ror":"https://ror.org/0220qvk04","country_code":"CN","type":"education","lineage":["https://openalex.org/I183067930"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Chengyun Chi","raw_affiliation_strings":["Department of Computer Sciences, Shanghai Jiao Tong University, Shanghai, Shanghai, China,"],"raw_orcid":"https://orcid.org/0009-0003-6229-5115","affiliations":[{"raw_affiliation_string":"Department of Computer Sciences, Shanghai Jiao Tong University, Shanghai, Shanghai, China,","institution_ids":["https://openalex.org/I183067930"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5045391574","display_name":"B Wang","orcid":null},"institutions":[{"id":"https://openalex.org/I116953780","display_name":"Tongji University","ror":"https://ror.org/03rc6as71","country_code":"CN","type":"education","lineage":["https://openalex.org/I116953780"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Beining Wang","raw_affiliation_strings":["Department of Computer Sciences, Tongji University, Shanghai, Shanghai, China,"],"raw_orcid":"https://orcid.org/0009-0001-1477-5021","affiliations":[{"raw_affiliation_string":"Department of Computer Sciences, Tongji University, Shanghai, Shanghai, China,","institution_ids":["https://openalex.org/I116953780"]}]}],"institutions":[],"countries_distinct_count":2,"institutions_distinct_count":3,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.84163346,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"9","last_page":"16"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Machine Learning","score":0.6371999979019165,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Machine Learning","score":0.6371999979019165,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.23759999871253967,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10883","display_name":"Ethics and Social Impacts of AI","score":0.008700000122189522,"subfield":{"id":"https://openalex.org/subfields/3311","display_name":"Safety Research"},"field":{"id":"https://openalex.org/fields/33","display_name":"Social Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.8015000224113464},{"id":"https://openalex.org/keywords/hyperparameter","display_name":"Hyperparameter","score":0.6394000053405762},{"id":"https://openalex.org/keywords/task","display_name":"Task (project management)","score":0.6089000105857849},{"id":"https://openalex.org/keywords/baseline","display_name":"Baseline (sea)","score":0.5063999891281128},{"id":"https://openalex.org/keywords/artificial-neural-network","display_name":"Artificial neural network","score":0.4383000135421753},{"id":"https://openalex.org/keywords/component","display_name":"Component (thermodynamics)","score":0.4189000129699707},{"id":"https://openalex.org/keywords/value","display_name":"Value (mathematics)","score":0.39500001072883606}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.8015000224113464},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6467000246047974},{"id":"https://openalex.org/C8642999","wikidata":"https://www.wikidata.org/wiki/Q4171168","display_name":"Hyperparameter","level":2,"score":0.6394000053405762},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.6089000105857849},{"id":"https://openalex.org/C12725497","wikidata":"https://www.wikidata.org/wiki/Q810247","display_name":"Baseline (sea)","level":2,"score":0.5063999891281128},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.4383000135421753},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.421999990940094},{"id":"https://openalex.org/C168167062","wikidata":"https://www.wikidata.org/wiki/Q1117970","display_name":"Component (thermodynamics)","level":2,"score":0.4189000129699707},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.3995000123977661},{"id":"https://openalex.org/C2776291640","wikidata":"https://www.wikidata.org/wiki/Q2912517","display_name":"Value (mathematics)","level":2,"score":0.39500001072883606},{"id":"https://openalex.org/C120936955","wikidata":"https://www.wikidata.org/wiki/Q2155640","display_name":"Empirical research","level":2,"score":0.3239000141620636},{"id":"https://openalex.org/C112930515","wikidata":"https://www.wikidata.org/wiki/Q4389547","display_name":"Risk analysis (engineering)","level":1,"score":0.3231000006198883},{"id":"https://openalex.org/C8505890","wikidata":"https://www.wikidata.org/wiki/Q605095","display_name":"Budget constraint","level":2,"score":0.3151000142097473},{"id":"https://openalex.org/C175154964","wikidata":"https://www.wikidata.org/wiki/Q380077","display_name":"Task analysis","level":3,"score":0.31150001287460327},{"id":"https://openalex.org/C2779662365","wikidata":"https://www.wikidata.org/wiki/Q5416694","display_name":"Event (particle physics)","level":2,"score":0.2833000123500824},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.27570000290870667},{"id":"https://openalex.org/C77618280","wikidata":"https://www.wikidata.org/wiki/Q1155772","display_name":"Scheme (mathematics)","level":2,"score":0.2750999927520752},{"id":"https://openalex.org/C2776401178","wikidata":"https://www.wikidata.org/wiki/Q12050496","display_name":"Feature (linguistics)","level":2,"score":0.2612000107765198}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1145/3789418.3789420","is_oa":false,"landing_page_url":"https://doi.org/10.1145/3789418.3789420","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 9th International Conference on Algorithms, Computing and Systems","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":2,"referenced_works":["https://openalex.org/W3003931103","https://openalex.org/W3150718622"],"related_works":[],"abstract_inverted_index":{"Safe":[0,137],"reinforcement":[1],"learning":[2],"(Safe":[3],"RL)":[4],"seeks":[5],"to":[6,13],"optimize":[7],"task":[8],"performance":[9],"while":[10,104],"ensuring":[11],"adherence":[12],"safety":[14,108],"constraints,":[15],"a":[16,96],"requirement":[17],"for":[18],"deploying":[19],"agents":[20],"in":[21,49,139],"safety-critical":[22],"domains.":[23],"Standard":[24],"metrics":[25,124],"often":[26],"overlook":[27],"worst-case":[28],"risks,":[29],"motivating":[30],"the":[31,50,100,110],"use":[32],"of":[33,112],"richer":[34],"evaluation":[35,57],"criteria.":[36],"In":[37],"this":[38],"work,":[39],"we":[40,93],"study":[41],"Proximal":[42],"Policy":[43],"Optimization":[44],"with":[45],"Lagrangian":[46],"penalties":[47],"(PPO-Lag)":[48],"Safety-Gymnasium":[51],"CarButton1":[52],"environment":[53],"using":[54],"an":[55],"extended":[56,123],"framework":[58],"that":[59,95,122],"incorporates":[60],"Conditional":[61],"Value":[62],"at":[63,109],"Risk":[64],"(CVaR),":[65],"Safety":[66],"Budget":[67],"Utilization":[68],"Ratio":[69],"(SBUR),":[70],"violation":[71],"rate,":[72],"and":[73,79,89,114],"recovery":[74],"rate":[75],"alongside":[76],"traditional":[77],"reward":[78],"cost.":[80],"Through":[81],"ablation":[82],"studies":[83],"on":[84],"hyperparameters":[85],"(training_num,":[86],"repeat_per_collect,":[87],"cost_limit)":[88],"neural":[90],"network":[91],"architectures,":[92],"find":[94],"baseline":[97],"configuration":[98],"achieves":[99],"most":[101],"balanced":[102],"trade-off,":[103],"stricter":[105],"constraints":[106],"enhance":[107],"expense":[111],"efficiency":[113],"larger":[115],"networks":[116],"introduce":[117],"instability.":[118],"Our":[119],"results":[120],"demonstrate":[121],"reveal":[125],"safety\u2013performance":[126],"dynamics":[127],"missed":[128],"by":[129],"averages,":[130],"providing":[131],"empirical":[132],"insights":[133],"toward":[134],"more":[135],"reliable":[136],"RL":[138],"real-world":[140],"applications.":[141]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2026-04-26T00:00:00"}