{"id":"https://openalex.org/W7125903959","doi":"https://doi.org/10.1109/smc58881.2025.11343086","title":"Constrained Policy Optimization with Approximately Monotonically Increasing Rewards","display_name":"Constrained Policy Optimization with Approximately Monotonically Increasing Rewards","publication_year":2025,"publication_date":"2025-10-05","ids":{"openalex":"https://openalex.org/W7125903959","doi":"https://doi.org/10.1109/smc58881.2025.11343086"},"language":null,"primary_location":{"id":"doi:10.1109/smc58881.2025.11343086","is_oa":false,"landing_page_url":"https://doi.org/10.1109/smc58881.2025.11343086","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE International Conference on Systems, Man, and Cybernetics (SMC)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5124124993","display_name":"Yuanyang Lu","orcid":null},"institutions":[{"id":"https://openalex.org/I36399199","display_name":"Nanjing University of Science and Technology","ror":"https://ror.org/00xp9wg62","country_code":"CN","type":"education","lineage":["https://openalex.org/I36399199"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Yuanyang Lu","raw_affiliation_strings":["Nanjing University,School of Management and Engineering,Department of Control Science and Intelligence Engineering,Nanjing,China,210093"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Nanjing University,School of Management and Engineering,Department of Control Science and Intelligence Engineering,Nanjing,China,210093","institution_ids":["https://openalex.org/I36399199"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5025551679","display_name":"Huiqiao Fu","orcid":"https://orcid.org/0000-0001-9403-2449"},"institutions":[{"id":"https://openalex.org/I36399199","display_name":"Nanjing University of Science and Technology","ror":"https://ror.org/00xp9wg62","country_code":"CN","type":"education","lineage":["https://openalex.org/I36399199"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Huiqiao Fu","raw_affiliation_strings":["Nanjing University,School of Management and Engineering,Department of Control Science and Intelligence Engineering,Nanjing,China,210093"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Nanjing University,School of Management and Engineering,Department of Control Science and Intelligence Engineering,Nanjing,China,210093","institution_ids":["https://openalex.org/I36399199"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5031185739","display_name":"Kaiqiang Tang","orcid":"https://orcid.org/0000-0002-7456-0962"},"institutions":[{"id":"https://openalex.org/I3923682","display_name":"Soochow University","ror":"https://ror.org/05t8y2r12","country_code":"CN","type":"education","lineage":["https://openalex.org/I3923682"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Kaiqiang Tang","raw_affiliation_strings":["Nanjing University,Center for Advanced Control and Smart Operations (CACSO),Suzhou,China,215163"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Nanjing University,Center for Advanced Control and Smart Operations (CACSO),Suzhou,China,215163","institution_ids":["https://openalex.org/I3923682"]}]},{"author_position":"last","author":{"id":null,"display_name":"Chunlin Chen","orcid":null},"institutions":[{"id":"https://openalex.org/I36399199","display_name":"Nanjing University of Science and Technology","ror":"https://ror.org/00xp9wg62","country_code":"CN","type":"education","lineage":["https://openalex.org/I36399199"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Chunlin Chen","raw_affiliation_strings":["Nanjing University,School of Management and Engineering,Department of Control Science and Intelligence Engineering,Nanjing,China,210093"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Nanjing University,School of Management and Engineering,Department of Control Science and Intelligence Engineering,Nanjing,China,210093","institution_ids":["https://openalex.org/I36399199"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":4,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.80385178,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"4163","last_page":"4170"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.8672999739646912,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.8672999739646912,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Machine Learning","score":0.024700000882148743,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12794","display_name":"Adaptive Dynamic Programming Control","score":0.01769999973475933,"subfield":{"id":"https://openalex.org/subfields/1703","display_name":"Computational Theory and Mathematics"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/monotonic-function","display_name":"Monotonic function","score":0.7365000247955322},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.6798999905586243},{"id":"https://openalex.org/keywords/set","display_name":"Set (abstract data type)","score":0.6159999966621399},{"id":"https://openalex.org/keywords/control","display_name":"Control (management)","score":0.48080000281333923},{"id":"https://openalex.org/keywords/balance","display_name":"Balance (ability)","score":0.35339999198913574},{"id":"https://openalex.org/keywords/optimization-problem","display_name":"Optimization problem","score":0.3199999928474426}],"concepts":[{"id":"https://openalex.org/C72169020","wikidata":"https://www.wikidata.org/wiki/Q194404","display_name":"Monotonic function","level":2,"score":0.7365000247955322},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.6798999905586243},{"id":"https://openalex.org/C177264268","wikidata":"https://www.wikidata.org/wiki/Q1514741","display_name":"Set (abstract data type)","level":2,"score":0.6159999966621399},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.5569999814033508},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.5146999955177307},{"id":"https://openalex.org/C2775924081","wikidata":"https://www.wikidata.org/wiki/Q55608371","display_name":"Control (management)","level":2,"score":0.48080000281333923},{"id":"https://openalex.org/C168031717","wikidata":"https://www.wikidata.org/wiki/Q1530280","display_name":"Balance (ability)","level":2,"score":0.35339999198913574},{"id":"https://openalex.org/C137836250","wikidata":"https://www.wikidata.org/wiki/Q984063","display_name":"Optimization problem","level":2,"score":0.3199999928474426},{"id":"https://openalex.org/C55660270","wikidata":"https://www.wikidata.org/wiki/Q5164377","display_name":"Constrained optimization","level":2,"score":0.3118000030517578},{"id":"https://openalex.org/C10431821","wikidata":"https://www.wikidata.org/wiki/Q6510174","display_name":"Learning effect","level":2,"score":0.28439998626708984},{"id":"https://openalex.org/C166052673","wikidata":"https://www.wikidata.org/wiki/Q83021","display_name":"Empirical evidence","level":2,"score":0.2842999994754791},{"id":"https://openalex.org/C120936955","wikidata":"https://www.wikidata.org/wiki/Q2155640","display_name":"Empirical research","level":2,"score":0.25949999690055847},{"id":"https://openalex.org/C188116033","wikidata":"https://www.wikidata.org/wiki/Q2664563","display_name":"Q-learning","level":3,"score":0.25859999656677246},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.2581999897956848},{"id":"https://openalex.org/C162324750","wikidata":"https://www.wikidata.org/wiki/Q8134","display_name":"Economics","level":0,"score":0.2547999918460846}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/smc58881.2025.11343086","is_oa":false,"landing_page_url":"https://doi.org/10.1109/smc58881.2025.11343086","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE International Conference on Systems, Man, and Cybernetics (SMC)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[{"display_name":"Peace, Justice and strong institutions","id":"https://metadata.un.org/sdg/16","score":0.49918991327285767}],"awards":[],"funders":[{"id":"https://openalex.org/F4320335777","display_name":"National Key Research and Development Program of China","ror":null},{"id":"https://openalex.org/F4320335787","display_name":"Fundamental Research Funds for the Central Universities","ror":null}],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":10,"referenced_works":["https://openalex.org/W2125612430","https://openalex.org/W2913522865","https://openalex.org/W2968983352","https://openalex.org/W2990123902","https://openalex.org/W2990747716","https://openalex.org/W3191163823","https://openalex.org/W4206497039","https://openalex.org/W4285600796","https://openalex.org/W4310705874","https://openalex.org/W4385767614"],"related_works":[],"abstract_inverted_index":{"In":[0,44],"reinforcement":[1],"learning":[2,68,114],"(RL),":[3],"agents":[4],"maximize":[5],"accumulated":[6],"rewards":[7,112],"through":[8],"trial-and-error":[9],"in":[10,18,22,69,111],"the":[11,23,39,65,89,93,107,121],"environment":[12],"to":[13,34,63,82,101],"obtain":[14],"high-performing":[15],"policies.":[16,116],"However,":[17],"some":[19],"situations,":[20],"loopholes":[21],"purely":[24],"synthetic":[25],"reward":[26,90],"signals":[27],"are":[28],"often":[29],"exploited":[30],"by":[31],"agents,":[32],"leading":[33],"unsafe":[35],"behaviors,":[36],"which":[37],"necessitates":[38],"incorporation":[40],"of":[41,125,130],"safety":[42],"constraints.":[43],"this":[45],"paper,":[46],"we":[47],"propose":[48],"a":[49,78,84,96,128],"safe":[50,66],"RL":[51],"algorithm":[52],"called":[53],"Constrained":[54],"Policy":[55],"Optimization":[56],"with":[57],"Approximately":[58],"Monotonically":[59],"Increasing":[60],"Rewards":[61],"(CPO-AMIR)":[62],"address":[64],"policy":[67],"different":[70],"scenarios":[71],"and":[72,91,123],"provide":[73],"practical":[74],"solutions.":[75],"We":[76],"present":[77],"novel":[79],"update":[80],"formula":[81],"achieve":[83],"better":[85],"balance":[86],"between":[87],"increasing":[88],"decreasing":[92],"cost.":[94],"Furthermore,":[95],"theoretical":[97],"analysis":[98],"is":[99],"provided":[100],"demonstrate":[102],"that":[103],"our":[104],"approach":[105],"guarantees":[106],"approximately":[108],"monotonic":[109],"improvement":[110],"when":[113],"constraint-satisfying":[115],"Our":[117],"empirical":[118],"results":[119],"illustrate":[120],"effectiveness":[122],"superiority":[124],"CPO-AMIR":[126],"on":[127],"set":[129],"constrained":[131],"control":[132],"tasks.":[133]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2026-01-29T00:00:00"}