{"id":"https://openalex.org/W4323520988","doi":"https://doi.org/10.1109/ieeeconf56349.2022.10052060","title":"Constrained Reinforcement Learning via Dissipative Saddle Flow Dynamics","display_name":"Constrained Reinforcement Learning via Dissipative Saddle Flow Dynamics","publication_year":2022,"publication_date":"2022-10-31","ids":{"openalex":"https://openalex.org/W4323520988","doi":"https://doi.org/10.1109/ieeeconf56349.2022.10052060"},"language":"en","primary_location":{"id":"doi:10.1109/ieeeconf56349.2022.10052060","is_oa":false,"landing_page_url":"http://dx.doi.org/10.1109/ieeeconf56349.2022.10052060","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2022 56th Asilomar Conference on Signals, Systems, and Computers","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5007946394","display_name":"Tianqi Zheng","orcid":"https://orcid.org/0009-0005-1332-5837"},"institutions":[{"id":"https://openalex.org/I145311948","display_name":"Johns Hopkins University","ror":"https://ror.org/00za53h95","country_code":"US","type":"education","lineage":["https://openalex.org/I145311948"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Tianqi Zheng","raw_affiliation_strings":["Johns Hopkins University,Department of Electrical and Computer Engineering,Baltimore,MD,USA,21218"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Johns Hopkins University,Department of Electrical and Computer Engineering,Baltimore,MD,USA,21218","institution_ids":["https://openalex.org/I145311948"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5090203537","display_name":"Pengcheng You","orcid":"https://orcid.org/0000-0003-1532-8773"},"institutions":[{"id":"https://openalex.org/I20231570","display_name":"Peking University","ror":"https://ror.org/02v51f717","country_code":"CN","type":"education","lineage":["https://openalex.org/I20231570"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Pengcheng You","raw_affiliation_strings":["Peking University,Dept. of Industrial Engineering and Management,Beijing,China","Dept. of Industrial Engineering and Management, Peking University, Beijing, China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Peking University,Dept. of Industrial Engineering and Management,Beijing,China","institution_ids":["https://openalex.org/I20231570"]},{"raw_affiliation_string":"Dept. of Industrial Engineering and Management, Peking University, Beijing, China","institution_ids":["https://openalex.org/I20231570"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5032910355","display_name":"Enrique Mallada","orcid":"https://orcid.org/0000-0003-1568-1833"},"institutions":[{"id":"https://openalex.org/I145311948","display_name":"Johns Hopkins University","ror":"https://ror.org/00za53h95","country_code":"US","type":"education","lineage":["https://openalex.org/I145311948"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Enrique Mallada","raw_affiliation_strings":["Johns Hopkins University,Department of Electrical and Computer Engineering,Baltimore,MD,USA,21218"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Johns Hopkins University,Department of Electrical and Computer Engineering,Baltimore,MD,USA,21218","institution_ids":["https://openalex.org/I145311948"]}]}],"institutions":[],"countries_distinct_count":2,"institutions_distinct_count":3,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.2775,"has_fulltext":false,"cited_by_count":2,"citation_normalized_percentile":{"value":0.65162879,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":90,"max":94},"biblio":{"volume":null,"issue":null,"first_page":"1362","last_page":"1366"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11612","display_name":"Stochastic Gradient Optimization Techniques","score":0.9998000264167786,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11612","display_name":"Stochastic Gradient Optimization Techniques","score":0.9998000264167786,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12101","display_name":"Advanced Bandit Algorithms Research","score":0.9983000159263611,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},{"id":"https://openalex.org/T10764","display_name":"Privacy-Preserving Technologies in Data","score":0.9919000267982483,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.795710563659668},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.6255513429641724},{"id":"https://openalex.org/keywords/mathematical-optimization","display_name":"Mathematical optimization","score":0.6215462684631348},{"id":"https://openalex.org/keywords/saddle-point","display_name":"Saddle point","score":0.521337628364563},{"id":"https://openalex.org/keywords/gradient-descent","display_name":"Gradient descent","score":0.5199679136276245},{"id":"https://openalex.org/keywords/flow","display_name":"Flow (mathematics)","score":0.4422615170478821},{"id":"https://openalex.org/keywords/saddle","display_name":"Saddle","score":0.42543551325798035},{"id":"https://openalex.org/keywords/mixing","display_name":"Mixing (physics)","score":0.4237935543060303},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.32002782821655273},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.27392688393592834},{"id":"https://openalex.org/keywords/artificial-neural-network","display_name":"Artificial neural network","score":0.13726559281349182}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.795710563659668},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6255513429641724},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.6215462684631348},{"id":"https://openalex.org/C2681867","wikidata":"https://www.wikidata.org/wiki/Q690935","display_name":"Saddle point","level":2,"score":0.521337628364563},{"id":"https://openalex.org/C153258448","wikidata":"https://www.wikidata.org/wiki/Q1199743","display_name":"Gradient descent","level":3,"score":0.5199679136276245},{"id":"https://openalex.org/C38349280","wikidata":"https://www.wikidata.org/wiki/Q1434290","display_name":"Flow (mathematics)","level":2,"score":0.4422615170478821},{"id":"https://openalex.org/C2777127463","wikidata":"https://www.wikidata.org/wiki/Q10862618","display_name":"Saddle","level":2,"score":0.42543551325798035},{"id":"https://openalex.org/C138777275","wikidata":"https://www.wikidata.org/wiki/Q6884054","display_name":"Mixing (physics)","level":2,"score":0.4237935543060303},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.32002782821655273},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.27392688393592834},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.13726559281349182},{"id":"https://openalex.org/C2524010","wikidata":"https://www.wikidata.org/wiki/Q8087","display_name":"Geometry","level":1,"score":0.0},{"id":"https://openalex.org/C62520636","wikidata":"https://www.wikidata.org/wiki/Q944","display_name":"Quantum mechanics","level":1,"score":0.0},{"id":"https://openalex.org/C121332964","wikidata":"https://www.wikidata.org/wiki/Q413","display_name":"Physics","level":0,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/ieeeconf56349.2022.10052060","is_oa":false,"landing_page_url":"http://dx.doi.org/10.1109/ieeeconf56349.2022.10052060","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2022 56th Asilomar Conference on Signals, Systems, and Computers","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[{"id":"https://openalex.org/G3942359925","display_name":null,"funder_award_id":"CAREER 1752362,CPS 2136324,TRIPODS 1934979","funder_id":"https://openalex.org/F4320306076","funder_display_name":"National Science Foundation"}],"funders":[{"id":"https://openalex.org/F4320306076","display_name":"National Science Foundation","ror":"https://ror.org/021nxhr62"}],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":22,"referenced_works":["https://openalex.org/W2117626647","https://openalex.org/W2335719025","https://openalex.org/W2963135216","https://openalex.org/W2980326798","https://openalex.org/W3101517963","https://openalex.org/W3125031134","https://openalex.org/W3131665514","https://openalex.org/W3171019181","https://openalex.org/W3185529251","https://openalex.org/W3200353301","https://openalex.org/W4226111120","https://openalex.org/W4293545785","https://openalex.org/W4297824337","https://openalex.org/W4323520988","https://openalex.org/W4386976751","https://openalex.org/W6677477198","https://openalex.org/W6737893269","https://openalex.org/W6770009701","https://openalex.org/W6785471904","https://openalex.org/W6789855942","https://openalex.org/W6796988493","https://openalex.org/W6811206064"],"related_works":["https://openalex.org/W4236459141","https://openalex.org/W4205304778","https://openalex.org/W2020252434","https://openalex.org/W73248859","https://openalex.org/W2584253892","https://openalex.org/W2350324449","https://openalex.org/W119381072","https://openalex.org/W2034033896","https://openalex.org/W2094891943","https://openalex.org/W4240399920"],"abstract_inverted_index":{"In":[0,93],"constrained":[1,102],"reinforcement":[2],"learning":[3],"(C-RL),":[4],"an":[5],"agent":[6],"seeks":[7],"to":[8,41,62,129],"learn":[9],"from":[10,108],"the":[11,17,63,75,86,90,130],"environment":[12],"a":[13,68,79,83,98,120],"policy":[14,46,65,88,132],"that":[15,72,104],"maximizes":[16],"expected":[18],"cumulative":[19,27],"reward":[20,28],"while":[21],"satisfying":[22],"minimum":[23],"requirements":[24],"in":[25,33,45],"secondary":[26],"constraints.":[29],"Several":[30],"algorithms":[31,57],"rooted":[32],"sampled-based":[34],"primal-dual":[35],"methods":[36,50],"have":[37],"been":[38],"recently":[39],"proposed":[40],"solve":[42],"this":[43,94],"problem":[44],"space.":[47],"However,":[48],"such":[49],"are":[51,60],"based":[52],"on":[53,74,114],"stochastic":[54,122],"gradient":[55,123],"descent-ascent":[56,124],"whose":[58,126],"trajectories":[59,127],"connected":[61],"optimal":[64,91,131],"only":[66],"after":[67],"mixing":[69],"output":[70],"stage":[71],"depends":[73],"algorithm's":[76],"history.":[77],"As":[78],"result,":[80],"there":[81],"is":[82],"mismatch":[84],"between":[85],"behavioral":[87],"and":[89],"one.":[92],"work,":[95],"we":[96,118],"propose":[97],"novel":[99,121],"algorithm":[100,125],"for":[101],"RL":[103],"does":[105],"not":[106],"suffer":[107],"these":[109],"limitations.":[110],"Leveraging":[111],"recent":[112],"results":[113],"regularized":[115],"saddle-flow":[116],"dynamics,":[117],"develop":[119],"converge":[128],"almost":[133],"surely.":[134]},"counts_by_year":[{"year":2024,"cited_by_count":1},{"year":2022,"cited_by_count":1}],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2025-10-10T00:00:00"}