{"id":"https://openalex.org/W4415180199","doi":"https://doi.org/10.23919/ecc65951.2025.11186950","title":"Policy Gradient-based Reinforcement Learning for LQG Control with Chance Constraints","display_name":"Policy Gradient-based Reinforcement Learning for LQG Control with Chance Constraints","publication_year":2025,"publication_date":"2025-06-24","ids":{"openalex":"https://openalex.org/W4415180199","doi":"https://doi.org/10.23919/ecc65951.2025.11186950"},"language":"en","primary_location":{"id":"doi:10.23919/ecc65951.2025.11186950","is_oa":false,"landing_page_url":"https://doi.org/10.23919/ecc65951.2025.11186950","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 European Control Conference (ECC)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5083365677","display_name":"Arunava Naha","orcid":"https://orcid.org/0000-0002-7112-8269"},"institutions":[{"id":"https://openalex.org/I102134673","display_name":"Link\u00f6ping University","ror":"https://ror.org/05ynxx418","country_code":"SE","type":"education","lineage":["https://openalex.org/I102134673"]}],"countries":["SE"],"is_corresponding":true,"raw_author_name":"Arunava Naha","raw_affiliation_strings":["Link&#x00F6;ping University,Department of Electrical Engineering,Link&#x00F6;ping,Sweden,58183"],"affiliations":[{"raw_affiliation_string":"Link&#x00F6;ping University,Department of Electrical Engineering,Link&#x00F6;ping,Sweden,58183","institution_ids":["https://openalex.org/I102134673"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5057431380","display_name":"Subhrakanti Dey","orcid":"https://orcid.org/0000-0003-0762-5743"},"institutions":[{"id":"https://openalex.org/I123387679","display_name":"Uppsala University","ror":"https://ror.org/048a87296","country_code":"SE","type":"education","lineage":["https://openalex.org/I123387679"]}],"countries":["SE"],"is_corresponding":false,"raw_author_name":"Subhrakanti Dey","raw_affiliation_strings":["Uppsala University,Department of Electrical Engineering,Uppsala,Sweden,75103"],"affiliations":[{"raw_affiliation_string":"Uppsala University,Department of Electrical Engineering,Uppsala,Sweden,75103","institution_ids":["https://openalex.org/I123387679"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":["https://openalex.org/A5083365677"],"corresponding_institution_ids":["https://openalex.org/I102134673"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.39219004,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"364","last_page":"371"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11749","display_name":"Iterative Learning Control Systems","score":0.9115999937057495,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11749","display_name":"Iterative Learning Control Systems","score":0.9115999937057495,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/linear-quadratic-gaussian-control","display_name":"Linear-quadratic-Gaussian control","score":0.7717000246047974},{"id":"https://openalex.org/keywords/linear-quadratic-regulator","display_name":"Linear-quadratic regulator","score":0.6784999966621399},{"id":"https://openalex.org/keywords/optimal-control","display_name":"Optimal control","score":0.6728000044822693},{"id":"https://openalex.org/keywords/convergence","display_name":"Convergence (economics)","score":0.6524999737739563},{"id":"https://openalex.org/keywords/control-theory","display_name":"Control theory (sociology)","score":0.6082000136375427},{"id":"https://openalex.org/keywords/constraint","display_name":"Constraint (computer-aided design)","score":0.5763999819755554},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.5669999718666077},{"id":"https://openalex.org/keywords/probabilistic-logic","display_name":"Probabilistic logic","score":0.5587999820709229},{"id":"https://openalex.org/keywords/controller","display_name":"Controller (irrigation)","score":0.4950999915599823},{"id":"https://openalex.org/keywords/gradient-method","display_name":"Gradient method","score":0.4941999912261963}],"concepts":[{"id":"https://openalex.org/C204495892","wikidata":"https://www.wikidata.org/wiki/Q1798304","display_name":"Linear-quadratic-Gaussian control","level":3,"score":0.7717000246047974},{"id":"https://openalex.org/C98779006","wikidata":"https://www.wikidata.org/wiki/Q2520550","display_name":"Linear-quadratic regulator","level":3,"score":0.6784999966621399},{"id":"https://openalex.org/C91575142","wikidata":"https://www.wikidata.org/wiki/Q1971426","display_name":"Optimal control","level":2,"score":0.6728000044822693},{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.6524999737739563},{"id":"https://openalex.org/C47446073","wikidata":"https://www.wikidata.org/wiki/Q5165890","display_name":"Control theory (sociology)","level":3,"score":0.6082000136375427},{"id":"https://openalex.org/C2776036281","wikidata":"https://www.wikidata.org/wiki/Q48769818","display_name":"Constraint (computer-aided design)","level":2,"score":0.5763999819755554},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.5669999718666077},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.5601999759674072},{"id":"https://openalex.org/C49937458","wikidata":"https://www.wikidata.org/wiki/Q2599292","display_name":"Probabilistic logic","level":2,"score":0.5587999820709229},{"id":"https://openalex.org/C203479927","wikidata":"https://www.wikidata.org/wiki/Q5165939","display_name":"Controller (irrigation)","level":2,"score":0.4950999915599823},{"id":"https://openalex.org/C115680565","wikidata":"https://www.wikidata.org/wiki/Q5977448","display_name":"Gradient method","level":2,"score":0.4941999912261963},{"id":"https://openalex.org/C172205157","wikidata":"https://www.wikidata.org/wiki/Q1782962","display_name":"Model predictive control","level":3,"score":0.4902999997138977},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.4449000060558319},{"id":"https://openalex.org/C2775924081","wikidata":"https://www.wikidata.org/wiki/Q55608371","display_name":"Control (management)","level":2,"score":0.40880000591278076},{"id":"https://openalex.org/C48103436","wikidata":"https://www.wikidata.org/wiki/Q599031","display_name":"State (computer science)","level":2,"score":0.39500001072883606},{"id":"https://openalex.org/C6802819","wikidata":"https://www.wikidata.org/wiki/Q1072174","display_name":"Linear system","level":2,"score":0.3939000070095062},{"id":"https://openalex.org/C153258448","wikidata":"https://www.wikidata.org/wiki/Q1199743","display_name":"Gradient descent","level":3,"score":0.3910999894142151},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.3675999939441681},{"id":"https://openalex.org/C129844170","wikidata":"https://www.wikidata.org/wiki/Q41299","display_name":"Quadratic equation","level":2,"score":0.3528999984264374},{"id":"https://openalex.org/C28761237","wikidata":"https://www.wikidata.org/wiki/Q7805321","display_name":"Time horizon","level":2,"score":0.33739998936653137},{"id":"https://openalex.org/C61797465","wikidata":"https://www.wikidata.org/wiki/Q1188986","display_name":"Term (time)","level":2,"score":0.3321000039577484},{"id":"https://openalex.org/C81845259","wikidata":"https://www.wikidata.org/wiki/Q290117","display_name":"Quadratic programming","level":2,"score":0.3303000032901764},{"id":"https://openalex.org/C55660270","wikidata":"https://www.wikidata.org/wiki/Q5164377","display_name":"Constrained optimization","level":2,"score":0.31439998745918274},{"id":"https://openalex.org/C2777212361","wikidata":"https://www.wikidata.org/wiki/Q5127848","display_name":"Class (philosophy)","level":2,"score":0.31369999051094055},{"id":"https://openalex.org/C170131372","wikidata":"https://www.wikidata.org/wiki/Q7617811","display_name":"Stochastic control","level":3,"score":0.31189998984336853},{"id":"https://openalex.org/C159176650","wikidata":"https://www.wikidata.org/wiki/Q43261","display_name":"Horizon","level":2,"score":0.3075000047683716},{"id":"https://openalex.org/C17500928","wikidata":"https://www.wikidata.org/wiki/Q959968","display_name":"Control system","level":2,"score":0.305400013923645},{"id":"https://openalex.org/C41045048","wikidata":"https://www.wikidata.org/wiki/Q202843","display_name":"Linear programming","level":2,"score":0.29249998927116394},{"id":"https://openalex.org/C57869625","wikidata":"https://www.wikidata.org/wiki/Q1783502","display_name":"Rate of convergence","level":3,"score":0.2734000086784363},{"id":"https://openalex.org/C37404715","wikidata":"https://www.wikidata.org/wiki/Q380679","display_name":"Dynamic programming","level":2,"score":0.26829999685287476},{"id":"https://openalex.org/C45473103","wikidata":"https://www.wikidata.org/wiki/Q851503","display_name":"Riccati equation","level":3,"score":0.26570001244544983},{"id":"https://openalex.org/C44616089","wikidata":"https://www.wikidata.org/wiki/Q30158686","display_name":"Constraint satisfaction","level":3,"score":0.2606000006198883},{"id":"https://openalex.org/C62431964","wikidata":"https://www.wikidata.org/wiki/Q2271572","display_name":"Separation principle","level":4,"score":0.25200000405311584}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.23919/ecc65951.2025.11186950","is_oa":false,"landing_page_url":"https://doi.org/10.23919/ecc65951.2025.11186950","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 European Control Conference (ECC)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":16,"referenced_works":["https://openalex.org/W1978524904","https://openalex.org/W2060541368","https://openalex.org/W2162117184","https://openalex.org/W2169039617","https://openalex.org/W2897661175","https://openalex.org/W2904238132","https://openalex.org/W2973229164","https://openalex.org/W3118666236","https://openalex.org/W3161299873","https://openalex.org/W3162439934","https://openalex.org/W3209135762","https://openalex.org/W4226043618","https://openalex.org/W4313591116","https://openalex.org/W4367841446","https://openalex.org/W4382998739","https://openalex.org/W4384080718"],"related_works":[],"abstract_inverted_index":{"In":[0,35],"this":[1],"paper,":[2],"we":[3,37],"investigate":[4],"a":[5,26,91],"model-free":[6],"optimal":[7,45,82],"control":[8,22,95],"design":[9,43],"that":[10],"minimizes":[11],"an":[12,44],"infinite":[13],"horizon":[14],"average":[15],"expected":[16],"quadratic":[17],"cost":[18],"of":[19,50,103,116,135],"states":[20],"and":[21,42,66,73,90,100],"actions":[23],"subject":[24],"to":[25,75],"probabilistic":[27],"risk":[28],"or":[29],"chance":[30,87],"constraint":[31],"using":[32],"input-output":[33],"data.":[34],"particular,":[36],"consider":[38],"linear":[39,51],"time-invariant":[40],"systems":[41],"controller":[46],"within":[47],"the":[48,81,101,105,117,121,129],"class":[49],"state":[52],"feedback":[53],"controls.":[54],"Two":[55],"different":[56],"policy":[57,63,68,78],"gradient":[58,64,69,79],"(PG)":[59],"based":[60],"algorithms,":[61],"natural":[62],"(NPG)":[65],"Gauss-Newton":[67],"(GNPG)":[70],"are":[71,107],"developed":[72],"compared":[74,108],"deep":[76],"deterministic":[77],"(DDPG),":[80],"risk-neutral":[83],"linear-quadratic":[84],"regulator":[85],"(LQR),":[86],"constrained":[88],"LQR,":[89],"scenario-based":[92],"model":[93,123,131],"predictive":[94],"(MPC).":[96],"The":[97],"convergence":[98,114,126],"properties":[99,115],"accuracy":[102],"all":[104],"algorithms":[106],"numerically.":[109],"We":[110],"also":[111],"establish":[112],"analytical":[113],"NPG":[118],"algorithm":[119],"under":[120],"known":[122],"scenario,":[124],"while":[125],"analysis":[127],"for":[128],"unknown":[130],"scenario":[132],"is":[133],"part":[134],"our":[136],"ongoing":[137],"work.":[138]},"counts_by_year":[],"updated_date":"2026-03-07T16:01:11.037858","created_date":"2025-10-15T00:00:00"}