{"id":"https://openalex.org/W3108003339","doi":"https://doi.org/10.1109/tac.2022.3181248","title":"Stochastic Linear Quadratic Optimal Control Problem: A Reinforcement Learning Method","display_name":"Stochastic Linear Quadratic Optimal Control Problem: A Reinforcement Learning Method","publication_year":2022,"publication_date":"2022-06-14","ids":{"openalex":"https://openalex.org/W3108003339","doi":"https://doi.org/10.1109/tac.2022.3181248","mag":"3108003339"},"language":"en","primary_location":{"id":"doi:10.1109/tac.2022.3181248","is_oa":false,"landing_page_url":"https://doi.org/10.1109/tac.2022.3181248","pdf_url":null,"source":{"id":"https://openalex.org/S184954342","display_name":"IEEE Transactions on Automatic Control","issn_l":"0018-9286","issn":["0018-9286","1558-2523","2334-3303"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310319808","host_organization_name":"Institute of Electrical and Electronics Engineers","host_organization_lineage":["https://openalex.org/P4310319808"],"host_organization_lineage_names":["Institute of Electrical and Electronics Engineers"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"IEEE Transactions on Automatic Control","raw_type":"journal-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"http://ira.lib.polyu.edu.hk/bitstream/10397/95942/1/Li_Stochastic_Linear_Quadratic.pdf","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5100368113","display_name":"Na Li","orcid":"https://orcid.org/0000-0002-4293-515X"},"institutions":[{"id":"https://openalex.org/I59483232","display_name":"Shandong University of Finance and Economics","ror":"https://ror.org/02e2nnq08","country_code":"CN","type":"education","lineage":["https://openalex.org/I59483232"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Na Li","raw_affiliation_strings":["School of Statistics and Mathematics, Shandong University of Finance and Economics, Jinan, China"],"raw_orcid":"https://orcid.org/0000-0002-4293-515X","affiliations":[{"raw_affiliation_string":"School of Statistics and Mathematics, Shandong University of Finance and Economics, Jinan, China","institution_ids":["https://openalex.org/I59483232"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5100341868","display_name":"Xun Li","orcid":"https://orcid.org/0000-0003-0493-417X"},"institutions":[{"id":"https://openalex.org/I14243506","display_name":"Hong Kong Polytechnic University","ror":"https://ror.org/0030zas98","country_code":"HK","type":"education","lineage":["https://openalex.org/I14243506"]}],"countries":["HK"],"is_corresponding":false,"raw_author_name":"Xun Li","raw_affiliation_strings":["Department of Applied Mathematics, The Hong Kong Polytechnic University, Hong Kong, China"],"raw_orcid":"https://orcid.org/0000-0003-0493-417X","affiliations":[{"raw_affiliation_string":"Department of Applied Mathematics, The Hong Kong Polytechnic University, Hong Kong, China","institution_ids":["https://openalex.org/I14243506"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5101737125","display_name":"Jing Peng","orcid":"https://orcid.org/0000-0001-8965-9108"},"institutions":[{"id":"https://openalex.org/I14243506","display_name":"Hong Kong Polytechnic University","ror":"https://ror.org/0030zas98","country_code":"HK","type":"education","lineage":["https://openalex.org/I14243506"]}],"countries":["HK"],"is_corresponding":false,"raw_author_name":"Jing Peng","raw_affiliation_strings":["Department of Applied Mathematics, The Hong Kong Polytechnic University, Hong Kong, China"],"raw_orcid":"https://orcid.org/0000-0001-8965-9108","affiliations":[{"raw_affiliation_string":"Department of Applied Mathematics, The Hong Kong Polytechnic University, Hong Kong, China","institution_ids":["https://openalex.org/I14243506"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5019266386","display_name":"Zuo Quan Xu","orcid":"https://orcid.org/0000-0001-6824-1634"},"institutions":[{"id":"https://openalex.org/I14243506","display_name":"Hong Kong Polytechnic University","ror":"https://ror.org/0030zas98","country_code":"HK","type":"education","lineage":["https://openalex.org/I14243506"]}],"countries":["HK"],"is_corresponding":false,"raw_author_name":"Zuo Quan Xu","raw_affiliation_strings":["Department of Applied Mathematics, The Hong Kong Polytechnic University, Hong Kong, China"],"raw_orcid":"https://orcid.org/0000-0001-6824-1634","affiliations":[{"raw_affiliation_string":"Department of Applied Mathematics, The Hong Kong Polytechnic University, Hong Kong, China","institution_ids":["https://openalex.org/I14243506"]}]}],"institutions":[],"countries_distinct_count":2,"institutions_distinct_count":4,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":7.3019,"has_fulltext":true,"cited_by_count":51,"citation_normalized_percentile":{"value":0.97664404,"is_in_top_1_percent":false,"is_in_top_10_percent":true},"cited_by_percentile_year":{"min":96,"max":100},"biblio":{"volume":"67","issue":"9","first_page":"5009","last_page":"5016"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T12794","display_name":"Adaptive Dynamic Programming Control","score":0.9998999834060669,"subfield":{"id":"https://openalex.org/subfields/1703","display_name":"Computational Theory and Mathematics"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T12794","display_name":"Adaptive Dynamic Programming Control","score":0.9998999834060669,"subfield":{"id":"https://openalex.org/subfields/1703","display_name":"Computational Theory and Mathematics"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9915000200271606,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11886","display_name":"Agricultural risk and resilience","score":0.9631999731063843,"subfield":{"id":"https://openalex.org/subfields/1111","display_name":"Soil Science"},"field":{"id":"https://openalex.org/fields/11","display_name":"Agricultural and Biological Sciences"},"domain":{"id":"https://openalex.org/domains/1","display_name":"Life Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/optimal-control","display_name":"Optimal control","score":0.7591399550437927},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7535302639007568},{"id":"https://openalex.org/keywords/dynamic-programming","display_name":"Dynamic programming","score":0.7146060466766357},{"id":"https://openalex.org/keywords/linear-quadratic-gaussian-control","display_name":"Linear-quadratic-Gaussian control","score":0.6497995853424072},{"id":"https://openalex.org/keywords/stochastic-control","display_name":"Stochastic control","score":0.6496903896331787},{"id":"https://openalex.org/keywords/linear-quadratic-regulator","display_name":"Linear-quadratic regulator","score":0.6347526907920837},{"id":"https://openalex.org/keywords/algebraic-riccati-equation","display_name":"Algebraic Riccati equation","score":0.5507187247276306},{"id":"https://openalex.org/keywords/trajectory","display_name":"Trajectory","score":0.5453504920005798},{"id":"https://openalex.org/keywords/mathematical-optimization","display_name":"Mathematical optimization","score":0.5335135459899902},{"id":"https://openalex.org/keywords/riccati-equation","display_name":"Riccati equation","score":0.5251510143280029},{"id":"https://openalex.org/keywords/bellman-equation","display_name":"Bellman equation","score":0.5045362710952759},{"id":"https://openalex.org/keywords/control-theory","display_name":"Control theory (sociology)","score":0.47584816813468933},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.4598793089389801},{"id":"https://openalex.org/keywords/quadratic-programming","display_name":"Quadratic programming","score":0.43100547790527344},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.43067479133605957},{"id":"https://openalex.org/keywords/control","display_name":"Control (management)","score":0.3532562851905823},{"id":"https://openalex.org/keywords/partial-differential-equation","display_name":"Partial differential equation","score":0.1931546926498413},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.11603415012359619}],"concepts":[{"id":"https://openalex.org/C91575142","wikidata":"https://www.wikidata.org/wiki/Q1971426","display_name":"Optimal control","level":2,"score":0.7591399550437927},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7535302639007568},{"id":"https://openalex.org/C37404715","wikidata":"https://www.wikidata.org/wiki/Q380679","display_name":"Dynamic programming","level":2,"score":0.7146060466766357},{"id":"https://openalex.org/C204495892","wikidata":"https://www.wikidata.org/wiki/Q1798304","display_name":"Linear-quadratic-Gaussian control","level":3,"score":0.6497995853424072},{"id":"https://openalex.org/C170131372","wikidata":"https://www.wikidata.org/wiki/Q7617811","display_name":"Stochastic control","level":3,"score":0.6496903896331787},{"id":"https://openalex.org/C98779006","wikidata":"https://www.wikidata.org/wiki/Q2520550","display_name":"Linear-quadratic regulator","level":3,"score":0.6347526907920837},{"id":"https://openalex.org/C13847129","wikidata":"https://www.wikidata.org/wiki/Q4723989","display_name":"Algebraic Riccati equation","level":4,"score":0.5507187247276306},{"id":"https://openalex.org/C13662910","wikidata":"https://www.wikidata.org/wiki/Q193139","display_name":"Trajectory","level":2,"score":0.5453504920005798},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.5335135459899902},{"id":"https://openalex.org/C45473103","wikidata":"https://www.wikidata.org/wiki/Q851503","display_name":"Riccati equation","level":3,"score":0.5251510143280029},{"id":"https://openalex.org/C14646407","wikidata":"https://www.wikidata.org/wiki/Q1430750","display_name":"Bellman equation","level":2,"score":0.5045362710952759},{"id":"https://openalex.org/C47446073","wikidata":"https://www.wikidata.org/wiki/Q5165890","display_name":"Control theory (sociology)","level":3,"score":0.47584816813468933},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.4598793089389801},{"id":"https://openalex.org/C81845259","wikidata":"https://www.wikidata.org/wiki/Q290117","display_name":"Quadratic programming","level":2,"score":0.43100547790527344},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.43067479133605957},{"id":"https://openalex.org/C2775924081","wikidata":"https://www.wikidata.org/wiki/Q55608371","display_name":"Control (management)","level":2,"score":0.3532562851905823},{"id":"https://openalex.org/C93779851","wikidata":"https://www.wikidata.org/wiki/Q271977","display_name":"Partial differential equation","level":2,"score":0.1931546926498413},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.11603415012359619},{"id":"https://openalex.org/C134306372","wikidata":"https://www.wikidata.org/wiki/Q7754","display_name":"Mathematical analysis","level":1,"score":0.0},{"id":"https://openalex.org/C1276947","wikidata":"https://www.wikidata.org/wiki/Q333","display_name":"Astronomy","level":1,"score":0.0},{"id":"https://openalex.org/C121332964","wikidata":"https://www.wikidata.org/wiki/Q413","display_name":"Physics","level":0,"score":0.0}],"mesh":[],"locations_count":2,"locations":[{"id":"doi:10.1109/tac.2022.3181248","is_oa":false,"landing_page_url":"https://doi.org/10.1109/tac.2022.3181248","pdf_url":null,"source":{"id":"https://openalex.org/S184954342","display_name":"IEEE Transactions on Automatic Control","issn_l":"0018-9286","issn":["0018-9286","1558-2523","2334-3303"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310319808","host_organization_name":"Institute of Electrical and Electronics Engineers","host_organization_lineage":["https://openalex.org/P4310319808"],"host_organization_lineage_names":["Institute of Electrical and Electronics Engineers"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"IEEE Transactions on Automatic Control","raw_type":"journal-article"},{"id":"pmh:oai:ira.lib.polyu.edu.hk:10397/95942","is_oa":true,"landing_page_url":"http://hdl.handle.net/10397/95942","pdf_url":"http://ira.lib.polyu.edu.hk/bitstream/10397/95942/1/Li_Stochastic_Linear_Quadratic.pdf","source":{"id":"https://openalex.org/S4306400205","display_name":"PolyU Institutional Research Archive (Hong Kong Polytechnic University)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I14243506","host_organization_name":"Hong Kong Polytechnic University","host_organization_lineage":["https://openalex.org/I14243506"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Journal/Magazine Article"}],"best_oa_location":{"id":"pmh:oai:ira.lib.polyu.edu.hk:10397/95942","is_oa":true,"landing_page_url":"http://hdl.handle.net/10397/95942","pdf_url":"http://ira.lib.polyu.edu.hk/bitstream/10397/95942/1/Li_Stochastic_Linear_Quadratic.pdf","source":{"id":"https://openalex.org/S4306400205","display_name":"PolyU Institutional Research Archive (Hong Kong Polytechnic University)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I14243506","host_organization_name":"Hong Kong Polytechnic University","host_organization_lineage":["https://openalex.org/I14243506"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Journal/Magazine Article"},"sustainable_development_goals":[],"awards":[{"id":"https://openalex.org/G213983658","display_name":null,"funder_award_id":"12171279","funder_id":"https://openalex.org/F4320321001","funder_display_name":"National Natural Science Foundation of China"},{"id":"https://openalex.org/G2448543920","display_name":null,"funder_award_id":"1-TA03","funder_id":"https://openalex.org/F4320322598","funder_display_name":"Hong Kong Polytechnic University"},{"id":"https://openalex.org/G3430736667","display_name":"\u884c\u4e3a\u91d1\u878d\u5b66\u4e2d\u82e5\u5e72\u95ee\u9898\u7684\u91cf\u5316\u7814\u7a76","funder_award_id":"11971409","funder_id":"https://openalex.org/F4320321001","funder_display_name":"National Natural Science Foundation of China"},{"id":"https://openalex.org/G5045786751","display_name":null,"funder_award_id":"4-ZZKR","funder_id":"https://openalex.org/F4320322598","funder_display_name":"Hong Kong Polytechnic University"},{"id":"https://openalex.org/G5715546318","display_name":null,"funder_award_id":"2019KJI011","funder_id":"https://openalex.org/F4320324174","funder_display_name":"Natural Science Foundation of Shandong Province"},{"id":"https://openalex.org/G7553310024","display_name":null,"funder_award_id":"11801317","funder_id":"https://openalex.org/F4320321001","funder_display_name":"National Natural Science Foundation of China"},{"id":"https://openalex.org/G7795055076","display_name":null,"funder_award_id":"ZR2019MA013","funder_id":"https://openalex.org/F4320324174","funder_display_name":"Natural Science Foundation of Shandong Province"},{"id":"https://openalex.org/G7976062095","display_name":null,"funder_award_id":"ZR2019MA013","funder_id":"https://openalex.org/F4320321001","funder_display_name":"National Natural Science Foundation of China"},{"id":"https://openalex.org/G8751377796","display_name":null,"funder_award_id":"2019KJI011","funder_id":"https://openalex.org/F4320334014","funder_display_name":"Youth Innovation Technology Project of Higher School in Shandong Province"}],"funders":[{"id":"https://openalex.org/F4320321001","display_name":"National Natural Science Foundation of China","ror":"https://ror.org/01h0zpd94"},{"id":"https://openalex.org/F4320322598","display_name":"Hong Kong Polytechnic University","ror":"https://ror.org/0030zas98"},{"id":"https://openalex.org/F4320324174","display_name":"Natural Science Foundation of Shandong Province","ror":null},{"id":"https://openalex.org/F4320334014","display_name":"Youth Innovation Technology Project of Higher School in Shandong Province","ror":null}],"has_content":{"pdf":true,"grobid_xml":true},"content_urls":{"pdf":"https://content.openalex.org/works/W3108003339.pdf","grobid_xml":"https://content.openalex.org/works/W3108003339.grobid-xml"},"referenced_works_count":47,"referenced_works":["https://openalex.org/W82281344","https://openalex.org/W162622153","https://openalex.org/W207504327","https://openalex.org/W1514171990","https://openalex.org/W1520048352","https://openalex.org/W1525883337","https://openalex.org/W1599610710","https://openalex.org/W1616818660","https://openalex.org/W1907796993","https://openalex.org/W1964143231","https://openalex.org/W2004700948","https://openalex.org/W2024303516","https://openalex.org/W2049110942","https://openalex.org/W2073591687","https://openalex.org/W2121863487","https://openalex.org/W2126394835","https://openalex.org/W2137850460","https://openalex.org/W2148081050","https://openalex.org/W2160561608","https://openalex.org/W2165676571","https://openalex.org/W2341171179","https://openalex.org/W2523345745","https://openalex.org/W2534505373","https://openalex.org/W2762911482","https://openalex.org/W2772589676","https://openalex.org/W2886474253","https://openalex.org/W2897702175","https://openalex.org/W2900809720","https://openalex.org/W2902037383","https://openalex.org/W2917322258","https://openalex.org/W2953834481","https://openalex.org/W2997572556","https://openalex.org/W3011107238","https://openalex.org/W3011120880","https://openalex.org/W3037286161","https://openalex.org/W3097026541","https://openalex.org/W3098615412","https://openalex.org/W3103456419","https://openalex.org/W3128350768","https://openalex.org/W4212780424","https://openalex.org/W4214717370","https://openalex.org/W4247262579","https://openalex.org/W4384789415","https://openalex.org/W6754297394","https://openalex.org/W6775686901","https://openalex.org/W6785116810","https://openalex.org/W6785613663"],"related_works":["https://openalex.org/W3777868","https://openalex.org/W2007152535","https://openalex.org/W2051766198","https://openalex.org/W1990910969","https://openalex.org/W2915806395","https://openalex.org/W234468389","https://openalex.org/W2727200542","https://openalex.org/W3041379944","https://openalex.org/W2067197839","https://openalex.org/W2726381554"],"abstract_inverted_index":{"This":[0,55],"article":[1],"adopts":[2],"a":[3],"reinforcement":[4],"learning":[5],"(RL)":[6],"method":[7],"to":[8,47],"solve":[9],"infinite":[10],"horizon":[11],"continuous-time":[12],"stochastic":[13],"linear":[14],"quadratic":[15],"problems,":[16],"where":[17],"the":[18,24,30,36,58,64,69,82],"drift":[19],"and":[20,32,67],"diffusion":[21],"terms":[22],"in":[23],"dynamics":[25],"may":[26],"depend":[27],"on":[28,35,88],"both":[29],"state":[31],"control.":[33],"Based":[34],"Bellman\u2019s":[37],"dynamic":[38],"programming":[39],"principle,":[40],"we":[41],"presented":[42],"an":[43],"online":[44],"RL":[45],"algorithm":[46,56],"attain":[48],"optimal":[49,59],"control":[50],"with":[51],"partial":[52],"system":[53,65],"information.":[54],"computes":[57],"control,":[60],"rather":[61],"than":[62],"estimates":[63],"coefficients,":[66],"solves":[68],"related":[70],"Riccati":[71],"equation.":[72],"It":[73],"only":[74],"requires":[75],"local":[76],"trajectory":[77],"information,":[78],"which":[79],"significantly":[80],"simplifies":[81],"calculation":[83],"process.":[84],"We":[85],"shed":[86],"light":[87],"our":[89],"theoretical":[90],"findings":[91],"using":[92],"two":[93],"numerical":[94],"examples.":[95]},"counts_by_year":[{"year":2026,"cited_by_count":3},{"year":2025,"cited_by_count":20},{"year":2024,"cited_by_count":19},{"year":2023,"cited_by_count":6},{"year":2022,"cited_by_count":3}],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2025-10-10T00:00:00"}