{"id":"https://openalex.org/W2145956080","doi":"https://doi.org/10.1109/adprl.2009.4927523","title":"Online policy iteration based algorithms to solve the continuous-time infinite horizon optimal control problem","display_name":"Online policy iteration based algorithms to solve the continuous-time infinite horizon optimal control problem","publication_year":2009,"publication_date":"2009-03-01","ids":{"openalex":"https://openalex.org/W2145956080","doi":"https://doi.org/10.1109/adprl.2009.4927523","mag":"2145956080"},"language":"en","primary_location":{"id":"doi:10.1109/adprl.2009.4927523","is_oa":false,"landing_page_url":"https://doi.org/10.1109/adprl.2009.4927523","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2009 IEEE Symposium on Adaptive Dynamic Programming and Reinforcement Learning","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5040301558","display_name":"Kyriakos G. Vamvoudakis","orcid":"https://orcid.org/0000-0003-1978-4848"},"institutions":[{"id":"https://openalex.org/I189196454","display_name":"The University of Texas at Arlington","ror":"https://ror.org/019kgqr73","country_code":"US","type":"education","lineage":["https://openalex.org/I189196454"]},{"id":"https://openalex.org/I4210116723","display_name":"Robotics Research (United States)","ror":"https://ror.org/020w2fr77","country_code":"US","type":"company","lineage":["https://openalex.org/I4210116723"]}],"countries":["US"],"is_corresponding":true,"raw_author_name":"Kyriakos Vamvoudakis","raw_affiliation_strings":["Automation and Robotics Research Institute, University of Texas, Arlington, Fort Worth, TX, USA","Automation and Robotics Research Institute, University of Texas at Arlington, 7300 Jack Newell Blvd. S. Fort Worth, 76118 USA"],"affiliations":[{"raw_affiliation_string":"Automation and Robotics Research Institute, University of Texas, Arlington, Fort Worth, TX, USA","institution_ids":["https://openalex.org/I4210116723"]},{"raw_affiliation_string":"Automation and Robotics Research Institute, University of Texas at Arlington, 7300 Jack Newell Blvd. S. Fort Worth, 76118 USA","institution_ids":["https://openalex.org/I189196454"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5047724723","display_name":"Draguna Vrabie","orcid":"https://orcid.org/0000-0002-1547-2049"},"institutions":[{"id":"https://openalex.org/I4210116723","display_name":"Robotics Research (United States)","ror":"https://ror.org/020w2fr77","country_code":"US","type":"company","lineage":["https://openalex.org/I4210116723"]},{"id":"https://openalex.org/I189196454","display_name":"The University of Texas at Arlington","ror":"https://ror.org/019kgqr73","country_code":"US","type":"education","lineage":["https://openalex.org/I189196454"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Draguna Vrabie","raw_affiliation_strings":["Automation and Robotics Research Institute, University of Texas, Arlington, Fort Worth, TX, USA","Automation and Robotics Research Institute, University of Texas at Arlington, 7300 Jack Newell Blvd. S. Fort Worth, 76118 USA"],"affiliations":[{"raw_affiliation_string":"Automation and Robotics Research Institute, University of Texas, Arlington, Fort Worth, TX, USA","institution_ids":["https://openalex.org/I4210116723"]},{"raw_affiliation_string":"Automation and Robotics Research Institute, University of Texas at Arlington, 7300 Jack Newell Blvd. S. Fort Worth, 76118 USA","institution_ids":["https://openalex.org/I189196454"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5016137188","display_name":"Frank L. Lewis","orcid":"https://orcid.org/0000-0003-4074-1615"},"institutions":[{"id":"https://openalex.org/I189196454","display_name":"The University of Texas at Arlington","ror":"https://ror.org/019kgqr73","country_code":"US","type":"education","lineage":["https://openalex.org/I189196454"]},{"id":"https://openalex.org/I4210116723","display_name":"Robotics Research (United States)","ror":"https://ror.org/020w2fr77","country_code":"US","type":"company","lineage":["https://openalex.org/I4210116723"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Frank Lewis","raw_affiliation_strings":["Automation and Robotics Research Institute, University of Texas, Arlington, Fort Worth, TX, USA","Automation and Robotics Research Institute, University of Texas at Arlington, 7300 Jack Newell Blvd. S. Fort Worth, 76118 USA"],"affiliations":[{"raw_affiliation_string":"Automation and Robotics Research Institute, University of Texas, Arlington, Fort Worth, TX, USA","institution_ids":["https://openalex.org/I4210116723"]},{"raw_affiliation_string":"Automation and Robotics Research Institute, University of Texas at Arlington, 7300 Jack Newell Blvd. S. Fort Worth, 76118 USA","institution_ids":["https://openalex.org/I189196454"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5040301558"],"corresponding_institution_ids":["https://openalex.org/I189196454","https://openalex.org/I4210116723"],"apc_list":null,"apc_paid":null,"fwci":1.7139,"has_fulltext":false,"cited_by_count":44,"citation_normalized_percentile":{"value":0.8493079,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":89,"max":99},"biblio":{"volume":null,"issue":null,"first_page":"36","last_page":"41"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T12794","display_name":"Adaptive Dynamic Programming Control","score":1.0,"subfield":{"id":"https://openalex.org/subfields/1703","display_name":"Computational Theory and Mathematics"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T12794","display_name":"Adaptive Dynamic Programming Control","score":1.0,"subfield":{"id":"https://openalex.org/subfields/1703","display_name":"Computational Theory and Mathematics"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10040","display_name":"Adaptive Control of Nonlinear Systems","score":0.9900000095367432,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9804999828338623,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.6525591015815735},{"id":"https://openalex.org/keywords/convergence","display_name":"Convergence (economics)","score":0.6470001339912415},{"id":"https://openalex.org/keywords/optimal-control","display_name":"Optimal control","score":0.5833665132522583},{"id":"https://openalex.org/keywords/algorithm","display_name":"Algorithm","score":0.5579565763473511},{"id":"https://openalex.org/keywords/stability","display_name":"Stability (learning theory)","score":0.5040839910507202},{"id":"https://openalex.org/keywords/artificial-neural-network","display_name":"Artificial neural network","score":0.501032829284668},{"id":"https://openalex.org/keywords/controller","display_name":"Controller (irrigation)","score":0.4759119153022766},{"id":"https://openalex.org/keywords/mathematical-optimization","display_name":"Mathematical optimization","score":0.43380671739578247},{"id":"https://openalex.org/keywords/relation","display_name":"Relation (database)","score":0.42978155612945557},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.4285210967063904},{"id":"https://openalex.org/keywords/constant","display_name":"Constant (computer programming)","score":0.42684951424598694},{"id":"https://openalex.org/keywords/online-algorithm","display_name":"Online algorithm","score":0.4268483519554138},{"id":"https://openalex.org/keywords/time-horizon","display_name":"Time horizon","score":0.4148690104484558},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.25290268659591675},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.210773766040802},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.0991457998752594}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6525591015815735},{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.6470001339912415},{"id":"https://openalex.org/C91575142","wikidata":"https://www.wikidata.org/wiki/Q1971426","display_name":"Optimal control","level":2,"score":0.5833665132522583},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.5579565763473511},{"id":"https://openalex.org/C112972136","wikidata":"https://www.wikidata.org/wiki/Q7595718","display_name":"Stability (learning theory)","level":2,"score":0.5040839910507202},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.501032829284668},{"id":"https://openalex.org/C203479927","wikidata":"https://www.wikidata.org/wiki/Q5165939","display_name":"Controller (irrigation)","level":2,"score":0.4759119153022766},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.43380671739578247},{"id":"https://openalex.org/C25343380","wikidata":"https://www.wikidata.org/wiki/Q277521","display_name":"Relation (database)","level":2,"score":0.42978155612945557},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.4285210967063904},{"id":"https://openalex.org/C2777027219","wikidata":"https://www.wikidata.org/wiki/Q1284190","display_name":"Constant (computer programming)","level":2,"score":0.42684951424598694},{"id":"https://openalex.org/C196921405","wikidata":"https://www.wikidata.org/wiki/Q786431","display_name":"Online algorithm","level":2,"score":0.4268483519554138},{"id":"https://openalex.org/C28761237","wikidata":"https://www.wikidata.org/wiki/Q7805321","display_name":"Time horizon","level":2,"score":0.4148690104484558},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.25290268659591675},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.210773766040802},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.0991457998752594},{"id":"https://openalex.org/C86803240","wikidata":"https://www.wikidata.org/wiki/Q420","display_name":"Biology","level":0,"score":0.0},{"id":"https://openalex.org/C77088390","wikidata":"https://www.wikidata.org/wiki/Q8513","display_name":"Database","level":1,"score":0.0},{"id":"https://openalex.org/C6557445","wikidata":"https://www.wikidata.org/wiki/Q173113","display_name":"Agronomy","level":1,"score":0.0},{"id":"https://openalex.org/C50522688","wikidata":"https://www.wikidata.org/wiki/Q189833","display_name":"Economic growth","level":1,"score":0.0},{"id":"https://openalex.org/C199360897","wikidata":"https://www.wikidata.org/wiki/Q9143","display_name":"Programming language","level":1,"score":0.0},{"id":"https://openalex.org/C162324750","wikidata":"https://www.wikidata.org/wiki/Q8134","display_name":"Economics","level":0,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/adprl.2009.4927523","is_oa":false,"landing_page_url":"https://doi.org/10.1109/adprl.2009.4927523","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2009 IEEE Symposium on Adaptive Dynamic Programming and Reinforcement Learning","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":20,"referenced_works":["https://openalex.org/W1520048352","https://openalex.org/W1573503290","https://openalex.org/W1576452626","https://openalex.org/W1907796993","https://openalex.org/W2024303516","https://openalex.org/W2028145673","https://openalex.org/W2037025184","https://openalex.org/W2047090868","https://openalex.org/W2108286682","https://openalex.org/W2113501460","https://openalex.org/W2121863487","https://openalex.org/W2126881026","https://openalex.org/W2131030156","https://openalex.org/W2136064843","https://openalex.org/W2160561608","https://openalex.org/W3121926921","https://openalex.org/W3213472335","https://openalex.org/W4205326910","https://openalex.org/W4214717370","https://openalex.org/W6804409665"],"related_works":["https://openalex.org/W4306904969","https://openalex.org/W2138720691","https://openalex.org/W4362501864","https://openalex.org/W4380318855","https://openalex.org/W2031695474","https://openalex.org/W2024136090","https://openalex.org/W2586732548","https://openalex.org/W3049728571","https://openalex.org/W2964765435","https://openalex.org/W2001283893"],"abstract_inverted_index":{"In":[0,145],"this":[1],"paper":[2],"we":[3,34,113],"discuss":[4],"two":[5],"online":[6,37,95,105],"algorithms":[7],"based":[8,74],"on":[9,41,75,128,151],"policy":[10,63,106],"iterations":[11],"for":[12,65,109],"learning":[13,96,138],"the":[14,31,71,76,84,93,103,120,129,139,147,162],"continuous-time":[15,48],"(CT)":[16],"optimal":[17,72,121],"control":[18,122],"solution":[19],"when":[20],"nonlinear":[21],"systems":[22,111],"with":[23,102],"infinite":[24],"horizon":[25],"quadratic":[26],"cost":[27],"are":[28,98],"considered.":[29,171],"For":[30],"first":[32],"time":[33],"present":[35],"an":[36,42],"adaptive":[38],"algorithm":[39,78,97,108,149],"implemented":[40],"actor/critic":[43],"structure":[44],"which":[45,112],"involves":[46],"synchronous":[47],"adaptation":[49,153],"of":[50,61,83,92,154],"both":[51,155],"actor":[52,130,156],"and":[53,90,131,157],"critic":[54,132,158],"neural":[55],"networks.":[56,159],"This":[57],"is":[58,79,86,137,142,169],"a":[59,166],"version":[60],"generalized":[62],"iteration":[64,107],"CT":[66,110],"systems.":[67],"The":[68,88,117],"convergence":[69],"to":[70],"controller":[73],"novel":[77],"proven":[80],"while":[81,135],"stability":[82],"system":[85],"guaranteed.":[87],"characteristics":[89],"requirements":[91],"new":[94,148,163],"discussed":[99],"in":[100],"relation":[101],"regular":[104],"have":[114],"previously":[115],"developed.":[116],"latter":[118],"solves":[119],"problem":[123],"by":[124],"performing":[125],"sequential":[126],"updates":[127],"networks,":[133],"i.e.":[134],"one":[136,141],"other":[140],"held":[143],"constant.":[144],"contrast,":[146],"relies":[150],"simultaneous":[152],"To":[160],"support":[161],"theoretical":[164],"result":[165],"simulation":[167],"example":[168],"then":[170]},"counts_by_year":[{"year":2025,"cited_by_count":3},{"year":2023,"cited_by_count":4},{"year":2022,"cited_by_count":4},{"year":2021,"cited_by_count":9},{"year":2020,"cited_by_count":3},{"year":2018,"cited_by_count":6},{"year":2017,"cited_by_count":2},{"year":2016,"cited_by_count":3},{"year":2015,"cited_by_count":3},{"year":2013,"cited_by_count":2},{"year":2012,"cited_by_count":1}],"updated_date":"2025-11-06T03:46:38.306776","created_date":"2025-10-10T00:00:00"}