{"id":"https://openalex.org/W2125408276","doi":"https://doi.org/10.1109/isic.2002.1157857","title":"Residual-gradient-based neural reinforcement learning for the optimal control of an acrobot","display_name":"Residual-gradient-based neural reinforcement learning for the optimal control of an acrobot","publication_year":2003,"publication_date":"2003-06-26","ids":{"openalex":"https://openalex.org/W2125408276","doi":"https://doi.org/10.1109/isic.2002.1157857","mag":"2125408276"},"language":"en","primary_location":{"id":"doi:10.1109/isic.2002.1157857","is_oa":false,"landing_page_url":"https://doi.org/10.1109/isic.2002.1157857","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the IEEE Internatinal Symposium on Intelligent Control","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5053112608","display_name":"Xin Xu","orcid":"https://orcid.org/0000-0003-3238-745X"},"institutions":[{"id":"https://openalex.org/I170215575","display_name":"National University of Defense Technology","ror":"https://ror.org/05d2yfz11","country_code":"CN","type":"education","lineage":["https://openalex.org/I170215575"]}],"countries":["CN"],"is_corresponding":true,"raw_author_name":"Xin Xu","raw_affiliation_strings":["Department of Automatic Control, National University of Defense Technology, Changsha, China","Dept. of Autom. Control, National Univ. of Defense Technol., Changsha, China"],"affiliations":[{"raw_affiliation_string":"Department of Automatic Control, National University of Defense Technology, Changsha, China","institution_ids":["https://openalex.org/I170215575"]},{"raw_affiliation_string":"Dept. of Autom. Control, National Univ. of Defense Technol., Changsha, China","institution_ids":["https://openalex.org/I170215575"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5110188567","display_name":"Hangen He","orcid":null},"institutions":[{"id":"https://openalex.org/I170215575","display_name":"National University of Defense Technology","ror":"https://ror.org/05d2yfz11","country_code":"CN","type":"education","lineage":["https://openalex.org/I170215575"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Han-gen He","raw_affiliation_strings":["Department of Automatic Control, National University of Defense Technology, Changsha, China","Dept. of Autom. Control, National Univ. of Defense Technol., Changsha, China"],"affiliations":[{"raw_affiliation_string":"Department of Automatic Control, National University of Defense Technology, Changsha, China","institution_ids":["https://openalex.org/I170215575"]},{"raw_affiliation_string":"Dept. of Autom. Control, National Univ. of Defense Technol., Changsha, China","institution_ids":["https://openalex.org/I170215575"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":["https://openalex.org/A5053112608"],"corresponding_institution_ids":["https://openalex.org/I170215575"],"apc_list":null,"apc_paid":null,"fwci":1.3708,"has_fulltext":false,"cited_by_count":8,"citation_normalized_percentile":{"value":0.85155797,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":89,"max":96},"biblio":{"volume":"4","issue":null,"first_page":"758","last_page":"763"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9998000264167786,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9998000264167786,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12794","display_name":"Adaptive Dynamic Programming Control","score":0.9994999766349792,"subfield":{"id":"https://openalex.org/subfields/1703","display_name":"Computational Theory and Mathematics"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10791","display_name":"Advanced Control Systems Optimization","score":0.9750000238418579,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.8772929906845093},{"id":"https://openalex.org/keywords/residual","display_name":"Residual","score":0.8056939840316772},{"id":"https://openalex.org/keywords/convergence","display_name":"Convergence (economics)","score":0.710854172706604},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.6876938939094543},{"id":"https://openalex.org/keywords/control-theory","display_name":"Control theory (sociology)","score":0.5365116596221924},{"id":"https://openalex.org/keywords/gradient-method","display_name":"Gradient method","score":0.5359376668930054},{"id":"https://openalex.org/keywords/optimal-control","display_name":"Optimal control","score":0.5129313468933105},{"id":"https://openalex.org/keywords/mathematical-optimization","display_name":"Mathematical optimization","score":0.5095465779304504},{"id":"https://openalex.org/keywords/robot","display_name":"Robot","score":0.4757949113845825},{"id":"https://openalex.org/keywords/artificial-neural-network","display_name":"Artificial neural network","score":0.4523426592350006},{"id":"https://openalex.org/keywords/control","display_name":"Control (management)","score":0.4466785490512848},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.3776133060455322},{"id":"https://openalex.org/keywords/algorithm","display_name":"Algorithm","score":0.29570698738098145},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.23434501886367798}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.8772929906845093},{"id":"https://openalex.org/C155512373","wikidata":"https://www.wikidata.org/wiki/Q287450","display_name":"Residual","level":2,"score":0.8056939840316772},{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.710854172706604},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6876938939094543},{"id":"https://openalex.org/C47446073","wikidata":"https://www.wikidata.org/wiki/Q5165890","display_name":"Control theory (sociology)","level":3,"score":0.5365116596221924},{"id":"https://openalex.org/C115680565","wikidata":"https://www.wikidata.org/wiki/Q5977448","display_name":"Gradient method","level":2,"score":0.5359376668930054},{"id":"https://openalex.org/C91575142","wikidata":"https://www.wikidata.org/wiki/Q1971426","display_name":"Optimal control","level":2,"score":0.5129313468933105},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.5095465779304504},{"id":"https://openalex.org/C90509273","wikidata":"https://www.wikidata.org/wiki/Q11012","display_name":"Robot","level":2,"score":0.4757949113845825},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.4523426592350006},{"id":"https://openalex.org/C2775924081","wikidata":"https://www.wikidata.org/wiki/Q55608371","display_name":"Control (management)","level":2,"score":0.4466785490512848},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.3776133060455322},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.29570698738098145},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.23434501886367798},{"id":"https://openalex.org/C50522688","wikidata":"https://www.wikidata.org/wiki/Q189833","display_name":"Economic growth","level":1,"score":0.0},{"id":"https://openalex.org/C162324750","wikidata":"https://www.wikidata.org/wiki/Q8134","display_name":"Economics","level":0,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/isic.2002.1157857","is_oa":false,"landing_page_url":"https://doi.org/10.1109/isic.2002.1157857","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the IEEE Internatinal Symposium on Intelligent Control","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":16,"referenced_works":["https://openalex.org/W32403112","https://openalex.org/W1547105496","https://openalex.org/W1646707810","https://openalex.org/W1971942712","https://openalex.org/W2013232999","https://openalex.org/W2107726111","https://openalex.org/W2113957855","https://openalex.org/W2124175081","https://openalex.org/W2133648647","https://openalex.org/W2139418546","https://openalex.org/W2150339816","https://openalex.org/W2155027007","https://openalex.org/W2164056559","https://openalex.org/W6678114464","https://openalex.org/W6683204974","https://openalex.org/W6684199269"],"related_works":["https://openalex.org/W4362501864","https://openalex.org/W4306904969","https://openalex.org/W4380318855","https://openalex.org/W2560215812","https://openalex.org/W2138720691","https://openalex.org/W2949601986","https://openalex.org/W2031695474","https://openalex.org/W2788972299","https://openalex.org/W2586732548","https://openalex.org/W3049728571"],"abstract_inverted_index":{"Based":[0],"on":[1],"the":[2,34,47,82,85,93,101,105,108,111],"idea":[3],"of":[4,38,41,84,100,104,110],"dynamic":[5],"programming,":[6],"reinforcement":[7,57],"learning":[8,58,102],"(RL)":[9],"has":[10,72],"become":[11],"an":[12],"important":[13],"model-free":[14],"method":[15,29,51],"to":[16,32,92],"solve":[17,33],"difficult":[18],"optimal":[19,87],"control":[20,36,103],"problems.":[21],"In":[22],"this":[23],"paper,":[24],"a":[25,39,53],"novel":[26],"neural":[27],"RL":[28,50],"is":[30,45,90],"proposed":[31,112],"time-optimal":[35],"problem":[37],"class":[40],"under-actuated":[42],"robots,":[43],"which":[44,89],"called":[46,60],"acrobot.":[48],"The":[49,67],"uses":[52],"modified":[54],"residual":[55,95],"gradient":[56,63,96],"algorithm":[59,69],"RGNP":[61,68],"(residual":[62],"with":[64],"nonstationary":[65],"policy).":[66],"not":[70],"only":[71],"guaranteed":[73],"convergence":[74],"under":[75],"certain":[76],"conditions":[77],"but":[78],"also":[79],"can":[80],"ensure":[81],"performance":[83],"approximated":[86],"policy,":[88],"superior":[91],"previous":[94],"algorithms.":[97],"Simulation":[98],"results":[99],"acrobot":[106],"illustrate":[107],"effectiveness":[109],"method.":[113]},"counts_by_year":[{"year":2014,"cited_by_count":1},{"year":2012,"cited_by_count":2}],"updated_date":"2025-11-06T03:46:38.306776","created_date":"2025-10-10T00:00:00"}