{"id":"https://openalex.org/W1993326513","doi":"https://doi.org/10.1109/adprl.2014.7010631","title":"A data-based online reinforcement learning algorithm with high-efficient exploration","display_name":"A data-based online reinforcement learning algorithm with high-efficient exploration","publication_year":2014,"publication_date":"2014-12-01","ids":{"openalex":"https://openalex.org/W1993326513","doi":"https://doi.org/10.1109/adprl.2014.7010631","mag":"1993326513"},"language":"en","primary_location":{"id":"doi:10.1109/adprl.2014.7010631","is_oa":false,"landing_page_url":"https://doi.org/10.1109/adprl.2014.7010631","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2014 IEEE Symposium on Adaptive Dynamic Programming and Reinforcement Learning (ADPRL)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5080193690","display_name":"Yuanheng Zhu","orcid":"https://orcid.org/0000-0001-5384-423X"},"institutions":[{"id":"https://openalex.org/I19820366","display_name":"Chinese Academy of Sciences","ror":"https://ror.org/034t30j35","country_code":"CN","type":"funder","lineage":["https://openalex.org/I19820366"]}],"countries":["CN"],"is_corresponding":true,"raw_author_name":"Yuanheng Zhu","raw_affiliation_strings":["The State Key Laboratory of Management and Control for Complex Systems, Chinese Academy of Sciences, Beijing, China","The State Key Laboratory of Management and Control for Complex Systems, Institution of Automation, Chinese Academy of Sciences, Beijing, China#TAB#"],"affiliations":[{"raw_affiliation_string":"The State Key Laboratory of Management and Control for Complex Systems, Chinese Academy of Sciences, Beijing, China","institution_ids":["https://openalex.org/I19820366"]},{"raw_affiliation_string":"The State Key Laboratory of Management and Control for Complex Systems, Institution of Automation, Chinese Academy of Sciences, Beijing, China#TAB#","institution_ids":["https://openalex.org/I19820366"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5100624298","display_name":"Dongbin Zhao","orcid":"https://orcid.org/0000-0001-8218-9633"},"institutions":[{"id":"https://openalex.org/I19820366","display_name":"Chinese Academy of Sciences","ror":"https://ror.org/034t30j35","country_code":"CN","type":"funder","lineage":["https://openalex.org/I19820366"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Dongbin Zhao","raw_affiliation_strings":["The State Key Laboratory of Management and Control for Complex Systems, Chinese Academy of Sciences, Beijing, China","The State Key Laboratory of Management and Control for Complex Systems, Institution of Automation, Chinese Academy of Sciences, Beijing, China#TAB#"],"affiliations":[{"raw_affiliation_string":"The State Key Laboratory of Management and Control for Complex Systems, Chinese Academy of Sciences, Beijing, China","institution_ids":["https://openalex.org/I19820366"]},{"raw_affiliation_string":"The State Key Laboratory of Management and Control for Complex Systems, Institution of Automation, Chinese Academy of Sciences, Beijing, China#TAB#","institution_ids":["https://openalex.org/I19820366"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":["https://openalex.org/A5080193690"],"corresponding_institution_ids":["https://openalex.org/I19820366"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":1,"citation_normalized_percentile":{"value":0.06872817,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":89,"max":94},"biblio":{"volume":"5","issue":null,"first_page":"1","last_page":"6"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T12794","display_name":"Adaptive Dynamic Programming Control","score":0.9997000098228455,"subfield":{"id":"https://openalex.org/subfields/1703","display_name":"Computational Theory and Mathematics"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T12794","display_name":"Adaptive Dynamic Programming Control","score":0.9997000098228455,"subfield":{"id":"https://openalex.org/subfields/1703","display_name":"Computational Theory and Mathematics"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9987000226974487,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T14083","display_name":"Extremum Seeking Control Systems","score":0.9850000143051147,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.9004354476928711},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.780521035194397},{"id":"https://openalex.org/keywords/online-learning","display_name":"Online learning","score":0.7127518057823181},{"id":"https://openalex.org/keywords/online-algorithm","display_name":"Online algorithm","score":0.6712220311164856},{"id":"https://openalex.org/keywords/limit","display_name":"Limit (mathematics)","score":0.631841242313385},{"id":"https://openalex.org/keywords/online-machine-learning","display_name":"Online machine learning","score":0.5461103916168213},{"id":"https://openalex.org/keywords/algorithm-design","display_name":"Algorithm design","score":0.4727906882762909},{"id":"https://openalex.org/keywords/tree","display_name":"Tree (set theory)","score":0.4334099590778351},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.43182891607284546},{"id":"https://openalex.org/keywords/algorithm","display_name":"Algorithm","score":0.42688170075416565},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.41889074444770813},{"id":"https://openalex.org/keywords/semi-supervised-learning","display_name":"Semi-supervised learning","score":0.2267780900001526},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.1293749213218689}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.9004354476928711},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.780521035194397},{"id":"https://openalex.org/C2986087404","wikidata":"https://www.wikidata.org/wiki/Q15946010","display_name":"Online learning","level":2,"score":0.7127518057823181},{"id":"https://openalex.org/C196921405","wikidata":"https://www.wikidata.org/wiki/Q786431","display_name":"Online algorithm","level":2,"score":0.6712220311164856},{"id":"https://openalex.org/C151201525","wikidata":"https://www.wikidata.org/wiki/Q177239","display_name":"Limit (mathematics)","level":2,"score":0.631841242313385},{"id":"https://openalex.org/C115903097","wikidata":"https://www.wikidata.org/wiki/Q7094097","display_name":"Online machine learning","level":3,"score":0.5461103916168213},{"id":"https://openalex.org/C106516650","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm design","level":2,"score":0.4727906882762909},{"id":"https://openalex.org/C113174947","wikidata":"https://www.wikidata.org/wiki/Q2859736","display_name":"Tree (set theory)","level":2,"score":0.4334099590778351},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.43182891607284546},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.42688170075416565},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.41889074444770813},{"id":"https://openalex.org/C58973888","wikidata":"https://www.wikidata.org/wiki/Q1041418","display_name":"Semi-supervised learning","level":2,"score":0.2267780900001526},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.1293749213218689},{"id":"https://openalex.org/C136764020","wikidata":"https://www.wikidata.org/wiki/Q466","display_name":"World Wide Web","level":1,"score":0.0},{"id":"https://openalex.org/C134306372","wikidata":"https://www.wikidata.org/wiki/Q7754","display_name":"Mathematical analysis","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/adprl.2014.7010631","is_oa":false,"landing_page_url":"https://doi.org/10.1109/adprl.2014.7010631","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2014 IEEE Symposium on Adaptive Dynamic Programming and Reinforcement Learning (ADPRL)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":37,"referenced_works":["https://openalex.org/W65193931","https://openalex.org/W1552830313","https://openalex.org/W1626155273","https://openalex.org/W1974883306","https://openalex.org/W1990803996","https://openalex.org/W1997603681","https://openalex.org/W2002260889","https://openalex.org/W2010193406","https://openalex.org/W2018160758","https://openalex.org/W2018547649","https://openalex.org/W2030038728","https://openalex.org/W2032252420","https://openalex.org/W2035018355","https://openalex.org/W2036729506","https://openalex.org/W2044792947","https://openalex.org/W2056509413","https://openalex.org/W2082691056","https://openalex.org/W2093831009","https://openalex.org/W2111980775","https://openalex.org/W2116488102","https://openalex.org/W2117056304","https://openalex.org/W2120346334","https://openalex.org/W2121863487","https://openalex.org/W2129670787","https://openalex.org/W2159571856","https://openalex.org/W2161966552","https://openalex.org/W2489939061","https://openalex.org/W3011120880","https://openalex.org/W3139377883","https://openalex.org/W4214717370","https://openalex.org/W4285719527","https://openalex.org/W6602690695","https://openalex.org/W6652973182","https://openalex.org/W6677737365","https://openalex.org/W6683603353","https://openalex.org/W6775686901","https://openalex.org/W6792155000"],"related_works":["https://openalex.org/W2024191559","https://openalex.org/W2952412049","https://openalex.org/W2572248225","https://openalex.org/W1876956220","https://openalex.org/W3104296398","https://openalex.org/W2195225896","https://openalex.org/W3185920324","https://openalex.org/W4287073482","https://openalex.org/W3006977717","https://openalex.org/W1993326513"],"abstract_inverted_index":{"An":[0],"online":[1,13,38,45],"reinforcement":[2,39],"learning":[3,40],"algorithm":[4,60],"is":[5,30],"proposed":[6],"in":[7,61],"this":[8,54],"paper":[9],"to":[10,32,52,71],"directly":[11,47],"utilizes":[12],"data":[14,46],"efficiently":[15],"for":[16],"continuous":[17],"deterministic":[18],"systems":[19],"without":[20],"system":[21],"parameters.":[22],"The":[23],"dependence":[24],"on":[25],"some":[26],"specific":[27],"approximation":[28],"structures":[29],"crucial":[31],"limit":[33],"the":[34,44,49,59,62],"wide":[35],"application":[36],"of":[37],"algorithms.":[41],"We":[42],"utilize":[43],"with":[48],"kd-tree":[50],"technique":[51],"remove":[53],"limitation.":[55],"Moreover,":[56],"we":[57],"design":[58],"Probably":[63],"Approximately":[64],"Correct":[65],"principle.":[66],"Two":[67],"examples":[68],"are":[69],"simulated":[70],"verify":[72],"its":[73],"good":[74],"performance.":[75]},"counts_by_year":[{"year":2022,"cited_by_count":1}],"updated_date":"2025-11-06T03:46:38.306776","created_date":"2025-10-10T00:00:00"}