{"id":"https://openalex.org/W2889087686","doi":"https://doi.org/10.1587/transinf.2018edl8011","title":"Reward-Based Exploration: Adaptive Control for Deep Reinforcement Learning","display_name":"Reward-Based Exploration: Adaptive Control for Deep Reinforcement Learning","publication_year":2018,"publication_date":"2018-08-31","ids":{"openalex":"https://openalex.org/W2889087686","doi":"https://doi.org/10.1587/transinf.2018edl8011","mag":"2889087686"},"language":"en","primary_location":{"id":"doi:10.1587/transinf.2018edl8011","is_oa":true,"landing_page_url":"https://doi.org/10.1587/transinf.2018edl8011","pdf_url":"https://www.jstage.jst.go.jp/article/transinf/E101.D/9/E101.D_2018EDL8011/_pdf","source":{"id":"https://openalex.org/S2486202937","display_name":"IEICE Transactions on Information and Systems","issn_l":"0916-8532","issn":["0916-8532","1745-1361"],"is_oa":true,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4320800604","host_organization_name":"Institute of Electronics, Information and Communication Engineers","host_organization_lineage":["https://openalex.org/P4320800604"],"host_organization_lineage_names":["Institute of Electronics, Information and Communication Engineers"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"IEICE Transactions on Information and Systems","raw_type":"journal-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":true,"oa_status":"diamond","oa_url":"https://www.jstage.jst.go.jp/article/transinf/E101.D/9/E101.D_2018EDL8011/_pdf","any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5072596372","display_name":"Zhixiong Xu","orcid":"https://orcid.org/0000-0003-0996-436X"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhi-xiong XU","raw_affiliation_strings":["Institute of Command Information System, Army Engineering University"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Institute of Command Information System, Army Engineering University","institution_ids":[]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5086954144","display_name":"Lei Cao","orcid":"https://orcid.org/0000-0003-4323-5275"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Lei CAO","raw_affiliation_strings":["Institute of Command Information System, Army Engineering University"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Institute of Command Information System, Army Engineering University","institution_ids":[]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5030992865","display_name":"Xiliang Chen","orcid":"https://orcid.org/0000-0001-5198-0932"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Xi-liang CHEN","raw_affiliation_strings":["Institute of Command Information System, Army Engineering University"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Institute of Command Information System, Army Engineering University","institution_ids":[]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5100441349","display_name":"Chenxi Li","orcid":"https://orcid.org/0000-0002-7803-8282"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Chen-xi LI","raw_affiliation_strings":["Institute of Command Information System, Army Engineering University"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Institute of Command Information System, Army Engineering University","institution_ids":[]}]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":4,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.3379,"has_fulltext":true,"cited_by_count":3,"citation_normalized_percentile":{"value":0.68783631,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":90,"max":95},"biblio":{"volume":"E101.D","issue":"9","first_page":"2409","last_page":"2412"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9994000196456909,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9994000196456909,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10791","display_name":"Advanced Control Systems Optimization","score":0.9857000112533569,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12794","display_name":"Adaptive Dynamic Programming Control","score":0.9610000252723694,"subfield":{"id":"https://openalex.org/subfields/1703","display_name":"Computational Theory and Mathematics"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/softmax-function","display_name":"Softmax function","score":0.9313974380493164},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.9086017608642578},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.8030231595039368},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.676082968711853},{"id":"https://openalex.org/keywords/process","display_name":"Process (computing)","score":0.49430394172668457},{"id":"https://openalex.org/keywords/action-selection","display_name":"Action selection","score":0.4911451041698456},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.4744371473789215},{"id":"https://openalex.org/keywords/control","display_name":"Control (management)","score":0.4453773498535156},{"id":"https://openalex.org/keywords/action","display_name":"Action (physics)","score":0.4374547600746155},{"id":"https://openalex.org/keywords/deep-learning","display_name":"Deep learning","score":0.35495108366012573}],"concepts":[{"id":"https://openalex.org/C188441871","wikidata":"https://www.wikidata.org/wiki/Q7554146","display_name":"Softmax function","level":3,"score":0.9313974380493164},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.9086017608642578},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.8030231595039368},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.676082968711853},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.49430394172668457},{"id":"https://openalex.org/C166109690","wikidata":"https://www.wikidata.org/wiki/Q4677422","display_name":"Action selection","level":3,"score":0.4911451041698456},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.4744371473789215},{"id":"https://openalex.org/C2775924081","wikidata":"https://www.wikidata.org/wiki/Q55608371","display_name":"Control (management)","level":2,"score":0.4453773498535156},{"id":"https://openalex.org/C2780791683","wikidata":"https://www.wikidata.org/wiki/Q846785","display_name":"Action (physics)","level":2,"score":0.4374547600746155},{"id":"https://openalex.org/C108583219","wikidata":"https://www.wikidata.org/wiki/Q197536","display_name":"Deep learning","level":2,"score":0.35495108366012573},{"id":"https://openalex.org/C62520636","wikidata":"https://www.wikidata.org/wiki/Q944","display_name":"Quantum mechanics","level":1,"score":0.0},{"id":"https://openalex.org/C111919701","wikidata":"https://www.wikidata.org/wiki/Q9135","display_name":"Operating system","level":1,"score":0.0},{"id":"https://openalex.org/C121332964","wikidata":"https://www.wikidata.org/wiki/Q413","display_name":"Physics","level":0,"score":0.0},{"id":"https://openalex.org/C26760741","wikidata":"https://www.wikidata.org/wiki/Q160402","display_name":"Perception","level":2,"score":0.0},{"id":"https://openalex.org/C169760540","wikidata":"https://www.wikidata.org/wiki/Q207011","display_name":"Neuroscience","level":1,"score":0.0},{"id":"https://openalex.org/C86803240","wikidata":"https://www.wikidata.org/wiki/Q420","display_name":"Biology","level":0,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1587/transinf.2018edl8011","is_oa":true,"landing_page_url":"https://doi.org/10.1587/transinf.2018edl8011","pdf_url":"https://www.jstage.jst.go.jp/article/transinf/E101.D/9/E101.D_2018EDL8011/_pdf","source":{"id":"https://openalex.org/S2486202937","display_name":"IEICE Transactions on Information and Systems","issn_l":"0916-8532","issn":["0916-8532","1745-1361"],"is_oa":true,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4320800604","host_organization_name":"Institute of Electronics, Information and Communication Engineers","host_organization_lineage":["https://openalex.org/P4320800604"],"host_organization_lineage_names":["Institute of Electronics, Information and Communication Engineers"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"IEICE Transactions on Information and Systems","raw_type":"journal-article"}],"best_oa_location":{"id":"doi:10.1587/transinf.2018edl8011","is_oa":true,"landing_page_url":"https://doi.org/10.1587/transinf.2018edl8011","pdf_url":"https://www.jstage.jst.go.jp/article/transinf/E101.D/9/E101.D_2018EDL8011/_pdf","source":{"id":"https://openalex.org/S2486202937","display_name":"IEICE Transactions on Information and Systems","issn_l":"0916-8532","issn":["0916-8532","1745-1361"],"is_oa":true,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4320800604","host_organization_name":"Institute of Electronics, Information and Communication Engineers","host_organization_lineage":["https://openalex.org/P4320800604"],"host_organization_lineage_names":["Institute of Electronics, Information and Communication Engineers"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"IEICE Transactions on Information and Systems","raw_type":"journal-article"},"sustainable_development_goals":[],"awards":[],"funders":[{"id":"https://openalex.org/F4320321605","display_name":"Government of Jiangsu Province","ror":"https://ror.org/004svx814"}],"has_content":{"grobid_xml":true,"pdf":true},"content_urls":{"pdf":"https://content.openalex.org/works/W2889087686.pdf","grobid_xml":"https://content.openalex.org/works/W2889087686.grobid-xml"},"referenced_works_count":7,"referenced_works":["https://openalex.org/W41159429","https://openalex.org/W2121615981","https://openalex.org/W2145339207","https://openalex.org/W2173248099","https://openalex.org/W2417786368","https://openalex.org/W2561776174","https://openalex.org/W4214717370"],"related_works":["https://openalex.org/W4323060069","https://openalex.org/W2015051472","https://openalex.org/W2168501056","https://openalex.org/W1965695708","https://openalex.org/W2120009678","https://openalex.org/W2912947802","https://openalex.org/W2037601570","https://openalex.org/W2123856982","https://openalex.org/W1530089576","https://openalex.org/W2108112111"],"abstract_inverted_index":{"Aiming":[0],"at":[1],"the":[2,31,38,43,57,83,96],"contradiction":[3],"between":[4],"exploration":[5,16,27,53],"and":[6,56,75,82],"exploitation":[7],"in":[8,73,95],"deep":[9,99],"reinforcement":[10,100],"learning,":[11],"this":[12],"paper":[13],"proposes":[14],"\u201creward-based":[15],"strategy":[17,28],"combined":[18],"with":[19],"Softmax":[20],"action":[21,65],"selection\u201d":[22],"(RBE-Softmax)":[23],"as":[24],"a":[25],"dynamic":[26],"to":[29,33,51,61,92],"guide":[30],"agent":[32,58],"learn.":[34],"The":[35,68],"superiority":[36],"of":[37,45,98],"proposed":[39,69],"method":[40,70,90],"is":[41,49,59,71],"that":[42,88],"characteristic":[44],"agent's":[46],"learning":[47,101],"process":[48],"utilized":[50],"adapt":[52],"parameters":[54],"online,":[55],"able":[60],"select":[62],"potential":[63],"optimal":[64],"more":[66],"effectively.":[67],"evaluated":[72],"discrete":[74],"continuous":[76],"control":[77],"tasks":[78],"on":[79],"OpenAI":[80],"Gym,":[81],"empirical":[84],"evaluation":[85],"results":[86],"show":[87],"RBE-Softmax":[89],"leads":[91],"statistically-significant":[93],"improvement":[94],"performance":[97],"algorithms.":[102]},"counts_by_year":[{"year":2024,"cited_by_count":1},{"year":2021,"cited_by_count":2}],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2025-10-10T00:00:00"}