{"id":"https://openalex.org/W4402351108","doi":"https://doi.org/10.1109/ijcnn60899.2024.10650439","title":"Consolidated Adaptive T-soft Update for Deep Reinforcement Learning","display_name":"Consolidated Adaptive T-soft Update for Deep Reinforcement Learning","publication_year":2024,"publication_date":"2024-06-30","ids":{"openalex":"https://openalex.org/W4402351108","doi":"https://doi.org/10.1109/ijcnn60899.2024.10650439"},"language":"en","primary_location":{"id":"doi:10.1109/ijcnn60899.2024.10650439","is_oa":false,"landing_page_url":"http://dx.doi.org/10.1109/ijcnn60899.2024.10650439","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2024 International Joint Conference on Neural Networks (IJCNN)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5051304187","display_name":"Taisuke Kobayashi","orcid":"https://orcid.org/0000-0002-3760-249X"},"institutions":[{"id":"https://openalex.org/I200475212","display_name":"The Graduate University for Advanced Studies, SOKENDAI","ror":"https://ror.org/0516ah480","country_code":"JP","type":"education","lineage":["https://openalex.org/I200475212"]},{"id":"https://openalex.org/I184597095","display_name":"National Institute of Informatics","ror":"https://ror.org/04ksd4g47","country_code":"JP","type":"facility","lineage":["https://openalex.org/I1319490839","https://openalex.org/I184597095","https://openalex.org/I4210158934"]}],"countries":["JP"],"is_corresponding":true,"raw_author_name":"Taisuke Kobayashi","raw_affiliation_strings":["The Graduate University for Advanced Studies (SOKENDAI),National Institute of Informatics (NII),Tokyo,Japan"],"affiliations":[{"raw_affiliation_string":"The Graduate University for Advanced Studies (SOKENDAI),National Institute of Informatics (NII),Tokyo,Japan","institution_ids":["https://openalex.org/I200475212","https://openalex.org/I184597095"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":["https://openalex.org/A5051304187"],"corresponding_institution_ids":["https://openalex.org/I184597095","https://openalex.org/I200475212"],"apc_list":null,"apc_paid":null,"fwci":1.0878,"has_fulltext":false,"cited_by_count":3,"citation_normalized_percentile":{"value":0.81254261,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":90,"max":96},"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"8"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9957000017166138,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9957000017166138,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12794","display_name":"Adaptive Dynamic Programming Control","score":0.993399977684021,"subfield":{"id":"https://openalex.org/subfields/1703","display_name":"Computational Theory and Mathematics"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12101","display_name":"Advanced Bandit Algorithms Research","score":0.9904999732971191,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.8321058750152588},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.731045663356781},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.5209254622459412},{"id":"https://openalex.org/keywords/reinforcement","display_name":"Reinforcement","score":0.41147756576538086},{"id":"https://openalex.org/keywords/engineering","display_name":"Engineering","score":0.12592241168022156},{"id":"https://openalex.org/keywords/structural-engineering","display_name":"Structural engineering","score":0.05865171551704407}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.8321058750152588},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.731045663356781},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5209254622459412},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.41147756576538086},{"id":"https://openalex.org/C127413603","wikidata":"https://www.wikidata.org/wiki/Q11023","display_name":"Engineering","level":0,"score":0.12592241168022156},{"id":"https://openalex.org/C66938386","wikidata":"https://www.wikidata.org/wiki/Q633538","display_name":"Structural engineering","level":1,"score":0.05865171551704407}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/ijcnn60899.2024.10650439","is_oa":false,"landing_page_url":"http://dx.doi.org/10.1109/ijcnn60899.2024.10650439","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2024 International Joint Conference on Neural Networks (IJCNN)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":30,"referenced_works":["https://openalex.org/W2022365837","https://openalex.org/W2121863487","https://openalex.org/W2145339207","https://openalex.org/W2199578125","https://openalex.org/W2560647685","https://openalex.org/W2736601468","https://openalex.org/W2900582619","https://openalex.org/W2947150733","https://openalex.org/W2952021385","https://openalex.org/W2961614712","https://openalex.org/W2963184939","https://openalex.org/W2964547635","https://openalex.org/W2965215408","https://openalex.org/W2973229164","https://openalex.org/W3080884797","https://openalex.org/W3127352841","https://openalex.org/W3164559980","https://openalex.org/W3165940900","https://openalex.org/W3171612615","https://openalex.org/W3210251473","https://openalex.org/W4312734823","https://openalex.org/W4386056879","https://openalex.org/W4389438905","https://openalex.org/W6741002519","https://openalex.org/W6741217325","https://openalex.org/W6747473740","https://openalex.org/W6763704811","https://openalex.org/W6764969207","https://openalex.org/W6788944699","https://openalex.org/W6796233699"],"related_works":["https://openalex.org/W4391375266","https://openalex.org/W2748952813","https://openalex.org/W4310083477","https://openalex.org/W2328553770","https://openalex.org/W2920061524","https://openalex.org/W1977959518","https://openalex.org/W2038908348","https://openalex.org/W2107890255","https://openalex.org/W2106552856","https://openalex.org/W2145821588"],"abstract_inverted_index":{"Demand":[0],"for":[1,60,88],"deep":[2],"reinforcement":[3],"learning":[4],"(DRL)":[5],"is":[6,18,41,79,129],"gradually":[7],"increased":[8],"to":[9,12,20,26,44,67,163],"enable":[10],"robots":[11],"perform":[13],"complex":[14],"tasks,":[15],"while":[16],"DRL":[17,70],"known":[19],"be":[21,86],"unstable.":[22],"As":[23],"a":[24,30,38,56,82,105,132],"technique":[25],"stabilize":[27],"its":[28],"learning,":[29],"target":[31,62,159,165],"network":[32,40,63],"that":[33,155],"slowly":[34],"and":[35,64,91,107,121],"asymptotically":[36],"matches":[37],"main":[39,152],"widely":[42],"employed":[43],"generate":[45],"stable":[46],"pseudo-supervised":[47],"signals.":[48],"Recently,":[49],"T-soft":[50,77,109],"update":[51,58,78,111],"has":[52,65],"been":[53],"proposed":[54,168],"as":[55],"noise-robust":[57],"rule":[59],"the":[61,69,73,99,126,136,142,148,151,158,164,171],"contributed":[66],"improving":[68],"performance.":[71],"However,":[72],"noise":[74,127,143],"robustness":[75,128,144],"of":[76,93,98,118,135,150],"specified":[80],"by":[81,131],"hyperparameter,":[83],"which":[84],"should":[85],"tuned":[87],"each":[89],"task,":[90],"suppression":[92],"updates":[94],"would":[95],"cause":[96],"deviation":[97],"two":[100],"networks.":[101],"This":[102],"study":[103],"develops":[104],"consolidated":[106,162],"adaptive":[108],"(CAT-soft)":[110],"based":[112],"on":[113],"approximate":[114],"maximum":[115],"likelihood":[116],"estimation":[117],"student-t":[119,137],"distribution":[120],"an":[122],"additional":[123],"consolidation.":[124],"Since":[125],"represented":[130],"model":[133],"parameter":[134],"distribution,":[138],"this":[139],"method":[140,169],"makes":[141],"adaptive.":[145],"In":[146],"addition,":[147],"parameters":[149],"network,":[153,160],"those":[154],"deviate":[156],"from":[157],"are":[161],"network.":[166],"The":[167],"outperformed":[170],"conventional":[172],"methods":[173],"in":[174],"numerical":[175],"simulations.":[176]},"counts_by_year":[{"year":2025,"cited_by_count":2},{"year":2024,"cited_by_count":1}],"updated_date":"2026-01-13T01:12:25.745995","created_date":"2025-10-10T00:00:00"}