{"id":"https://openalex.org/W7123347447","doi":"https://doi.org/10.1109/tg.2025.3628606","title":"Adapter-RL: Adaptation of Any Agent Using Reinforcement Learning","display_name":"Adapter-RL: Adaptation of Any Agent Using Reinforcement Learning","publication_year":2026,"publication_date":"2026-01-12","ids":{"openalex":"https://openalex.org/W7123347447","doi":"https://doi.org/10.1109/tg.2025.3628606"},"language":null,"primary_location":{"id":"doi:10.1109/tg.2025.3628606","is_oa":false,"landing_page_url":"https://doi.org/10.1109/tg.2025.3628606","pdf_url":null,"source":{"id":"https://openalex.org/S4210224842","display_name":"IEEE Transactions on Games","issn_l":"2475-1502","issn":["2475-1502","2475-1510"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310319808","host_organization_name":"Institute of Electrical and Electronics Engineers","host_organization_lineage":["https://openalex.org/P4310319808"],"host_organization_lineage_names":["Institute of Electrical and Electronics Engineers"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"IEEE Transactions on Games","raw_type":"journal-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5043672137","display_name":"Yizhao Jin","orcid":null},"institutions":[{"id":"https://openalex.org/I166337079","display_name":"Queen Mary University of London","ror":"https://ror.org/026zzn846","country_code":"GB","type":"education","lineage":["https://openalex.org/I124357947","https://openalex.org/I166337079"]}],"countries":["GB"],"is_corresponding":true,"raw_author_name":"Yizhao Jin","raw_affiliation_strings":["School of Electronic Engineering and Computer Science, Queen Mary University of London, London, U.K"],"raw_orcid":"https://orcid.org/0009-0006-8923-2562","affiliations":[{"raw_affiliation_string":"School of Electronic Engineering and Computer Science, Queen Mary University of London, London, U.K","institution_ids":["https://openalex.org/I166337079"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5037886447","display_name":"Greg Slabaugh","orcid":"https://orcid.org/0000-0003-4060-5226"},"institutions":[{"id":"https://openalex.org/I166337079","display_name":"Queen Mary University of London","ror":"https://ror.org/026zzn846","country_code":"GB","type":"education","lineage":["https://openalex.org/I124357947","https://openalex.org/I166337079"]}],"countries":["GB"],"is_corresponding":false,"raw_author_name":"Gregory Slabaugh","raw_affiliation_strings":["School of Electronic Engineering and Computer Science, Queen Mary University of London, London, U.K"],"raw_orcid":"https://orcid.org/0000-0003-4060-5226","affiliations":[{"raw_affiliation_string":"School of Electronic Engineering and Computer Science, Queen Mary University of London, London, U.K","institution_ids":["https://openalex.org/I166337079"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5122889347","display_name":"Simon Lucas","orcid":null},"institutions":[{"id":"https://openalex.org/I166337079","display_name":"Queen Mary University of London","ror":"https://ror.org/026zzn846","country_code":"GB","type":"education","lineage":["https://openalex.org/I124357947","https://openalex.org/I166337079"]}],"countries":["GB"],"is_corresponding":false,"raw_author_name":"Simon Lucas","raw_affiliation_strings":["School of Electronic Engineering and Computer Science, Queen Mary University of London, London, U.K"],"raw_orcid":"https://orcid.org/0000-0002-3180-7451","affiliations":[{"raw_affiliation_string":"School of Electronic Engineering and Computer Science, Queen Mary University of London, London, U.K","institution_ids":["https://openalex.org/I166337079"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5043672137"],"corresponding_institution_ids":["https://openalex.org/I166337079"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.07693578,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":"18","issue":"1","first_page":"173","last_page":"184"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.8801000118255615,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.8801000118255615,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11574","display_name":"Artificial Intelligence in Games","score":0.01810000091791153,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12026","display_name":"Explainable Artificial Intelligence (XAI)","score":0.014299999922513962,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/interpretability","display_name":"Interpretability","score":0.8305000066757202},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.814300000667572},{"id":"https://openalex.org/keywords/adapter","display_name":"Adapter (computing)","score":0.6658999919891357},{"id":"https://openalex.org/keywords/adaptation","display_name":"Adaptation (eye)","score":0.5248000025749207},{"id":"https://openalex.org/keywords/architecture","display_name":"Architecture","score":0.4528999924659729},{"id":"https://openalex.org/keywords/stability","display_name":"Stability (learning theory)","score":0.4278999865055084}],"concepts":[{"id":"https://openalex.org/C2781067378","wikidata":"https://www.wikidata.org/wiki/Q17027399","display_name":"Interpretability","level":2,"score":0.8305000066757202},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.814300000667572},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6722999811172485},{"id":"https://openalex.org/C177284502","wikidata":"https://www.wikidata.org/wiki/Q1005390","display_name":"Adapter (computing)","level":2,"score":0.6658999919891357},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5771999955177307},{"id":"https://openalex.org/C139807058","wikidata":"https://www.wikidata.org/wiki/Q352374","display_name":"Adaptation (eye)","level":2,"score":0.5248000025749207},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.4629000127315521},{"id":"https://openalex.org/C123657996","wikidata":"https://www.wikidata.org/wiki/Q12271","display_name":"Architecture","level":2,"score":0.4528999924659729},{"id":"https://openalex.org/C112972136","wikidata":"https://www.wikidata.org/wiki/Q7595718","display_name":"Stability (learning theory)","level":2,"score":0.4278999865055084},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.4056999981403351},{"id":"https://openalex.org/C2776654903","wikidata":"https://www.wikidata.org/wiki/Q2601463","display_name":"SAFER","level":2,"score":0.3427000045776367},{"id":"https://openalex.org/C199190896","wikidata":"https://www.wikidata.org/wiki/Q3509276","display_name":"Learning classifier system","level":3,"score":0.31360000371932983},{"id":"https://openalex.org/C204323151","wikidata":"https://www.wikidata.org/wiki/Q905424","display_name":"Range (aeronautics)","level":2,"score":0.2937999963760376},{"id":"https://openalex.org/C52970973","wikidata":"https://www.wikidata.org/wiki/Q2497134","display_name":"Adaptive system","level":2,"score":0.2524999976158142}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/tg.2025.3628606","is_oa":false,"landing_page_url":"https://doi.org/10.1109/tg.2025.3628606","pdf_url":null,"source":{"id":"https://openalex.org/S4210224842","display_name":"IEEE Transactions on Games","issn_l":"2475-1502","issn":["2475-1502","2475-1510"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310319808","host_organization_name":"Institute of Electrical and Electronics Engineers","host_organization_lineage":["https://openalex.org/P4310319808"],"host_organization_lineage_names":["Institute of Electrical and Electronics Engineers"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"IEEE Transactions on Games","raw_type":"journal-article"}],"best_oa_location":null,"sustainable_development_goals":[{"id":"https://metadata.un.org/sdg/16","score":0.6540695428848267,"display_name":"Peace, Justice and strong institutions"}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":15,"referenced_works":["https://openalex.org/W1999874108","https://openalex.org/W2174803659","https://openalex.org/W2794543545","https://openalex.org/W2982316857","https://openalex.org/W3096726323","https://openalex.org/W3101498587","https://openalex.org/W3138984732","https://openalex.org/W3153675281","https://openalex.org/W4206178588","https://openalex.org/W4312309732","https://openalex.org/W4312884055","https://openalex.org/W4395683529","https://openalex.org/W4404781447","https://openalex.org/W4411351281","https://openalex.org/W6922480057"],"related_works":[],"abstract_inverted_index":{"This":[0,108,190],"study":[1,169],"introduces":[2],"Adapter-RL,":[3],"a":[4,59,73,140,185],"novel":[5],"architecture":[6,109],"aimed":[7],"at":[8],"improving":[9],"the":[10,29,35,38,43,52,64,132,152,168,171,192,195,201],"performance":[11,105,181],"of":[12,34,42,48,54,134,188,194,203],"existing":[13],"agents":[14,111],"in":[15,138,175],"reinforcement":[16,26],"learning":[17,40],"tasks.":[18,68],"The":[19,69,91,129,145,197],"approach":[20],"integrates":[21],"human-knowledge-based":[22],"systems":[23],"with":[24,37,58,123],"deep":[25],"learning,":[27],"combining":[28],"interpretability":[30],"and":[31,79,99,106,155,164],"rule-based":[32],"logic":[33],"former":[36],"adaptive":[39],"capabilities":[41],"latter.":[44],"A":[45],"crucial":[46],"aspect":[47],"this":[49],"method":[50,199],"is":[51,182],"use":[53],"\u201cadapters\u201d\u2014concise":[55],"modules":[56],"integrated":[57],"base-agent,":[60],"designed":[61],"to":[62,87,112,118,120],"adjust":[63],"policy":[65],"for":[66,76,206],"specific":[67,207],"Adapter-RL":[70,135,149,198],"framework":[71],"comprises":[72],"base-agent":[74],"responsible":[75],"initial":[77],"decision-making":[78],"an":[80],"adapter":[81,92,176],"module":[82],"that":[83,148,179],"refines":[84],"these":[85],"decisions":[86],"meet":[88],"task-specific":[89],"requirements.":[90],"facilitates":[93],"efficient":[94],"training,":[95,177],"reduces":[96],"parameter":[97],"requirements,":[98],"mitigates":[100],"catastrophic":[101],"forgetting,":[102],"enhancing":[103],"overall":[104],"adaptability.":[107],"enables":[110,200],"be":[113],"fine-tuned":[114],"effectively,":[115],"allowing":[116],"them":[117],"adapt":[119],"complex":[121],"tasks":[122],"rapidly":[124],"changing":[125],"or":[126,209],"uncertain":[127],"conditions.":[128],"research":[130],"demonstrates":[131],"efficacy":[133],"through":[136],"experiments":[137],"microRTS,":[139],"challenging":[141],"real-time":[142],"strategy":[143],"game.":[144],"results":[146],"demonstrate":[147],"significantly":[150],"accelerates":[151],"training":[153],"process":[154],"outperforms":[156],"base-agents":[157],"across":[158],"various":[159],"tasks,":[160],"highlighting":[161],"its":[162],"efficiency":[163],"robustness.":[165],"In":[166],"addition,":[167],"investigates":[170],"temperature":[172],"coefficient":[173],"tradeoff":[174],"finding":[178],"optimal":[180],"achievable":[183],"within":[184],"broad":[186],"range":[187],"coefficients.":[189],"underscores":[191],"stability":[193],"method.":[196],"specialization":[202],"base":[204],"AI":[205],"characters":[208],"scenarios.":[210]},"counts_by_year":[],"updated_date":"2026-03-20T20:47:17.329874","created_date":"2026-01-14T00:00:00"}