{"id":"https://openalex.org/W3096147956","doi":"https://doi.org/10.25560/82257","title":"Continual reinforcement learning with memory at multiple timescales","display_name":"Continual reinforcement learning with memory at multiple timescales","publication_year":2020,"publication_date":"2020-04-01","ids":{"openalex":"https://openalex.org/W3096147956","doi":"https://doi.org/10.25560/82257","mag":"3096147956"},"language":"en","primary_location":{"id":"pmh:oai:spiral.imperial.ac.uk:10044/1/82257","is_oa":true,"landing_page_url":"http://hdl.handle.net/10044/1/82257","pdf_url":"http://hdl.handle.net/10044/1/82257","source":{"id":"https://openalex.org/S4306401396","display_name":"Spiral (Imperial College London)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I47508984","host_organization_name":"Imperial College London","host_organization_lineage":["https://openalex.org/I47508984"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":"","raw_type":"Thesis or dissertation"},"type":"dissertation","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"http://hdl.handle.net/10044/1/82257","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5065295907","display_name":"Christos Kaplanis","orcid":null},"institutions":[{"id":"https://openalex.org/I47508984","display_name":"Imperial College London","ror":"https://ror.org/041kmwe10","country_code":"GB","type":"education","lineage":["https://openalex.org/I47508984"]}],"countries":["GB"],"is_corresponding":true,"raw_author_name":"Kaplanis, Christos","raw_affiliation_strings":["Imperial College London"],"affiliations":[{"raw_affiliation_string":"Imperial College London","institution_ids":["https://openalex.org/I47508984"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":["https://openalex.org/A5065295907"],"corresponding_institution_ids":["https://openalex.org/I47508984"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":true,"cited_by_count":0,"citation_normalized_percentile":{"value":0.14040207,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.8065999746322632,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.8065999746322632,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement","display_name":"Reinforcement","score":0.6519335508346558},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.6152228713035583},{"id":"https://openalex.org/keywords/psychology","display_name":"Psychology","score":0.441983699798584},{"id":"https://openalex.org/keywords/cognitive-psychology","display_name":"Cognitive psychology","score":0.42768219113349915},{"id":"https://openalex.org/keywords/cognitive-science","display_name":"Cognitive science","score":0.4173475503921509},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.2857562303543091},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.28249824047088623},{"id":"https://openalex.org/keywords/social-psychology","display_name":"Social psychology","score":0.13279983401298523}],"concepts":[{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.6519335508346558},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.6152228713035583},{"id":"https://openalex.org/C15744967","wikidata":"https://www.wikidata.org/wiki/Q9418","display_name":"Psychology","level":0,"score":0.441983699798584},{"id":"https://openalex.org/C180747234","wikidata":"https://www.wikidata.org/wiki/Q23373","display_name":"Cognitive psychology","level":1,"score":0.42768219113349915},{"id":"https://openalex.org/C188147891","wikidata":"https://www.wikidata.org/wiki/Q147638","display_name":"Cognitive science","level":1,"score":0.4173475503921509},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.2857562303543091},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.28249824047088623},{"id":"https://openalex.org/C77805123","wikidata":"https://www.wikidata.org/wiki/Q161272","display_name":"Social psychology","level":1,"score":0.13279983401298523}],"mesh":[],"locations_count":3,"locations":[{"id":"pmh:oai:spiral.imperial.ac.uk:10044/1/82257","is_oa":true,"landing_page_url":"http://hdl.handle.net/10044/1/82257","pdf_url":"http://hdl.handle.net/10044/1/82257","source":{"id":"https://openalex.org/S4306401396","display_name":"Spiral (Imperial College London)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I47508984","host_organization_name":"Imperial College London","host_organization_lineage":["https://openalex.org/I47508984"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":"","raw_type":"Thesis or dissertation"},{"id":"doi:10.25560/82257","is_oa":true,"landing_page_url":"https://doi.org/10.25560/82257","pdf_url":null,"source":{"id":"https://openalex.org/S7407050757","display_name":"Imperial College Research Computing Service Data Repository","issn_l":null,"issn":[],"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article-journal"},{"id":"mag:3096147956","is_oa":false,"landing_page_url":"https://ethos.bl.uk/OrderDetails.do?uin=uk.bl.ethos.815268","pdf_url":null,"source":null,"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":null}],"best_oa_location":{"id":"pmh:oai:spiral.imperial.ac.uk:10044/1/82257","is_oa":true,"landing_page_url":"http://hdl.handle.net/10044/1/82257","pdf_url":"http://hdl.handle.net/10044/1/82257","source":{"id":"https://openalex.org/S4306401396","display_name":"Spiral (Imperial College London)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I47508984","host_organization_name":"Imperial College London","host_organization_lineage":["https://openalex.org/I47508984"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":"","raw_type":"Thesis or dissertation"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":true,"grobid_xml":true},"content_urls":{"pdf":"https://content.openalex.org/works/W3096147956.pdf","grobid_xml":"https://content.openalex.org/works/W3096147956.grobid-xml"},"referenced_works_count":0,"referenced_works":[],"related_works":["https://openalex.org/W2498762479","https://openalex.org/W2908280951","https://openalex.org/W2268598489","https://openalex.org/W2164780350","https://openalex.org/W2336841220"],"abstract_inverted_index":{"In":[0,206],"the":[1,74,92,102,139,147,176,196,207,211,214,251,259,264,283,335,341,348,351,354,356,359,364,375,379,389],"past":[2],"decade,":[3],"with":[4,73,138,244,295,311],"increased":[5,129],"availability":[6],"of":[7,27,36,40,94,117,123,178,183,193,198,231,258,263,272,285,325,337,350,353,388],"computational":[8],"resources":[9],"and":[10,55,81,135,188,220,247,279,314,343],"several":[11,33],"improvements":[12],"in":[13,32,46,98,156,175,186,227,282,340,394],"training":[14,179,324],"techniques,":[15],"artificial":[16,37,64],"neural":[17,296],"networks":[18],"(ANNs)":[19],"have":[20,43,85],"been":[21,44,87,174,235],"rediscovered":[22],"as":[23,51,189,306],"a":[24,52,99,181,190,289,300,326,386],"powerful":[25],"class":[26],"machine":[28],"learning":[29,110,169,239,275,294,305],"methods,":[30,270],"featuring":[31],"groundbreaking":[34],"applications":[35],"intelligence.":[38],"Most":[39],"these":[41],"successes":[42],"achieved":[45],"stationary,":[47],"confined":[48],"domains,":[49],"such":[50],"game":[53],"playing":[54],"image":[56],"recognition,":[57],"but,":[58],"ultimately,":[59],"we":[60],"want":[61],"to":[62,66,71,89,113,127,131,146,149,171,201,213,236,250,396,404],"apply":[63],"intelligence":[65],"problems":[67],"that":[68,158,223,241,291],"require":[69],"it":[70,308,316,403],"interact":[72],"real":[75,208],"world,":[76,209],"which":[77,144,273,298,383],"is":[78,105,332],"both":[79,245],"vast":[80],"nonstationary.":[82],"Unfortunately,":[83],"ANNs":[84,124],"long":[86],"known":[88,226],"suffer":[90],"from":[91],"phenomenon":[93],"catastrophic":[95],"forgetting,":[96],"whereby,":[97],"setting":[100,165],"where":[101],"data":[103,252,406],"distribution":[104,215],"changing":[106],"over":[107,154,367,407],"time,":[108,368],"new":[109,269],"can":[111,242,317],"lead":[112],"an":[114,128,312],"abrupt":[115],"erasure":[116],"previously":[118],"acquired":[119],"knowledge.":[120],"The":[121,162,229,329],"resurgence":[122],"has":[125,173,234],"led":[126],"urgency":[130],"solve":[132],"this":[133,232],"problem":[134],"endow":[136],"them":[137,194,281,398],"capacity":[140],"for":[141,166,303],"continual":[142,168,238,304],"learning,":[143,288],"refers":[145],"ability":[148],"build":[150],"on":[151,180],"their":[152],"knowledge":[153,197,203,257],"time":[155],"environments":[157],"are":[159,224],"constantly":[160],"evolving.":[161],"most":[163,391],"common":[164],"evaluating":[167],"approaches":[170,240],"date":[172],"context":[177,284],"number":[182],"distinct":[184],"tasks":[185],"sequence,":[187],"result":[191],"many":[192],"use":[195],"task":[199],"boundaries":[200],"consolidate":[202],"during":[204,323,399],"training.":[205],"however,":[210],"changes":[212,249],"may":[216],"occur":[217],"more":[218],"gradually":[219],"at":[221,276,320,347],"times":[222],"not":[225],"advance.":[228],"goal":[230],"thesis":[233],"develop":[237],"cope":[243],"discrete":[246],"continuous":[248],"distribution,":[253],"without":[254],"any":[255],"prior":[256],"nature":[260],"or":[261],"timescale":[262],"changes.":[265],"I":[266],"present":[267],"three":[268],"all":[271],"involve":[274],"multiple":[277,408],"timescales,":[278],"evaluate":[280],"deep":[286],"reinforcement":[287,293],"paradigm":[290],"combines":[292],"networks,":[297],"provides":[299],"natural":[301],"testbed":[302],"(i)":[307],"involves":[309,344],"interacting":[310],"environment,":[313],"(ii)":[315],"feature":[318],"non-stationarity":[319],"unpredictable":[321],"timescales":[322],"single":[327],"task.":[328],"first":[330,360],"method":[331],"inspired":[333],"by":[334,361,401],"process":[336],"synaptic":[338],"consolidation":[339],"brain":[342],"multi-timescale":[345],"memory":[346],"level":[349],"parameters":[352],"network;":[355],"second":[357],"extends":[358,378],"directly":[362],"consolidating":[363],"agent's":[365,390],"policy":[366],"rather":[369],"than":[370],"its":[371],"individual":[372],"parameters;":[373],"finally,":[374],"third":[376],"approach":[377],"experience":[380],"replay":[381],"database,":[382],"typically":[384],"maintains":[385],"buffer":[387],"recent":[392],"experiences":[393],"order":[395],"decorrelate":[397],"training,":[400],"enabling":[402],"store":[405],"timescales.":[409]},"counts_by_year":[],"updated_date":"2026-03-20T23:20:44.827607","created_date":"2025-10-10T00:00:00"}