{"id":"https://openalex.org/W7152561254","doi":"https://doi.org/10.48550/arxiv.2604.07016","title":"Predictive Representations for Skill Transfer in Reinforcement Learning","display_name":"Predictive Representations for Skill Transfer in Reinforcement Learning","publication_year":2026,"publication_date":"2026-04-08","ids":{"openalex":"https://openalex.org/W7152561254","doi":"https://doi.org/10.48550/arxiv.2604.07016"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2604.07016","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.07016","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2604.07016","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5075031725","display_name":"Ruben Vereecken","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Vereecken, Ruben","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5133260203","display_name":"Luke Dickens","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Dickens, Luke","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5046462940","display_name":"Alessandra Russo","orcid":"https://orcid.org/0000-0002-3318-8711"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Russo, Alessandra","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":3,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.8579999804496765,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.8579999804496765,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11307","display_name":"Domain Adaptation and Few-Shot Learning","score":0.01860000006854534,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10653","display_name":"Robot Manipulation and Learning","score":0.013799999840557575,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7598000168800354},{"id":"https://openalex.org/keywords/transfer-of-learning","display_name":"Transfer of learning","score":0.6471999883651733},{"id":"https://openalex.org/keywords/abstraction","display_name":"Abstraction","score":0.6320000290870667},{"id":"https://openalex.org/keywords/formalism","display_name":"Formalism (music)","score":0.5936999917030334},{"id":"https://openalex.org/keywords/task","display_name":"Task (project management)","score":0.5145999789237976},{"id":"https://openalex.org/keywords/key","display_name":"Key (lock)","score":0.4440999925136566},{"id":"https://openalex.org/keywords/state","display_name":"State (computer science)","score":0.39989998936653137},{"id":"https://openalex.org/keywords/task-analysis","display_name":"Task analysis","score":0.37220001220703125}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7598000168800354},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7422000169754028},{"id":"https://openalex.org/C150899416","wikidata":"https://www.wikidata.org/wiki/Q1820378","display_name":"Transfer of learning","level":2,"score":0.6471999883651733},{"id":"https://openalex.org/C124304363","wikidata":"https://www.wikidata.org/wiki/Q673661","display_name":"Abstraction","level":2,"score":0.6320000290870667},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6255999803543091},{"id":"https://openalex.org/C73301696","wikidata":"https://www.wikidata.org/wiki/Q5469984","display_name":"Formalism (music)","level":3,"score":0.5936999917030334},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.5145999789237976},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.4440999925136566},{"id":"https://openalex.org/C48103436","wikidata":"https://www.wikidata.org/wiki/Q599031","display_name":"State (computer science)","level":2,"score":0.39989998936653137},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.39969998598098755},{"id":"https://openalex.org/C175154964","wikidata":"https://www.wikidata.org/wiki/Q380077","display_name":"Task analysis","level":3,"score":0.37220001220703125},{"id":"https://openalex.org/C2780791683","wikidata":"https://www.wikidata.org/wiki/Q846785","display_name":"Action (physics)","level":2,"score":0.33889999985694885},{"id":"https://openalex.org/C199190896","wikidata":"https://www.wikidata.org/wiki/Q3509276","display_name":"Learning classifier system","level":3,"score":0.31610000133514404},{"id":"https://openalex.org/C2776960227","wikidata":"https://www.wikidata.org/wiki/Q2586354","display_name":"Knowledge transfer","level":2,"score":0.3061999976634979},{"id":"https://openalex.org/C2779178101","wikidata":"https://www.wikidata.org/wiki/Q6987274","display_name":"Negative transfer","level":3,"score":0.3009999990463257},{"id":"https://openalex.org/C2776175482","wikidata":"https://www.wikidata.org/wiki/Q1195816","display_name":"Transfer (computing)","level":2,"score":0.29750001430511475},{"id":"https://openalex.org/C99844830","wikidata":"https://www.wikidata.org/wiki/Q102441924","display_name":"Scaling","level":2,"score":0.2919999957084656},{"id":"https://openalex.org/C2778445095","wikidata":"https://www.wikidata.org/wiki/Q18354077","display_name":"Sample complexity","level":2,"score":0.2793000042438507},{"id":"https://openalex.org/C2777938197","wikidata":"https://www.wikidata.org/wiki/Q7834022","display_name":"Transfer of training","level":2,"score":0.2702000141143799},{"id":"https://openalex.org/C28006648","wikidata":"https://www.wikidata.org/wiki/Q6934509","display_name":"Multi-task learning","level":3,"score":0.25270000100135803}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2604.07016","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.07016","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2604.07016","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.07016","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"A":[0],"key":[1],"challenge":[2],"in":[3,133,148,157,159],"scaling":[4],"up":[5,67,130],"Reinforcement":[6],"Learning":[7],"is":[8,22,151],"generalizing":[9],"learned":[10],"behaviour.":[11],"Without":[12],"the":[13,52,80,145],"ability":[14],"to":[15,24],"carry":[16],"forward":[17],"acquired":[18],"knowledge":[19],"an":[20],"agent":[21],"doomed":[23],"learn":[25,120],"each":[26],"task":[27],"from":[28,123],"scratch.":[29],"In":[30,113],"this":[31,89,149],"paper":[32],"we":[33,54,119],"develop":[34],"a":[35,108,114,152],"new":[36,135],"formalism":[37],"for":[38,82],"transfer":[39,156,163],"by":[40,91],"virtue":[41],"of":[42,51,68,70,110,116],"state":[43,111,166],"abstraction.":[44,112],"Based":[45],"on":[46,99],"task-independent,":[47],"compact":[48],"observations":[49],"(outcomes)":[50],"environment,":[53],"introduce":[55],"Outcome-Predictive":[56],"State":[57],"Representations":[58],"(OPSRs),":[59],"agent-centered":[60],"and":[61,75,125,136,161,167],"task-independent":[62],"abstractions":[63],"that":[64,77,101,144],"are":[65],"made":[66],"predictions":[69],"outcomes.":[71],"We":[72,142],"show":[73,126],"formally":[74],"empirically":[76],"they":[78,128],"have":[79],"potential":[81],"optimal":[83],"but":[84],"limited":[85],"transfer,":[86],"then":[87],"overcome":[88],"trade-off":[90],"introducing":[92],"OPSR-based":[93,121],"skills,":[94],"i.e.":[95],"abstract":[96],"actions":[97],"(based":[98],"options)":[100],"can":[102],"be":[103],"reused":[104],"between":[105],"tasks":[106,138],"as":[107],"result":[109],"series":[115],"empirical":[117],"studies,":[118],"skills":[122],"demonstrations":[124],"how":[127],"speed":[129],"learning":[131],"considerably":[132],"entirely":[134],"unseen":[137],"without":[139],"any":[140],"pre-processing.":[141],"believe":[143],"framework":[146],"introduced":[147],"work":[150],"promising":[153],"step":[154],"towards":[155,162],"RL":[158],"general,":[160],"through":[164],"combining":[165],"action":[168],"abstraction":[169],"specifically.":[170]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2026-04-10T00:00:00"}