{"id":"https://openalex.org/W7161145242","doi":"https://doi.org/10.48550/arxiv.2605.13207","title":"Switching Successor Measures for Hierarchical Zero-shot Reinforcement Learning","display_name":"Switching Successor Measures for Hierarchical Zero-shot Reinforcement Learning","publication_year":2026,"publication_date":"2026-05-13","ids":{"openalex":"https://openalex.org/W7161145242","doi":"https://doi.org/10.48550/arxiv.2605.13207"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2605.13207","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.13207","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2605.13207","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5136110293","display_name":"Stefan Stojanovic","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Stojanovic, Stefan","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5025136069","display_name":"Alexandre Prouti\u00e8re","orcid":"https://orcid.org/0000-0002-4679-4673"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Proutiere, Alexandre","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":2,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.838699996471405,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.838699996471405,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11307","display_name":"Domain Adaptation and Few-Shot Learning","score":0.047200001776218414,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11612","display_name":"Stochastic Gradient Optimization Techniques","score":0.008700000122189522,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/successor-cardinal","display_name":"Successor cardinal","score":0.9753999710083008},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.8662999868392944},{"id":"https://openalex.org/keywords/generalization","display_name":"Generalization","score":0.7020999789237976},{"id":"https://openalex.org/keywords/control","display_name":"Control (management)","score":0.5372999906539917},{"id":"https://openalex.org/keywords/reinforcement","display_name":"Reinforcement","score":0.4489000141620636},{"id":"https://openalex.org/keywords/limit","display_name":"Limit (mathematics)","score":0.41429999470710754},{"id":"https://openalex.org/keywords/time-limit","display_name":"Time limit","score":0.36469998955726624},{"id":"https://openalex.org/keywords/top-down-and-bottom-up-design","display_name":"Top-down and bottom-up design","score":0.3547999858856201}],"concepts":[{"id":"https://openalex.org/C75306776","wikidata":"https://www.wikidata.org/wiki/Q7632662","display_name":"Successor cardinal","level":2,"score":0.9753999710083008},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.8662999868392944},{"id":"https://openalex.org/C177148314","wikidata":"https://www.wikidata.org/wiki/Q170084","display_name":"Generalization","level":2,"score":0.7020999789237976},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6725999712944031},{"id":"https://openalex.org/C2775924081","wikidata":"https://www.wikidata.org/wiki/Q55608371","display_name":"Control (management)","level":2,"score":0.5372999906539917},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5257999897003174},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.4489000141620636},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.4334000051021576},{"id":"https://openalex.org/C151201525","wikidata":"https://www.wikidata.org/wiki/Q177239","display_name":"Limit (mathematics)","level":2,"score":0.41429999470710754},{"id":"https://openalex.org/C2781011336","wikidata":"https://www.wikidata.org/wiki/Q1465133","display_name":"Time limit","level":2,"score":0.36469998955726624},{"id":"https://openalex.org/C135798126","wikidata":"https://www.wikidata.org/wiki/Q2167279","display_name":"Top-down and bottom-up design","level":2,"score":0.3547999858856201},{"id":"https://openalex.org/C2778029271","wikidata":"https://www.wikidata.org/wiki/Q5421931","display_name":"Extension (predicate logic)","level":2,"score":0.3479999899864197},{"id":"https://openalex.org/C136197465","wikidata":"https://www.wikidata.org/wiki/Q1729295","display_name":"Variety (cybernetics)","level":2,"score":0.30889999866485596},{"id":"https://openalex.org/C2776359362","wikidata":"https://www.wikidata.org/wiki/Q2145286","display_name":"Representation (politics)","level":3,"score":0.2996000051498413},{"id":"https://openalex.org/C124527596","wikidata":"https://www.wikidata.org/wiki/Q17029359","display_name":"Hierarchical control system","level":3,"score":0.27000001072883606},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.2662999927997589},{"id":"https://openalex.org/C196340769","wikidata":"https://www.wikidata.org/wiki/Q7698910","display_name":"Temporal difference learning","level":3,"score":0.2583000063896179},{"id":"https://openalex.org/C144986985","wikidata":"https://www.wikidata.org/wiki/Q871236","display_name":"Hierarchical database model","level":2,"score":0.250900000333786},{"id":"https://openalex.org/C199190896","wikidata":"https://www.wikidata.org/wiki/Q3509276","display_name":"Learning classifier system","level":3,"score":0.25049999356269836}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2605.13207","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.13207","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2605.13207","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.13207","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[{"display_name":"Peace, Justice and strong institutions","score":0.8061347007751465,"id":"https://metadata.un.org/sdg/16"}],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Hierarchical":[0],"reinforcement":[1,64,167],"learning":[2,65,168],"can":[3],"improve":[4],"generalization":[5],"by":[6],"decomposing":[7],"long-horizon":[8],"decision-making":[9],"into":[10],"simpler":[11],"subproblems.":[12],"However,":[13],"existing":[14],"approaches":[15],"often":[16],"rely":[17],"on":[18,93,130],"restrictive":[19],"design":[20],"choices,":[21],"such":[22],"as":[23],"fixed":[24,69],"temporal":[25],"abstractions":[26],"or":[27,71],"goal-conditioned":[28,132,151],"objectives,":[29],"which":[30],"largely":[31],"confine":[32],"them":[33],"to":[34,41,122],"goal-reaching":[35,170],"tasks":[36,136],"and":[37,109,133,145],"limit":[38],"their":[39,89],"applicability":[40],"general":[42,134],"reward":[43],"functions.":[44],"In":[45],"this":[46,94],"paper,":[47],"we":[48,96],"introduce":[49],"switching":[50,78],"successor":[51,56,79,85,158],"measures,":[52],"an":[53,100],"extension":[54],"of":[55],"measures":[57,80,86],"that":[58,77,102,138,156],"enables":[59],"hierarchical":[60,120,148,165],"control":[61,112],"in":[62,150],"zero-shot":[63,166],"without":[66],"additional":[67],"supervision,":[68],"horizons,":[70],"manually":[72],"designed":[73],"subgoals.":[74],"We":[75],"show":[76,137],"arise":[81],"naturally":[82],"from":[83,115,124],"classical":[84],"while":[87],"preserving":[88],"underlying":[90],"structure.":[91],"Building":[92],"result,":[95],"propose":[97],"FB":[98,139],"$\u03c0$-Switch,":[99],"algorithm":[101],"extracts":[103],"both":[104,131],"a":[105,110,125,161],"high-level":[106],"subgoal-selection":[107],"policy":[108,113],"low-level":[111],"directly":[114],"forward-backward":[116],"(FB)":[117],"representations,":[118],"allowing":[119],"behavior":[121],"emerge":[123],"single":[126],"learned":[127],"representation.":[128],"Experiments":[129],"reward-based":[135],"$\u03c0$-Switch":[140],"improves":[141],"over":[142],"non-hierarchical":[143],"baselines":[144],"matches":[146],"state-of-the-art":[147],"methods":[149],"settings.":[152],"These":[153],"results":[154],"demonstrate":[155],"structured":[157],"representations":[159],"provide":[160],"flexible":[162],"foundation":[163],"for":[164],"beyond":[169],"tasks.":[171],"Our":[172],"project":[173],"website":[174],"is":[175],"available":[176],"at:":[177],"https://stestokth.github.io/switching-successors/.":[178]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2026-05-15T00:00:00"}