{"id":"https://openalex.org/W7137818634","doi":"https://doi.org/10.1609/aaai.v40i34.40076","title":"Enhancing Exploration and Exploitation in Hierarchical Reinforcement Learning with Subgoal Graph Learning","display_name":"Enhancing Exploration and Exploitation in Hierarchical Reinforcement Learning with Subgoal Graph Learning","publication_year":2026,"publication_date":"2026-03-14","ids":{"openalex":"https://openalex.org/W7137818634","doi":"https://doi.org/10.1609/aaai.v40i34.40076"},"language":"en","primary_location":{"id":"doi:10.1609/aaai.v40i34.40076","is_oa":true,"landing_page_url":"https://doi.org/10.1609/aaai.v40i34.40076","pdf_url":null,"source":{"id":"https://openalex.org/S4210191458","display_name":"Proceedings of the AAAI Conference on Artificial Intelligence","issn_l":"2159-5399","issn":["2159-5399","2374-3468"],"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/P4310320058","host_organization_name":"Association for the Advancement of Artificial Intelligence","host_organization_lineage":["https://openalex.org/P4310320058"],"host_organization_lineage_names":["Association for the Advancement of Artificial Intelligence"],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the AAAI Conference on Artificial Intelligence","raw_type":"journal-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":true,"oa_status":"diamond","oa_url":"https://doi.org/10.1609/aaai.v40i34.40076","any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5030278011","display_name":"Yibo Jacky Zhang","orcid":null},"institutions":[{"id":"https://openalex.org/I4210165038","display_name":"University of Chinese Academy of Sciences","ror":"https://ror.org/05qbk4x57","country_code":"CN","type":"education","lineage":["https://openalex.org/I19820366","https://openalex.org/I4210165038"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Yibo Zhang","raw_affiliation_strings":["Institute of Automation, Chinese Academy of Sciences\nSchool of Artificial Intelligence, University of Chinese Academy of Sciences"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Institute of Automation, Chinese Academy of Sciences\nSchool of Artificial Intelligence, University of Chinese Academy of Sciences","institution_ids":["https://openalex.org/I4210165038"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5101684094","display_name":"Dengpeng Xing","orcid":"https://orcid.org/0000-0002-8251-9118"},"institutions":[{"id":"https://openalex.org/I4210165038","display_name":"University of Chinese Academy of Sciences","ror":"https://ror.org/05qbk4x57","country_code":"CN","type":"education","lineage":["https://openalex.org/I19820366","https://openalex.org/I4210165038"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Dengpeng Xing","raw_affiliation_strings":["Institute of Automation, Chinese Academy of Sciences\nSchool of Artificial Intelligence, University of Chinese Academy of Sciences"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Institute of Automation, Chinese Academy of Sciences\nSchool of Artificial Intelligence, University of Chinese Academy of Sciences","institution_ids":["https://openalex.org/I4210165038"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.04273504,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":"40","issue":"34","first_page":"28465","last_page":"28473"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9287999868392944,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9287999868392944,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.012900000438094139,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11307","display_name":"Domain Adaptation and Few-Shot Learning","score":0.009700000286102295,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7081000208854675},{"id":"https://openalex.org/keywords/adjacency-list","display_name":"Adjacency list","score":0.633400022983551},{"id":"https://openalex.org/keywords/graph","display_name":"Graph","score":0.5813999772071838},{"id":"https://openalex.org/keywords/representation","display_name":"Representation (politics)","score":0.5069000124931335},{"id":"https://openalex.org/keywords/scheme","display_name":"Scheme (mathematics)","score":0.4401000142097473},{"id":"https://openalex.org/keywords/construct","display_name":"Construct (python library)","score":0.4106000065803528},{"id":"https://openalex.org/keywords/feature-learning","display_name":"Feature learning","score":0.4047999978065491}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7156000137329102},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7081000208854675},{"id":"https://openalex.org/C110484373","wikidata":"https://www.wikidata.org/wiki/Q264398","display_name":"Adjacency list","level":2,"score":0.633400022983551},{"id":"https://openalex.org/C132525143","wikidata":"https://www.wikidata.org/wiki/Q141488","display_name":"Graph","level":2,"score":0.5813999772071838},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5297999978065491},{"id":"https://openalex.org/C2776359362","wikidata":"https://www.wikidata.org/wiki/Q2145286","display_name":"Representation (politics)","level":3,"score":0.5069000124931335},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.4715000092983246},{"id":"https://openalex.org/C77618280","wikidata":"https://www.wikidata.org/wiki/Q1155772","display_name":"Scheme (mathematics)","level":2,"score":0.4401000142097473},{"id":"https://openalex.org/C2780801425","wikidata":"https://www.wikidata.org/wiki/Q5164392","display_name":"Construct (python library)","level":2,"score":0.4106000065803528},{"id":"https://openalex.org/C59404180","wikidata":"https://www.wikidata.org/wiki/Q17013334","display_name":"Feature learning","level":2,"score":0.4047999978065491},{"id":"https://openalex.org/C80444323","wikidata":"https://www.wikidata.org/wiki/Q2878974","display_name":"Theoretical computer science","level":1,"score":0.38260000944137573},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.3646000027656555},{"id":"https://openalex.org/C28719098","wikidata":"https://www.wikidata.org/wiki/Q44946","display_name":"Point (geometry)","level":2,"score":0.34769999980926514},{"id":"https://openalex.org/C2776505523","wikidata":"https://www.wikidata.org/wiki/Q4785468","display_name":"Plan (archaeology)","level":2,"score":0.30309998989105225},{"id":"https://openalex.org/C161301231","wikidata":"https://www.wikidata.org/wiki/Q3478658","display_name":"Knowledge representation and reasoning","level":2,"score":0.2915000021457672},{"id":"https://openalex.org/C2775924081","wikidata":"https://www.wikidata.org/wiki/Q55608371","display_name":"Control (management)","level":2,"score":0.2759999930858612},{"id":"https://openalex.org/C77967617","wikidata":"https://www.wikidata.org/wiki/Q4677561","display_name":"Active learning (machine learning)","level":2,"score":0.26109999418258667},{"id":"https://openalex.org/C180356752","wikidata":"https://www.wikidata.org/wiki/Q727035","display_name":"Adjacency matrix","level":3,"score":0.25130000710487366}],"mesh":[],"locations_count":2,"locations":[{"id":"doi:10.1609/aaai.v40i34.40076","is_oa":true,"landing_page_url":"https://doi.org/10.1609/aaai.v40i34.40076","pdf_url":null,"source":{"id":"https://openalex.org/S4210191458","display_name":"Proceedings of the AAAI Conference on Artificial Intelligence","issn_l":"2159-5399","issn":["2159-5399","2374-3468"],"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/P4310320058","host_organization_name":"Association for the Advancement of Artificial Intelligence","host_organization_lineage":["https://openalex.org/P4310320058"],"host_organization_lineage_names":["Association for the Advancement of Artificial Intelligence"],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the AAAI Conference on Artificial Intelligence","raw_type":"journal-article"},{"id":"pmh:oai:ojs.aaai.org:article/40076","is_oa":false,"landing_page_url":"https://ojs.aaai.org/index.php/AAAI/article/view/40076","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":"2159-5399","raw_type":"info:eu-repo/semantics/publishedVersion"}],"best_oa_location":{"id":"doi:10.1609/aaai.v40i34.40076","is_oa":true,"landing_page_url":"https://doi.org/10.1609/aaai.v40i34.40076","pdf_url":null,"source":{"id":"https://openalex.org/S4210191458","display_name":"Proceedings of the AAAI Conference on Artificial Intelligence","issn_l":"2159-5399","issn":["2159-5399","2374-3468"],"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/P4310320058","host_organization_name":"Association for the Advancement of Artificial Intelligence","host_organization_lineage":["https://openalex.org/P4310320058"],"host_organization_lineage_names":["Association for the Advancement of Artificial Intelligence"],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the AAAI Conference on Artificial Intelligence","raw_type":"journal-article"},"sustainable_development_goals":[{"score":0.7089554071426392,"display_name":"Peace, Justice and strong institutions","id":"https://metadata.un.org/sdg/16"}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Goal-conditioned":[0],"hierarchical":[1,59,131],"reinforcement":[2],"learning":[3,133],"has":[4],"demonstrated":[5],"effectiveness":[6],"in":[7,86,158],"addressing":[8],"complicated":[9],"decision-making":[10],"tasks":[11,18],"by":[12,110,126],"providing":[13],"''temporal":[14],"extraction'',":[15],"which":[16],"decomposes":[17],"into":[19],"smaller":[20],"and":[21,39,58,68,92,130,143,154],"more":[22],"manageable":[23],"''subgoals''.":[24],"This":[25],"enables":[26],"agents":[27],"to":[28,65,81,138],"plan":[29],"over":[30],"a":[31,43],"longer":[32],"time":[33],"scale.":[34],"However,":[35],"achieving":[36],"optimal":[37],"exploration":[38,67,119,153],"exploitation":[40,69],"still":[41],"remains":[42],"challenge,":[44],"especially":[45],"for":[46],"long-horizon":[47,160],"or":[48],"sparse-reward":[49],"scenarios.":[50],"In":[51],"this":[52],"paper,":[53],"we":[54,113],"introduce":[55],"Active":[56],"exploraion":[57],"Self-Imitation":[60],"(ASI),":[61],"an":[62,95],"effective":[63],"scheme":[64],"enhance":[66],"based":[70],"on":[71,105],"subgoal":[72],"representation":[73,88],"learning.":[74],"The":[75],"key":[76],"point":[77],"of":[78],"ASI":[79],"is":[80],"utilize":[82],"temporal":[83],"adjacency":[84,96,107],"information":[85,108],"the":[87,100,106,111,123],"space.":[89],"We":[90],"construct":[91],"dynamically":[93],"update":[94],"graph":[97],"that":[98,120,134,149],"captures":[99],"relationships":[101],"between":[102],"subgoals.":[103],"Based":[104],"provided":[109],"graph,":[112],"design":[114],"two":[115],"mechanisms:":[116],"active":[117],"``frontier-reaching''":[118],"faster":[121],"expands":[122],"explored":[124],"area":[125],"targeting":[127],"boundary":[128],"regions,":[129],"self-imitation":[132],"leverages":[135],"historical":[136],"experience":[137],"facilitate":[139],"both":[140],"frontier":[141],"reaching":[142],"policy":[144],"training.":[145],"Experimental":[146],"results":[147],"show":[148],"our":[150],"method":[151],"accelerates":[152],"outperforms":[155],"existing":[156],"baselines":[157],"challenging":[159],"continuous":[161],"control":[162],"tasks.":[163]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2026-03-18T00:00:00"}