{"id":"https://openalex.org/W4223436926","doi":"https://doi.org/10.1109/iceic54506.2022.9748203","title":"Generating Goal-conditioned Sub-goals for Hierarchical Learning","display_name":"Generating Goal-conditioned Sub-goals for Hierarchical Learning","publication_year":2022,"publication_date":"2022-02-06","ids":{"openalex":"https://openalex.org/W4223436926","doi":"https://doi.org/10.1109/iceic54506.2022.9748203"},"language":"en","primary_location":{"id":"doi:10.1109/iceic54506.2022.9748203","is_oa":false,"landing_page_url":"https://doi.org/10.1109/iceic54506.2022.9748203","pdf_url":null,"source":{"id":"https://openalex.org/S4363608213","display_name":"2022 International Conference on Electronics, Information, and Communication (ICEIC)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2022 International Conference on Electronics, Information, and Communication (ICEIC)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5103939320","display_name":"Jinwoo Choi","orcid":null},"institutions":[{"id":"https://openalex.org/I139264467","display_name":"Seoul National University","ror":"https://ror.org/04h9pn542","country_code":"KR","type":"education","lineage":["https://openalex.org/I139264467"]}],"countries":["KR"],"is_corresponding":true,"raw_author_name":"Jinwoo Choi","raw_affiliation_strings":["Seoul National University,Electrical and Computer Engineering,Seoul,Republic of Korea","Electrical and Computer Engineering, Seoul National University, Seoul, Republic of Korea"],"affiliations":[{"raw_affiliation_string":"Seoul National University,Electrical and Computer Engineering,Seoul,Republic of Korea","institution_ids":["https://openalex.org/I139264467"]},{"raw_affiliation_string":"Electrical and Computer Engineering, Seoul National University, Seoul, Republic of Korea","institution_ids":["https://openalex.org/I139264467"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5048311228","display_name":"Seung\u2010Woo Seo","orcid":"https://orcid.org/0000-0003-4890-8563"},"institutions":[{"id":"https://openalex.org/I139264467","display_name":"Seoul National University","ror":"https://ror.org/04h9pn542","country_code":"KR","type":"education","lineage":["https://openalex.org/I139264467"]}],"countries":["KR"],"is_corresponding":false,"raw_author_name":"Seung-Woo Seo","raw_affiliation_strings":["Seoul National University,Electrical and Computer Engineering,Seoul,Republic of Korea","Electrical and Computer Engineering, Seoul National University, Seoul, Republic of Korea"],"affiliations":[{"raw_affiliation_string":"Seoul National University,Electrical and Computer Engineering,Seoul,Republic of Korea","institution_ids":["https://openalex.org/I139264467"]},{"raw_affiliation_string":"Electrical and Computer Engineering, Seoul National University, Seoul, Republic of Korea","institution_ids":["https://openalex.org/I139264467"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":["https://openalex.org/A5103939320"],"corresponding_institution_ids":["https://openalex.org/I139264467"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.01713085,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":"1257","issue":null,"first_page":"1","last_page":"4"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9994999766349792,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9994999766349792,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12535","display_name":"Machine Learning and Data Classification","score":0.984499990940094,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12761","display_name":"Data Stream Mining Techniques","score":0.9573000073432922,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.8071476221084595},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.796769917011261},{"id":"https://openalex.org/keywords/task","display_name":"Task (project management)","score":0.7310220003128052},{"id":"https://openalex.org/keywords/set","display_name":"Set (abstract data type)","score":0.626017689704895},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.5713714361190796},{"id":"https://openalex.org/keywords/task-analysis","display_name":"Task analysis","score":0.46069595217704773},{"id":"https://openalex.org/keywords/state","display_name":"State (computer science)","score":0.4368467926979065},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.4307641386985779},{"id":"https://openalex.org/keywords/algorithm","display_name":"Algorithm","score":0.13897815346717834}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.8071476221084595},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.796769917011261},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.7310220003128052},{"id":"https://openalex.org/C177264268","wikidata":"https://www.wikidata.org/wiki/Q1514741","display_name":"Set (abstract data type)","level":2,"score":0.626017689704895},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5713714361190796},{"id":"https://openalex.org/C175154964","wikidata":"https://www.wikidata.org/wiki/Q380077","display_name":"Task analysis","level":3,"score":0.46069595217704773},{"id":"https://openalex.org/C48103436","wikidata":"https://www.wikidata.org/wiki/Q599031","display_name":"State (computer science)","level":2,"score":0.4368467926979065},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.4307641386985779},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.13897815346717834},{"id":"https://openalex.org/C187736073","wikidata":"https://www.wikidata.org/wiki/Q2920921","display_name":"Management","level":1,"score":0.0},{"id":"https://openalex.org/C199360897","wikidata":"https://www.wikidata.org/wiki/Q9143","display_name":"Programming language","level":1,"score":0.0},{"id":"https://openalex.org/C162324750","wikidata":"https://www.wikidata.org/wiki/Q8134","display_name":"Economics","level":0,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/iceic54506.2022.9748203","is_oa":false,"landing_page_url":"https://doi.org/10.1109/iceic54506.2022.9748203","pdf_url":null,"source":{"id":"https://openalex.org/S4363608213","display_name":"2022 International Conference on Electronics, Information, and Communication (ICEIC)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2022 International Conference on Electronics, Information, and Communication (ICEIC)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[{"id":"https://openalex.org/G1677323619","display_name":null,"funder_award_id":"2017R1E1A1A01075171","funder_id":"https://openalex.org/F4320328359","funder_display_name":"Ministry of Science and ICT, South Korea"}],"funders":[{"id":"https://openalex.org/F4320321292","display_name":"Seoul National University","ror":"https://ror.org/04h9pn542"},{"id":"https://openalex.org/F4320322120","display_name":"National Research Foundation of Korea","ror":"https://ror.org/013aysd81"},{"id":"https://openalex.org/F4320328359","display_name":"Ministry of Science and ICT, South Korea","ror":"https://ror.org/01wpjm123"}],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":16,"referenced_works":["https://openalex.org/W1514587017","https://openalex.org/W1592847719","https://openalex.org/W2188365844","https://openalex.org/W2201581102","https://openalex.org/W2760878839","https://openalex.org/W2781726626","https://openalex.org/W2788741142","https://openalex.org/W2894605519","https://openalex.org/W2962894046","https://openalex.org/W2963438456","https://openalex.org/W3016525976","https://openalex.org/W3034343528","https://openalex.org/W3094484961","https://openalex.org/W4287634727","https://openalex.org/W4289441014","https://openalex.org/W4300799055"],"related_works":["https://openalex.org/W4386392971","https://openalex.org/W1564680838","https://openalex.org/W2003125260","https://openalex.org/W2060591604","https://openalex.org/W1992291644","https://openalex.org/W2166791242","https://openalex.org/W2585162246","https://openalex.org/W1934413089","https://openalex.org/W2098419343","https://openalex.org/W2051178964"],"abstract_inverted_index":{"Reinforcement":[0],"learning":[1,96],"(RL)":[2],"has":[3,8,53],"been":[4,54],"actively":[5],"re-searched":[6],"and":[7,34,49,161],"shown":[9],"good":[10],"performance":[11],"in":[12,186],"various":[13],"tasks.":[14,40],"However,":[15],"most":[16,60],"RL":[17],"agents":[18],"solve":[19,38,135,158],"their":[20],"tasks":[21,46,94],"by":[22,95],"exploring":[23],"the":[24,70,80,118,150,154,159,162,174],"environment":[25],"with":[26,130,183],"only":[27],"primitive":[28,166],"actions,":[29],"which":[30],"is":[31],"an":[32,128],"inefficient":[33],"difficult":[35],"way":[36],"to":[37,78,97,103,134,157,168],"complex":[39,45,93,136],"A":[41],"method":[42],"of":[43,61,72,120,145,176],"decomposing":[44],"into":[47],"sub-tasks":[48,65],"solving":[50,92],"them":[51],"step-by-step":[52],"studied":[55],"as":[56],"a":[57,89,105,111,131,187],"solution,":[58],"but":[59],"these":[62],"works":[63],"learn":[64],"that":[66,101,116],"do":[67],"not":[68],"consider":[69],"goals":[71],"downstream":[73],"tasks,":[74],"making":[75],"it":[76],"challenging":[77],"find":[79],"optimal":[81,155],"sub-task":[82,156],"combination.":[83],"In":[84],"this":[85],"paper,":[86],"we":[87,109,179],"propose":[88,127],"framework":[90,182],"for":[91],"generate":[98],"goal-conditioned":[99,121],"sub-goals":[100,122],"leads":[102],"reaching":[104],"goal":[106],"state.":[107],"First,":[108],"introduce":[110],"deep":[112],"latent":[113],"variant":[114],"model":[115,143],"learns":[117],"set":[119],"from":[123],"datasets.":[124],"We":[125],"then":[126],"algorithm":[129],"hierarchical":[132],"structure":[133],"problems":[137],"using":[138],"learned":[139],"sub-goals.":[140],"The":[141],"proposed":[142],"consists":[144],"two":[146],"level":[147],"policies,":[148],"where":[149],"higher-level":[151],"policy":[152,164],"selects":[153],"problem,":[160],"lower-level":[163],"outputs":[165],"actions":[167],"reach":[169],"each":[170],"sub-goal.":[171],"To":[172],"verify":[173],"effectiveness":[175],"our":[177,181],"method,":[178],"compared":[180],"other":[184],"baselines":[185],"long-horizon":[188],"maze":[189],"environment.":[190]},"counts_by_year":[],"updated_date":"2025-11-06T03:46:38.306776","created_date":"2025-10-10T00:00:00"}