{"id":"https://openalex.org/W4400732445","doi":"https://doi.org/10.1142/s1793962324500442","title":"An agent with a sense of direction for option discovery in hierarchical reinforcement learning","display_name":"An agent with a sense of direction for option discovery in hierarchical reinforcement learning","publication_year":2024,"publication_date":"2024-07-17","ids":{"openalex":"https://openalex.org/W4400732445","doi":"https://doi.org/10.1142/s1793962324500442"},"language":"en","primary_location":{"id":"doi:10.1142/s1793962324500442","is_oa":false,"landing_page_url":"https://doi.org/10.1142/s1793962324500442","pdf_url":null,"source":{"id":"https://openalex.org/S107361000","display_name":"Advances in Complex Systems","issn_l":"0219-5259","issn":["0219-5259","1793-6802","1793-9615","1793-9623"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310319815","host_organization_name":"World Scientific","host_organization_lineage":["https://openalex.org/P4310319815"],"host_organization_lineage_names":["World Scientific"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"International Journal of Modeling, Simulation, and Scientific Computing","raw_type":"journal-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5050362322","display_name":"Zoulikha Koudad","orcid":"https://orcid.org/0000-0001-7731-3644"},"institutions":[{"id":"https://openalex.org/I233209018","display_name":"University of Abou Bekr Belka\u00efd","ror":"https://ror.org/00jsjm362","country_code":"DZ","type":"education","lineage":["https://openalex.org/I233209018"]}],"countries":["DZ"],"is_corresponding":false,"raw_author_name":"Zoulikha Koudad","raw_affiliation_strings":["Abu Bekr Belkaid University of Tlemcen, Tlemcen 13000, Algeria","Higher School in Applied Sciences of Tlemcen, BP 165 RP. Bel Horizon, Tlemcen 13000, Algeria","Laboratory of Research in Computer Science of Tlemcen LRIT, Tlemcen 13000, Algeria"],"raw_orcid":"https://orcid.org/0000-0001-7731-3644","affiliations":[{"raw_affiliation_string":"Abu Bekr Belkaid University of Tlemcen, Tlemcen 13000, Algeria","institution_ids":["https://openalex.org/I233209018"]},{"raw_affiliation_string":"Higher School in Applied Sciences of Tlemcen, BP 165 RP. Bel Horizon, Tlemcen 13000, Algeria","institution_ids":[]},{"raw_affiliation_string":"Laboratory of Research in Computer Science of Tlemcen LRIT, Tlemcen 13000, Algeria","institution_ids":["https://openalex.org/I233209018"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5104634799","display_name":"Mohamed Merzoug","orcid":null},"institutions":[{"id":"https://openalex.org/I233209018","display_name":"University of Abou Bekr Belka\u00efd","ror":"https://ror.org/00jsjm362","country_code":"DZ","type":"education","lineage":["https://openalex.org/I233209018"]}],"countries":["DZ"],"is_corresponding":false,"raw_author_name":"Mohamed Merzoug","raw_affiliation_strings":["Abu Bekr Belkaid University of Tlemcen, Tlemcen 13000, Algeria","Laboratory of Research in Computer Science of Tlemcen LRIT, Tlemcen 13000, Algeria"],"raw_orcid":"https://orcid.org/0009-0002-9117-047X","affiliations":[{"raw_affiliation_string":"Abu Bekr Belkaid University of Tlemcen, Tlemcen 13000, Algeria","institution_ids":["https://openalex.org/I233209018"]},{"raw_affiliation_string":"Laboratory of Research in Computer Science of Tlemcen LRIT, Tlemcen 13000, Algeria","institution_ids":["https://openalex.org/I233209018"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5082251100","display_name":"Abdelkrim Benamar","orcid":"https://orcid.org/0000-0002-5828-2245"},"institutions":[{"id":"https://openalex.org/I233209018","display_name":"University of Abou Bekr Belka\u00efd","ror":"https://ror.org/00jsjm362","country_code":"DZ","type":"education","lineage":["https://openalex.org/I233209018"]}],"countries":["DZ"],"is_corresponding":false,"raw_author_name":"Abdelkrim Benamar","raw_affiliation_strings":["Abu Bekr Belkaid University of Tlemcen, Tlemcen 13000, Algeria","Laboratory of Research in Computer Science of Tlemcen LRIT, Tlemcen 13000, Algeria"],"raw_orcid":"https://orcid.org/0000-0002-5828-2245","affiliations":[{"raw_affiliation_string":"Abu Bekr Belkaid University of Tlemcen, Tlemcen 13000, Algeria","institution_ids":["https://openalex.org/I233209018"]},{"raw_affiliation_string":"Laboratory of Research in Computer Science of Tlemcen LRIT, Tlemcen 13000, Algeria","institution_ids":["https://openalex.org/I233209018"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":[],"corresponding_institution_ids":["https://openalex.org/I233209018"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.08384757,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":"15","issue":"05","first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.6377999782562256,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.6377999782562256,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12659","display_name":"Innovation Diffusion and Forecasting","score":0.6147000193595886,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},{"id":"https://openalex.org/T11182","display_name":"Auction Theory and Applications","score":0.6018999814987183,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7290829420089722},{"id":"https://openalex.org/keywords/reinforcement","display_name":"Reinforcement","score":0.6520001888275146},{"id":"https://openalex.org/keywords/sense","display_name":"Sense (electronics)","score":0.5627761483192444},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.4394165575504303},{"id":"https://openalex.org/keywords/cognitive-science","display_name":"Cognitive science","score":0.3703817129135132},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.343514621257782},{"id":"https://openalex.org/keywords/psychology","display_name":"Psychology","score":0.256126344203949},{"id":"https://openalex.org/keywords/engineering","display_name":"Engineering","score":0.19836974143981934},{"id":"https://openalex.org/keywords/social-psychology","display_name":"Social psychology","score":0.08764457702636719}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7290829420089722},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.6520001888275146},{"id":"https://openalex.org/C143141573","wikidata":"https://www.wikidata.org/wiki/Q7450971","display_name":"Sense (electronics)","level":2,"score":0.5627761483192444},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.4394165575504303},{"id":"https://openalex.org/C188147891","wikidata":"https://www.wikidata.org/wiki/Q147638","display_name":"Cognitive science","level":1,"score":0.3703817129135132},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.343514621257782},{"id":"https://openalex.org/C15744967","wikidata":"https://www.wikidata.org/wiki/Q9418","display_name":"Psychology","level":0,"score":0.256126344203949},{"id":"https://openalex.org/C127413603","wikidata":"https://www.wikidata.org/wiki/Q11023","display_name":"Engineering","level":0,"score":0.19836974143981934},{"id":"https://openalex.org/C77805123","wikidata":"https://www.wikidata.org/wiki/Q161272","display_name":"Social psychology","level":1,"score":0.08764457702636719},{"id":"https://openalex.org/C119599485","wikidata":"https://www.wikidata.org/wiki/Q43035","display_name":"Electrical engineering","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1142/s1793962324500442","is_oa":false,"landing_page_url":"https://doi.org/10.1142/s1793962324500442","pdf_url":null,"source":{"id":"https://openalex.org/S107361000","display_name":"Advances in Complex Systems","issn_l":"0219-5259","issn":["0219-5259","1793-6802","1793-9615","1793-9623"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310319815","host_organization_name":"World Scientific","host_organization_lineage":["https://openalex.org/P4310319815"],"host_organization_lineage_names":["World Scientific"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"International Journal of Modeling, Simulation, and Scientific Computing","raw_type":"journal-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":24,"referenced_works":["https://openalex.org/W6514950","https://openalex.org/W41554520","https://openalex.org/W1970302770","https://openalex.org/W1981627423","https://openalex.org/W2020149918","https://openalex.org/W2037210683","https://openalex.org/W2043385819","https://openalex.org/W2085679424","https://openalex.org/W2109910161","https://openalex.org/W2110415190","https://openalex.org/W2113122939","https://openalex.org/W2121517924","https://openalex.org/W2122480991","https://openalex.org/W2143958939","https://openalex.org/W2145339207","https://openalex.org/W2207566218","https://openalex.org/W2489939061","https://openalex.org/W2597289420","https://openalex.org/W2598912124","https://openalex.org/W2623293810","https://openalex.org/W2801659523","https://openalex.org/W2904404267","https://openalex.org/W2964227312","https://openalex.org/W3118919584"],"related_works":["https://openalex.org/W2920061524","https://openalex.org/W4310083477","https://openalex.org/W2328553770","https://openalex.org/W1977959518","https://openalex.org/W2038908348","https://openalex.org/W2107890255","https://openalex.org/W2106552856","https://openalex.org/W2145821588","https://openalex.org/W2086122291","https://openalex.org/W1987513656"],"abstract_inverted_index":{"Several":[0],"approaches":[1,46],"have":[2],"been":[3],"proposed":[4],"to":[5,73],"remedy":[6],"the":[7,17,100,103],"dimensionality":[8],"problem":[9,28],"that":[10,81],"reinforcement":[11,20],"learning":[12,21,101],"(RL)":[13],"suffers":[14],"from.":[15],"Among":[16],"solutions,":[18],"hierarchical":[19],"(HRL)":[22],"consists":[23],"of":[24,109],"dividing":[25],"an":[26,57,63,114],"RL":[27,144,147],"into":[29],"sub-problems":[30],"called":[31],"options":[32,40,119],"or":[33,39],"abstract":[34,37],"actions.":[35],"Discovering":[36],"actions":[38],"for":[41,62,89,96,127],"HRL":[42],"is":[43],"challenging,":[44],"multiple":[45],"are":[47,121],"proposed.":[48],"In":[49],"this":[50],"paper,":[51],"we":[52],"present":[53],"a":[54],"new":[55,128],"approach,":[56],"agent":[58,68,104],"with":[59,113,142],"direction":[60,71],"sense":[61,72],"automatic":[64],"option":[65],"discovery.":[66],"Our":[67],"uses":[69,105],"its":[70],"discover":[74],"shortcuts":[75],"and":[76,93,123,135,145,151],"shortest":[77],"paths":[78],"between":[79],"states":[80,95],"he":[82,86],"has":[83],"already":[84],"visited,":[85],"detects":[87],"bottlenecks":[88],"building":[90],"termination":[91],"conditions":[92],"initiation":[94],"options.":[97],"Thus,":[98],"at":[99],"step,":[102],"his":[106],"previous":[107],"experience":[108],"exploration":[110],"in":[111,149],"parallel":[112],"intrinsically":[115],"motivated":[116],"learning.":[117],"The":[118],"discovered":[120],"task-independent":[122],"could":[124],"be":[125],"used":[126],"tasks.":[129],"Experimental":[130],"results":[131,140],"on":[132],"maze":[133],"problems":[134],"Tic-tac-toe":[136],"game":[137],"indicate":[138],"better":[139],"compared":[141],"flat":[143],"another":[146],"approach":[148],"general":[150],"special":[152],"cases.":[153]},"counts_by_year":[],"updated_date":"2026-06-26T08:34:08.712188","created_date":"2025-10-10T00:00:00"}