{"id":"https://openalex.org/W3035155163","doi":"https://doi.org/10.1109/icme46284.2020.9102959","title":"Directed Exploration Via Learnable Probability Distribution For Random Action Selection","display_name":"Directed Exploration Via Learnable Probability Distribution For Random Action Selection","publication_year":2020,"publication_date":"2020-06-09","ids":{"openalex":"https://openalex.org/W3035155163","doi":"https://doi.org/10.1109/icme46284.2020.9102959","mag":"3035155163"},"language":"en","primary_location":{"id":"doi:10.1109/icme46284.2020.9102959","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icme46284.2020.9102959","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2020 IEEE International Conference on Multimedia and Expo (ICME)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5072314554","display_name":"Petros Giannakopoulos","orcid":"https://orcid.org/0000-0002-0644-6535"},"institutions":[{"id":"https://openalex.org/I200777214","display_name":"National and Kapodistrian University of Athens","ror":"https://ror.org/04gnjpq42","country_code":"GR","type":"education","lineage":["https://openalex.org/I200777214"]}],"countries":["GR"],"is_corresponding":true,"raw_author_name":"Petros Giannakopoulos","raw_affiliation_strings":["National and Kapodistrian University of Athens"],"affiliations":[{"raw_affiliation_string":"National and Kapodistrian University of Athens","institution_ids":["https://openalex.org/I200777214"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5078107720","display_name":"Aggelos Pikrakis","orcid":"https://orcid.org/0000-0001-7355-327X"},"institutions":[{"id":"https://openalex.org/I154757721","display_name":"University of Piraeus","ror":"https://ror.org/02qs84g94","country_code":"GR","type":"education","lineage":["https://openalex.org/I154757721"]}],"countries":["GR"],"is_corresponding":false,"raw_author_name":"Aggelos Pikrakis","raw_affiliation_strings":["University of Pireaus"],"affiliations":[{"raw_affiliation_string":"University of Pireaus","institution_ids":["https://openalex.org/I154757721"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5110933306","display_name":"Yannis Cotronis","orcid":null},"institutions":[{"id":"https://openalex.org/I200777214","display_name":"National and Kapodistrian University of Athens","ror":"https://ror.org/04gnjpq42","country_code":"GR","type":"education","lineage":["https://openalex.org/I200777214"]}],"countries":["GR"],"is_corresponding":false,"raw_author_name":"Yannis Cotronis","raw_affiliation_strings":["National and Kapodistrian University of Athens"],"affiliations":[{"raw_affiliation_string":"National and Kapodistrian University of Athens","institution_ids":["https://openalex.org/I200777214"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5072314554"],"corresponding_institution_ids":["https://openalex.org/I200777214"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.0622521,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":"4","issue":null,"first_page":"1","last_page":"6"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9998999834060669,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9998999834060669,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11307","display_name":"Domain Adaptation and Few-Shot Learning","score":0.9984999895095825,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12101","display_name":"Advanced Bandit Algorithms Research","score":0.9975000023841858,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.6762514710426331},{"id":"https://openalex.org/keywords/action-selection","display_name":"Action selection","score":0.6743688583374023},{"id":"https://openalex.org/keywords/probability-distribution","display_name":"Probability distribution","score":0.6453844904899597},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.5679033994674683},{"id":"https://openalex.org/keywords/action","display_name":"Action (physics)","score":0.5566728115081787},{"id":"https://openalex.org/keywords/greedy-algorithm","display_name":"Greedy algorithm","score":0.5455065369606018},{"id":"https://openalex.org/keywords/softmax-function","display_name":"Softmax function","score":0.5350317358970642},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.520345151424408},{"id":"https://openalex.org/keywords/selection","display_name":"Selection (genetic algorithm)","score":0.5140732526779175},{"id":"https://openalex.org/keywords/mathematical-optimization","display_name":"Mathematical optimization","score":0.4246067702770233},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.37461620569229126},{"id":"https://openalex.org/keywords/algorithm","display_name":"Algorithm","score":0.278242826461792},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.23286014795303345},{"id":"https://openalex.org/keywords/deep-learning","display_name":"Deep learning","score":0.09760782122612},{"id":"https://openalex.org/keywords/statistics","display_name":"Statistics","score":0.08195436000823975}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6762514710426331},{"id":"https://openalex.org/C166109690","wikidata":"https://www.wikidata.org/wiki/Q4677422","display_name":"Action selection","level":3,"score":0.6743688583374023},{"id":"https://openalex.org/C149441793","wikidata":"https://www.wikidata.org/wiki/Q200726","display_name":"Probability distribution","level":2,"score":0.6453844904899597},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.5679033994674683},{"id":"https://openalex.org/C2780791683","wikidata":"https://www.wikidata.org/wiki/Q846785","display_name":"Action (physics)","level":2,"score":0.5566728115081787},{"id":"https://openalex.org/C51823790","wikidata":"https://www.wikidata.org/wiki/Q504353","display_name":"Greedy algorithm","level":2,"score":0.5455065369606018},{"id":"https://openalex.org/C188441871","wikidata":"https://www.wikidata.org/wiki/Q7554146","display_name":"Softmax function","level":3,"score":0.5350317358970642},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.520345151424408},{"id":"https://openalex.org/C81917197","wikidata":"https://www.wikidata.org/wiki/Q628760","display_name":"Selection (genetic algorithm)","level":2,"score":0.5140732526779175},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.4246067702770233},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.37461620569229126},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.278242826461792},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.23286014795303345},{"id":"https://openalex.org/C108583219","wikidata":"https://www.wikidata.org/wiki/Q197536","display_name":"Deep learning","level":2,"score":0.09760782122612},{"id":"https://openalex.org/C105795698","wikidata":"https://www.wikidata.org/wiki/Q12483","display_name":"Statistics","level":1,"score":0.08195436000823975},{"id":"https://openalex.org/C86803240","wikidata":"https://www.wikidata.org/wiki/Q420","display_name":"Biology","level":0,"score":0.0},{"id":"https://openalex.org/C121332964","wikidata":"https://www.wikidata.org/wiki/Q413","display_name":"Physics","level":0,"score":0.0},{"id":"https://openalex.org/C26760741","wikidata":"https://www.wikidata.org/wiki/Q160402","display_name":"Perception","level":2,"score":0.0},{"id":"https://openalex.org/C169760540","wikidata":"https://www.wikidata.org/wiki/Q207011","display_name":"Neuroscience","level":1,"score":0.0},{"id":"https://openalex.org/C62520636","wikidata":"https://www.wikidata.org/wiki/Q944","display_name":"Quantum mechanics","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/icme46284.2020.9102959","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icme46284.2020.9102959","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2020 IEEE International Conference on Multimedia and Expo (ICME)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":49,"referenced_works":["https://openalex.org/W41554520","https://openalex.org/W135283623","https://openalex.org/W779494576","https://openalex.org/W1863227302","https://openalex.org/W1882958252","https://openalex.org/W2061868368","https://openalex.org/W2064675550","https://openalex.org/W2099044475","https://openalex.org/W2099471712","https://openalex.org/W2116459397","https://openalex.org/W2121092017","https://openalex.org/W2139612737","https://openalex.org/W2145339207","https://openalex.org/W2155968351","https://openalex.org/W2160589914","https://openalex.org/W2167489871","https://openalex.org/W2173520492","https://openalex.org/W2293667215","https://openalex.org/W2417786368","https://openalex.org/W2480004914","https://openalex.org/W2596982695","https://openalex.org/W2614839826","https://openalex.org/W2620974420","https://openalex.org/W2746553466","https://openalex.org/W2779977383","https://openalex.org/W2811046100","https://openalex.org/W2917052767","https://openalex.org/W2962730405","https://openalex.org/W2962938178","https://openalex.org/W2963160877","https://openalex.org/W2963276097","https://openalex.org/W2963523627","https://openalex.org/W2963684088","https://openalex.org/W2963790038","https://openalex.org/W2963826681","https://openalex.org/W4289776771","https://openalex.org/W4320013936","https://openalex.org/W6622487243","https://openalex.org/W6639480849","https://openalex.org/W6677939520","https://openalex.org/W6683436435","https://openalex.org/W6685352114","https://openalex.org/W6685757253","https://openalex.org/W6717230150","https://openalex.org/W6721634521","https://openalex.org/W6735033012","https://openalex.org/W6747092830","https://openalex.org/W6752884272","https://openalex.org/W6759643050"],"related_works":["https://openalex.org/W3183948672","https://openalex.org/W3173606202","https://openalex.org/W1531601525","https://openalex.org/W2015051472","https://openalex.org/W2168501056","https://openalex.org/W2120009678","https://openalex.org/W2037601570","https://openalex.org/W2912947802","https://openalex.org/W2123856982","https://openalex.org/W1950622696"],"abstract_inverted_index":{"We":[0,147],"propose":[1],"a":[2,23,34,114],"method":[3,150],"for":[4,52,136],"optimizing":[5],"the":[6,11,57,67,79,89,93,97,104,108,145,169],"random":[7,54,120],"action":[8,133],"selection":[9],"of":[10,19,84,99,144,171],"\u03b5-greedy":[12,29,161,178],"policy":[13,30,162],"to":[14,43,61,63,113,130,140],"facilitate":[15,141],"more":[16,41],"efficient":[17,165],"exploration":[18,143,167,181,183],"an":[20,124,164],"environment":[21,86],"by":[22,78],"reinforcement":[24],"learning":[25],"agent.":[26],"Our":[27],"directed":[28,142,160],"selects":[31],"actions":[32,39,55,64],"with":[33],"biased":[35],"probability":[36,49,117,134],"where":[37],"some":[38],"are":[40],"likely":[42],"be":[44],"selected":[45],"than":[46],"others.":[47],"The":[48,73,159],"distribution":[50],"used":[51],"selecting":[53],"is":[56,76],"one":[58],"that":[59],"tends":[60],"lead":[62],"which":[65,128],"increase":[66],"agent's":[68,74],"uncertainty":[69,75],"about":[70],"its":[71],"environment.":[72,146],"measured":[77],"error":[80],"in":[81,151],"self-supervised":[82],"prediction":[83],"future":[85,109],"states":[87,95],"at":[88],"pixel":[90],"level,":[91],"given":[92],"previous":[94],"and":[96,155,182],"probabilities":[98],"next":[100],"actions.":[101],"By":[102],"propagating":[103],"reverse":[105],"gradient":[106],"from":[107,119],"state":[110],"predictor":[111],"model":[112,115,127],"generating":[116],"distributions":[118,135],"noise":[121],"we":[122],"create":[123],"end-to-end":[125],"trainable":[126],"learns":[129],"generate":[131],"such":[132],"\u03b5-greedy,":[137],"so":[138],"as":[139],"evaluate":[148],"our":[149],"two":[152],"environments:":[153],"Minecraft":[154],"Super":[156],"Mario":[157],"Bros.":[158],"achieves":[163],"curiosity-driven":[166],"without":[168],"use":[170],"any":[172],"intrinsic":[173,185],"reward":[174],"function,":[175],"outperforming":[176],"vanilla":[177],"exploration,":[179],"softmax":[180],"using":[184],"rewards.":[186]},"counts_by_year":[],"updated_date":"2025-11-06T03:46:38.306776","created_date":"2025-10-10T00:00:00"}