{"id":"https://openalex.org/W3090876870","doi":"https://doi.org/10.1109/ijcnn48605.2020.9206917","title":"Effective Deep Reinforcement Learning Setups for Multiple Goals on Visual Navigation","display_name":"Effective Deep Reinforcement Learning Setups for Multiple Goals on Visual Navigation","publication_year":2020,"publication_date":"2020-07-01","ids":{"openalex":"https://openalex.org/W3090876870","doi":"https://doi.org/10.1109/ijcnn48605.2020.9206917","mag":"3090876870"},"language":"en","primary_location":{"id":"doi:10.1109/ijcnn48605.2020.9206917","is_oa":false,"landing_page_url":"https://doi.org/10.1109/ijcnn48605.2020.9206917","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2020 International Joint Conference on Neural Networks (IJCNN)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5011372045","display_name":"Luiz Ricardo Takeshi Horita","orcid":null},"institutions":[{"id":"https://openalex.org/I17974374","display_name":"Universidade de S\u00e3o Paulo","ror":"https://ror.org/036rp1748","country_code":"BR","type":"education","lineage":["https://openalex.org/I17974374"]}],"countries":["BR"],"is_corresponding":true,"raw_author_name":"Luiz Ricardo Takeshi Horita","raw_affiliation_strings":["Sidia Institute of Science and Technology, S\u00e3o Carlos, SP, Brazil","University of S\u00e3o Paulo, S\u00e3o Carlos, SP, Brazil"],"affiliations":[{"raw_affiliation_string":"Sidia Institute of Science and Technology, S\u00e3o Carlos, SP, Brazil","institution_ids":[]},{"raw_affiliation_string":"University of S\u00e3o Paulo, S\u00e3o Carlos, SP, Brazil","institution_ids":["https://openalex.org/I17974374"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5047424364","display_name":"Denis F. Wolf","orcid":"https://orcid.org/0000-0003-1485-5686"},"institutions":[{"id":"https://openalex.org/I17974374","display_name":"Universidade de S\u00e3o Paulo","ror":"https://ror.org/036rp1748","country_code":"BR","type":"education","lineage":["https://openalex.org/I17974374"]}],"countries":["BR"],"is_corresponding":false,"raw_author_name":"Denis Fernando Wolf","raw_affiliation_strings":["University of S\u00e3o Paulo, S\u00e3o Carlos, SP, Brazil"],"affiliations":[{"raw_affiliation_string":"University of S\u00e3o Paulo, S\u00e3o Carlos, SP, Brazil","institution_ids":["https://openalex.org/I17974374"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5009669213","display_name":"Valdir Grassi","orcid":"https://orcid.org/0000-0001-6753-139X"},"institutions":[{"id":"https://openalex.org/I17974374","display_name":"Universidade de S\u00e3o Paulo","ror":"https://ror.org/036rp1748","country_code":"BR","type":"education","lineage":["https://openalex.org/I17974374"]}],"countries":["BR"],"is_corresponding":false,"raw_author_name":"Valdir Grassi Junior","raw_affiliation_strings":["University of S\u00e3o Paulo, S\u00e3o Carlos, SP, Brazil"],"affiliations":[{"raw_affiliation_string":"University of S\u00e3o Paulo, S\u00e3o Carlos, SP, Brazil","institution_ids":["https://openalex.org/I17974374"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5011372045"],"corresponding_institution_ids":["https://openalex.org/I17974374"],"apc_list":null,"apc_paid":null,"fwci":0.2651,"has_fulltext":false,"cited_by_count":4,"citation_normalized_percentile":{"value":0.63606567,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":89,"max":95},"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"8"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9979000091552734,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9979000091552734,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.9969000220298767,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11605","display_name":"Visual Attention and Saliency Detection","score":0.9968000054359436,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7833776473999023},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7534292936325073},{"id":"https://openalex.org/keywords/categorical-variable","display_name":"Categorical variable","score":0.5881447792053223},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.5844615697860718},{"id":"https://openalex.org/keywords/convergence","display_name":"Convergence (economics)","score":0.5002105236053467},{"id":"https://openalex.org/keywords/function","display_name":"Function (biology)","score":0.47319480776786804},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.4149664640426636}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7833776473999023},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7534292936325073},{"id":"https://openalex.org/C5274069","wikidata":"https://www.wikidata.org/wiki/Q2285707","display_name":"Categorical variable","level":2,"score":0.5881447792053223},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5844615697860718},{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.5002105236053467},{"id":"https://openalex.org/C14036430","wikidata":"https://www.wikidata.org/wiki/Q3736076","display_name":"Function (biology)","level":2,"score":0.47319480776786804},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.4149664640426636},{"id":"https://openalex.org/C86803240","wikidata":"https://www.wikidata.org/wiki/Q420","display_name":"Biology","level":0,"score":0.0},{"id":"https://openalex.org/C162324750","wikidata":"https://www.wikidata.org/wiki/Q8134","display_name":"Economics","level":0,"score":0.0},{"id":"https://openalex.org/C78458016","wikidata":"https://www.wikidata.org/wiki/Q840400","display_name":"Evolutionary biology","level":1,"score":0.0},{"id":"https://openalex.org/C50522688","wikidata":"https://www.wikidata.org/wiki/Q189833","display_name":"Economic growth","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/ijcnn48605.2020.9206917","is_oa":false,"landing_page_url":"https://doi.org/10.1109/ijcnn48605.2020.9206917","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2020 International Joint Conference on Neural Networks (IJCNN)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[{"score":0.4000000059604645,"display_name":"Partnerships for the goals","id":"https://metadata.un.org/sdg/17"}],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":38,"referenced_works":["https://openalex.org/W16011919","https://openalex.org/W567721252","https://openalex.org/W1594201624","https://openalex.org/W1771410628","https://openalex.org/W2041367235","https://openalex.org/W2095487261","https://openalex.org/W2107726111","https://openalex.org/W2114329019","https://openalex.org/W2515498963","https://openalex.org/W2636355936","https://openalex.org/W2750219298","https://openalex.org/W2789214634","https://openalex.org/W2882977163","https://openalex.org/W2886380293","https://openalex.org/W2962867954","https://openalex.org/W2962887844","https://openalex.org/W2963095800","https://openalex.org/W2963344337","https://openalex.org/W2963428623","https://openalex.org/W2963867315","https://openalex.org/W2963946945","https://openalex.org/W2964001908","https://openalex.org/W2964043796","https://openalex.org/W2964084698","https://openalex.org/W4295719664","https://openalex.org/W4300799055","https://openalex.org/W6616173779","https://openalex.org/W6635701881","https://openalex.org/W6638018090","https://openalex.org/W6692846177","https://openalex.org/W6716577220","https://openalex.org/W6730111887","https://openalex.org/W6739903437","https://openalex.org/W6740801417","https://openalex.org/W6745935785","https://openalex.org/W6750106230","https://openalex.org/W6752960315","https://openalex.org/W6753938571"],"related_works":["https://openalex.org/W4386799044","https://openalex.org/W2773208253","https://openalex.org/W2560646951","https://openalex.org/W4297454206","https://openalex.org/W65104662","https://openalex.org/W1871748041","https://openalex.org/W2362286668","https://openalex.org/W2133382151","https://openalex.org/W2153339597","https://openalex.org/W1528412344"],"abstract_inverted_index":{"Deep":[0],"Reinforcement":[1],"Learning":[2],"(DRL)":[3],"represents":[4],"an":[5],"interesting":[6],"class":[7],"of":[8,29,83,106,156,184],"algorithms,":[9],"since":[10],"its":[11],"objective":[12],"is":[13,37,54,97],"to":[14,40,56,71,212,223],"learn":[15,57,72],"a":[16,43,62,69,73,136],"behavioral":[17],"policy":[18,75,210],"through":[19,174,190],"interaction":[20],"with":[21,42],"the":[22,25,80,84,87,104,107,111,119,123,127,142,145,166,185,197,208,217,221],"environment,":[23],"leveraging":[24],"function":[26],"approximation":[27],"properties":[28],"neural":[30],"net-works.":[31],"Nonetheless,":[32],"for":[33,100,130,158,177],"episodic":[34],"problems,":[35],"it":[36,53],"usually":[38],"modeled":[39],"deal":[41],"unique":[44],"goal.":[45,88],"In":[46],"this":[47,114],"sense,":[48],"some":[49],"works":[50],"showed":[51],"that":[52,95,207],"possible":[55],"multiple":[58],"goals":[59],"when":[60],"using":[61,118],"Universal":[63],"Value":[64],"Function":[65],"Approximator":[66],"(UVFA),":[67],"i.e.":[68],"method":[70],"universal":[74],"by":[76],"taking":[77],"information":[78,109,183],"about":[79],"current":[81,186],"state":[82],"agent":[85],"and":[86,144,162,187],"Their":[89],"results":[90],"are":[91],"promising":[92],"but":[93],"show":[94,206],"there":[96],"still":[98],"space":[99],"new":[101],"contributions":[102],"regarding":[103],"integration":[105],"goal":[108,188],"into":[110],"model.":[112],"For":[113],"reason,":[115],"we":[116,134,172,204],"propose":[117,135],"Hadamard":[120,191],"product":[121,192],"or":[122,164,193],"Gated-Attention":[124,194],"module":[125,195],"in":[126],"UVFA":[128,157],"architecture":[129],"visual-based":[131],"problems.":[132],"Also,":[133,203],"hybrid":[137],"exploration":[138,160],"strategy":[139],"based":[140],"on":[141],"\u03b5-greedy":[143],"categorical":[146],"probability":[147],"distribution,":[148],"namely":[149],"\u03b5-categorical.":[150],"By":[151],"systematically":[152],"comparing":[153],"different":[154,159],"architectures":[155],"strategies,":[161],"applying":[163],"not":[165],"Trust":[167],"Region":[168],"Policy":[169],"Optimization":[170],"(TRPO),":[171],"demonstrate":[173],"experiments":[175],"that,":[176],"visual":[178,182],"topologic":[179],"navigation,":[180],"combining":[181],"states":[189],"allows":[196],"network":[198],"learning":[199],"near-optimal":[200],"navigation":[201],"policies.":[202],"empirically":[205],"\u03b5-categorical":[209],"helps":[211],"avoid":[213],"local":[214],"minimums":[215],"during":[216],"training,":[218],"which":[219],"facilitates":[220],"convergence":[222],"better":[224],"results.":[225]},"counts_by_year":[{"year":2025,"cited_by_count":1},{"year":2024,"cited_by_count":1},{"year":2022,"cited_by_count":1},{"year":2021,"cited_by_count":1}],"updated_date":"2025-11-06T03:46:38.306776","created_date":"2025-10-10T00:00:00"}