{"id":"https://openalex.org/W2037601570","doi":"https://doi.org/10.1109/grc.2009.5255163","title":"Adaptive action selection using utility-based reinforcement learning","display_name":"Adaptive action selection using utility-based reinforcement learning","publication_year":2009,"publication_date":"2009-08-01","ids":{"openalex":"https://openalex.org/W2037601570","doi":"https://doi.org/10.1109/grc.2009.5255163","mag":"2037601570"},"language":"en","primary_location":{"id":"doi:10.1109/grc.2009.5255163","is_oa":false,"landing_page_url":"https://doi.org/10.1109/grc.2009.5255163","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2009 IEEE International Conference on Granular Computing","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5087348187","display_name":"Kunrong Chen","orcid":null},"institutions":[{"id":"https://openalex.org/I19820366","display_name":"Chinese Academy of Sciences","ror":"https://ror.org/034t30j35","country_code":"CN","type":"funder","lineage":["https://openalex.org/I19820366"]},{"id":"https://openalex.org/I4210090176","display_name":"Institute of Computing Technology","ror":"https://ror.org/0090r4d87","country_code":"CN","type":"facility","lineage":["https://openalex.org/I19820366","https://openalex.org/I4210090176"]}],"countries":["CN"],"is_corresponding":true,"raw_author_name":"Kunrong Chen","raw_affiliation_strings":["Key Laboratory of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy and Sciences, Beijing, China","The Key Laboratory of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190 China"],"affiliations":[{"raw_affiliation_string":"Key Laboratory of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy and Sciences, Beijing, China","institution_ids":["https://openalex.org/I4210090176"]},{"raw_affiliation_string":"The Key Laboratory of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190 China","institution_ids":["https://openalex.org/I19820366"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5101071867","display_name":"Fen Lin","orcid":null},"institutions":[{"id":"https://openalex.org/I19820366","display_name":"Chinese Academy of Sciences","ror":"https://ror.org/034t30j35","country_code":"CN","type":"funder","lineage":["https://openalex.org/I19820366"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Fen Lin","raw_affiliation_strings":["Chinese Academy of Sciences, Beijing, Beijing, CN","The Key Laboratory of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190 China"],"affiliations":[{"raw_affiliation_string":"Chinese Academy of Sciences, Beijing, Beijing, CN","institution_ids":["https://openalex.org/I19820366"]},{"raw_affiliation_string":"The Key Laboratory of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190 China","institution_ids":["https://openalex.org/I19820366"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5062848285","display_name":"Qing Tan","orcid":"https://orcid.org/0000-0002-6447-2133"},"institutions":[{"id":"https://openalex.org/I19820366","display_name":"Chinese Academy of Sciences","ror":"https://ror.org/034t30j35","country_code":"CN","type":"funder","lineage":["https://openalex.org/I19820366"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Qing Tan","raw_affiliation_strings":["Chinese Academy of Sciences, Beijing, Beijing, CN","The Key Laboratory of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190 China"],"affiliations":[{"raw_affiliation_string":"Chinese Academy of Sciences, Beijing, Beijing, CN","institution_ids":["https://openalex.org/I19820366"]},{"raw_affiliation_string":"The Key Laboratory of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190 China","institution_ids":["https://openalex.org/I19820366"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5075925664","display_name":"Zhongzhi Shi","orcid":"https://orcid.org/0000-0002-3280-1676"},"institutions":[{"id":"https://openalex.org/I4210090176","display_name":"Institute of Computing Technology","ror":"https://ror.org/0090r4d87","country_code":"CN","type":"facility","lineage":["https://openalex.org/I19820366","https://openalex.org/I4210090176"]},{"id":"https://openalex.org/I19820366","display_name":"Chinese Academy of Sciences","ror":"https://ror.org/034t30j35","country_code":"CN","type":"funder","lineage":["https://openalex.org/I19820366"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Zhongzhi Shi","raw_affiliation_strings":["Key Laboratory of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy and Sciences, Beijing, China","The Key Laboratory of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190 China"],"affiliations":[{"raw_affiliation_string":"Key Laboratory of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy and Sciences, Beijing, China","institution_ids":["https://openalex.org/I4210090176"]},{"raw_affiliation_string":"The Key Laboratory of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190 China","institution_ids":["https://openalex.org/I19820366"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":4,"corresponding_author_ids":["https://openalex.org/A5087348187"],"corresponding_institution_ids":["https://openalex.org/I19820366","https://openalex.org/I4210090176"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":6,"citation_normalized_percentile":{"value":0.08930891,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":89,"max":96},"biblio":{"volume":null,"issue":null,"first_page":"67","last_page":"72"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9988999962806702,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9988999962806702,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12288","display_name":"Optimization and Search Problems","score":0.9918000102043152,"subfield":{"id":"https://openalex.org/subfields/1705","display_name":"Computer Networks and Communications"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10586","display_name":"Robotic Path Planning Algorithms","score":0.9905999898910522,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.9427676200866699},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7759624719619751},{"id":"https://openalex.org/keywords/action-selection","display_name":"Action selection","score":0.7394090294837952},{"id":"https://openalex.org/keywords/action","display_name":"Action (physics)","score":0.5932836532592773},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.5809386372566223},{"id":"https://openalex.org/keywords/dilemma","display_name":"Dilemma","score":0.5609533786773682},{"id":"https://openalex.org/keywords/function","display_name":"Function (biology)","score":0.5408828854560852},{"id":"https://openalex.org/keywords/adaptation","display_name":"Adaptation (eye)","score":0.523274302482605},{"id":"https://openalex.org/keywords/selection","display_name":"Selection (genetic algorithm)","score":0.4809812307357788},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.47200489044189453},{"id":"https://openalex.org/keywords/q-learning","display_name":"Q-learning","score":0.4511156380176544},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.07859066128730774}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.9427676200866699},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7759624719619751},{"id":"https://openalex.org/C166109690","wikidata":"https://www.wikidata.org/wiki/Q4677422","display_name":"Action selection","level":3,"score":0.7394090294837952},{"id":"https://openalex.org/C2780791683","wikidata":"https://www.wikidata.org/wiki/Q846785","display_name":"Action (physics)","level":2,"score":0.5932836532592773},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5809386372566223},{"id":"https://openalex.org/C2778496695","wikidata":"https://www.wikidata.org/wiki/Q254128","display_name":"Dilemma","level":2,"score":0.5609533786773682},{"id":"https://openalex.org/C14036430","wikidata":"https://www.wikidata.org/wiki/Q3736076","display_name":"Function (biology)","level":2,"score":0.5408828854560852},{"id":"https://openalex.org/C139807058","wikidata":"https://www.wikidata.org/wiki/Q352374","display_name":"Adaptation (eye)","level":2,"score":0.523274302482605},{"id":"https://openalex.org/C81917197","wikidata":"https://www.wikidata.org/wiki/Q628760","display_name":"Selection (genetic algorithm)","level":2,"score":0.4809812307357788},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.47200489044189453},{"id":"https://openalex.org/C188116033","wikidata":"https://www.wikidata.org/wiki/Q2664563","display_name":"Q-learning","level":3,"score":0.4511156380176544},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.07859066128730774},{"id":"https://openalex.org/C62520636","wikidata":"https://www.wikidata.org/wiki/Q944","display_name":"Quantum mechanics","level":1,"score":0.0},{"id":"https://openalex.org/C169760540","wikidata":"https://www.wikidata.org/wiki/Q207011","display_name":"Neuroscience","level":1,"score":0.0},{"id":"https://openalex.org/C2524010","wikidata":"https://www.wikidata.org/wiki/Q8087","display_name":"Geometry","level":1,"score":0.0},{"id":"https://openalex.org/C121332964","wikidata":"https://www.wikidata.org/wiki/Q413","display_name":"Physics","level":0,"score":0.0},{"id":"https://openalex.org/C78458016","wikidata":"https://www.wikidata.org/wiki/Q840400","display_name":"Evolutionary biology","level":1,"score":0.0},{"id":"https://openalex.org/C86803240","wikidata":"https://www.wikidata.org/wiki/Q420","display_name":"Biology","level":0,"score":0.0},{"id":"https://openalex.org/C120665830","wikidata":"https://www.wikidata.org/wiki/Q14620","display_name":"Optics","level":1,"score":0.0},{"id":"https://openalex.org/C26760741","wikidata":"https://www.wikidata.org/wiki/Q160402","display_name":"Perception","level":2,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/grc.2009.5255163","is_oa":false,"landing_page_url":"https://doi.org/10.1109/grc.2009.5255163","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2009 IEEE International Conference on Granular Computing","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":12,"referenced_works":["https://openalex.org/W29099680","https://openalex.org/W32403112","https://openalex.org/W1480676279","https://openalex.org/W1491843047","https://openalex.org/W1969264857","https://openalex.org/W2095487261","https://openalex.org/W2110219867","https://openalex.org/W2117495877","https://openalex.org/W2165792602","https://openalex.org/W2172264025","https://openalex.org/W6601161420","https://openalex.org/W6684499351"],"related_works":["https://openalex.org/W2015051472","https://openalex.org/W2168501056","https://openalex.org/W2120009678","https://openalex.org/W3096874164","https://openalex.org/W2166117066","https://openalex.org/W2357975469","https://openalex.org/W2136202932","https://openalex.org/W3087814763","https://openalex.org/W2037601570","https://openalex.org/W2912947802"],"abstract_inverted_index":{"A":[0],"basic":[1],"problem":[2,64],"of":[3,21,78,103],"intelligent":[4],"systems":[5],"is":[6,83,112],"choosing":[7],"adaptive":[8],"action":[9,62],"to":[10,17,30,39,47,59,85],"perform":[11,48],"in":[12,35,49,97],"a":[13,98],"non-stationary":[14,99],"environment.":[15,100],"Due":[16],"the":[18,76],"combinatorial":[19],"complexity":[20],"actions,":[22],"agent":[23],"cannot":[24],"possibly":[25],"consider":[26],"every":[27,33],"option":[28],"available":[29],"it":[31],"at":[32],"instant":[34],"time.":[36],"It":[37],"needs":[38],"find":[40],"good":[41],"policies":[42],"that":[43,107],"dictate":[44],"optimum":[45],"actions":[46],"each":[50],"situation.":[51],"This":[52],"paper":[53],"proposes":[54],"an":[55],"algorithm,":[56],"called":[57],"UQ-learning,":[58],"better":[60],"solve":[61],"selection":[63],"by":[65],"using":[66],"reinforcement":[67,109],"learning":[68,73,110],"and":[69,80,115,120],"utility":[70,81],"function.":[71],"Reinforcement":[72],"can":[74],"provide":[75],"information":[77],"environment":[79],"function":[82],"used":[84],"balance":[86],"exploration-exploitation":[87],"dilemma.":[88],"We":[89],"implement":[90],"our":[91],"method":[92],"with":[93,118],"maze":[94],"navigation":[95],"tasks":[96],"The":[101],"results":[102],"simulated":[104],"experiments":[105],"show":[106],"utility-based":[108],"approach":[111],"more":[113],"effective":[114],"efficient":[116],"compared":[117],"Q-learning":[119],"recency-based":[121],"exploration.":[122]},"counts_by_year":[{"year":2021,"cited_by_count":1},{"year":2018,"cited_by_count":2},{"year":2015,"cited_by_count":2}],"updated_date":"2025-11-06T03:46:38.306776","created_date":"2025-10-10T00:00:00"}