{"id":"https://openalex.org/W1634056896","doi":"https://doi.org/10.1109/ijcnn.2015.7280437","title":"Online reinforcement learning by Bayesian inference","display_name":"Online reinforcement learning by Bayesian inference","publication_year":2015,"publication_date":"2015-07-01","ids":{"openalex":"https://openalex.org/W1634056896","doi":"https://doi.org/10.1109/ijcnn.2015.7280437","mag":"1634056896"},"language":"en","primary_location":{"id":"doi:10.1109/ijcnn.2015.7280437","is_oa":false,"landing_page_url":"https://doi.org/10.1109/ijcnn.2015.7280437","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2015 International Joint Conference on Neural Networks (IJCNN)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5065256108","display_name":"Zhongpu Xia","orcid":"https://orcid.org/0009-0003-4251-6849"},"institutions":[{"id":"https://openalex.org/I4210112150","display_name":"Institute of Automation","ror":"https://ror.org/022c3hy66","country_code":"CN","type":"facility","lineage":["https://openalex.org/I19820366","https://openalex.org/I4210112150"]},{"id":"https://openalex.org/I19820366","display_name":"Chinese Academy of Sciences","ror":"https://ror.org/034t30j35","country_code":"CN","type":"funder","lineage":["https://openalex.org/I19820366"]}],"countries":["CN"],"is_corresponding":true,"raw_author_name":"Zhongpu Xia","raw_affiliation_strings":["The State Key Laboratory of Management and Control of Complex Systems, Chinese Academy of Sciences, Beijing, China","The State Key Laboratory of Management and Control of Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China"],"affiliations":[{"raw_affiliation_string":"The State Key Laboratory of Management and Control of Complex Systems, Chinese Academy of Sciences, Beijing, China","institution_ids":["https://openalex.org/I19820366"]},{"raw_affiliation_string":"The State Key Laboratory of Management and Control of Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China","institution_ids":["https://openalex.org/I4210112150","https://openalex.org/I19820366"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5100624298","display_name":"Dongbin Zhao","orcid":"https://orcid.org/0000-0001-8218-9633"},"institutions":[{"id":"https://openalex.org/I19820366","display_name":"Chinese Academy of Sciences","ror":"https://ror.org/034t30j35","country_code":"CN","type":"funder","lineage":["https://openalex.org/I19820366"]},{"id":"https://openalex.org/I4210112150","display_name":"Institute of Automation","ror":"https://ror.org/022c3hy66","country_code":"CN","type":"facility","lineage":["https://openalex.org/I19820366","https://openalex.org/I4210112150"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Dongbin Zhao","raw_affiliation_strings":["The State Key Laboratory of Management and Control of Complex Systems, Chinese Academy of Sciences, Beijing, China","The State Key Laboratory of Management and Control of Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China"],"affiliations":[{"raw_affiliation_string":"The State Key Laboratory of Management and Control of Complex Systems, Chinese Academy of Sciences, Beijing, China","institution_ids":["https://openalex.org/I19820366"]},{"raw_affiliation_string":"The State Key Laboratory of Management and Control of Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China","institution_ids":["https://openalex.org/I4210112150","https://openalex.org/I19820366"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":["https://openalex.org/A5065256108"],"corresponding_institution_ids":["https://openalex.org/I19820366","https://openalex.org/I4210112150"],"apc_list":null,"apc_paid":null,"fwci":1.7526,"has_fulltext":false,"cited_by_count":12,"citation_normalized_percentile":{"value":0.84681033,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":89,"max":97},"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"6"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T12794","display_name":"Adaptive Dynamic Programming Control","score":0.9988999962806702,"subfield":{"id":"https://openalex.org/subfields/1703","display_name":"Computational Theory and Mathematics"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T12794","display_name":"Adaptive Dynamic Programming Control","score":0.9988999962806702,"subfield":{"id":"https://openalex.org/subfields/1703","display_name":"Computational Theory and Mathematics"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9986000061035156,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10603","display_name":"Smart Grid Energy Management","score":0.9868999719619751,"subfield":{"id":"https://openalex.org/subfields/2208","display_name":"Electrical and Electronic Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.8432087898254395},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.687475323677063},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.6553084254264832},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.6308072805404663},{"id":"https://openalex.org/keywords/temporal-difference-learning","display_name":"Temporal difference learning","score":0.5596727132797241},{"id":"https://openalex.org/keywords/inference","display_name":"Inference","score":0.5532415509223938},{"id":"https://openalex.org/keywords/bayesian-inference","display_name":"Bayesian inference","score":0.5433668494224548},{"id":"https://openalex.org/keywords/bayesian-probability","display_name":"Bayesian probability","score":0.5344398021697998},{"id":"https://openalex.org/keywords/action-selection","display_name":"Action selection","score":0.5115581154823303},{"id":"https://openalex.org/keywords/benchmark","display_name":"Benchmark (surveying)","score":0.4806893765926361},{"id":"https://openalex.org/keywords/gaussian-process","display_name":"Gaussian process","score":0.4695846438407898},{"id":"https://openalex.org/keywords/bellman-equation","display_name":"Bellman equation","score":0.43202993273735046},{"id":"https://openalex.org/keywords/mathematical-optimization","display_name":"Mathematical optimization","score":0.24810555577278137},{"id":"https://openalex.org/keywords/gaussian","display_name":"Gaussian","score":0.23203080892562866},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.1727396547794342}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.8432087898254395},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.687475323677063},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6553084254264832},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.6308072805404663},{"id":"https://openalex.org/C196340769","wikidata":"https://www.wikidata.org/wiki/Q7698910","display_name":"Temporal difference learning","level":3,"score":0.5596727132797241},{"id":"https://openalex.org/C2776214188","wikidata":"https://www.wikidata.org/wiki/Q408386","display_name":"Inference","level":2,"score":0.5532415509223938},{"id":"https://openalex.org/C160234255","wikidata":"https://www.wikidata.org/wiki/Q812535","display_name":"Bayesian inference","level":3,"score":0.5433668494224548},{"id":"https://openalex.org/C107673813","wikidata":"https://www.wikidata.org/wiki/Q812534","display_name":"Bayesian probability","level":2,"score":0.5344398021697998},{"id":"https://openalex.org/C166109690","wikidata":"https://www.wikidata.org/wiki/Q4677422","display_name":"Action selection","level":3,"score":0.5115581154823303},{"id":"https://openalex.org/C185798385","wikidata":"https://www.wikidata.org/wiki/Q1161707","display_name":"Benchmark (surveying)","level":2,"score":0.4806893765926361},{"id":"https://openalex.org/C61326573","wikidata":"https://www.wikidata.org/wiki/Q1496376","display_name":"Gaussian process","level":3,"score":0.4695846438407898},{"id":"https://openalex.org/C14646407","wikidata":"https://www.wikidata.org/wiki/Q1430750","display_name":"Bellman equation","level":2,"score":0.43202993273735046},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.24810555577278137},{"id":"https://openalex.org/C163716315","wikidata":"https://www.wikidata.org/wiki/Q901177","display_name":"Gaussian","level":2,"score":0.23203080892562866},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.1727396547794342},{"id":"https://openalex.org/C62520636","wikidata":"https://www.wikidata.org/wiki/Q944","display_name":"Quantum mechanics","level":1,"score":0.0},{"id":"https://openalex.org/C205649164","wikidata":"https://www.wikidata.org/wiki/Q1071","display_name":"Geography","level":0,"score":0.0},{"id":"https://openalex.org/C86803240","wikidata":"https://www.wikidata.org/wiki/Q420","display_name":"Biology","level":0,"score":0.0},{"id":"https://openalex.org/C169760540","wikidata":"https://www.wikidata.org/wiki/Q207011","display_name":"Neuroscience","level":1,"score":0.0},{"id":"https://openalex.org/C121332964","wikidata":"https://www.wikidata.org/wiki/Q413","display_name":"Physics","level":0,"score":0.0},{"id":"https://openalex.org/C13280743","wikidata":"https://www.wikidata.org/wiki/Q131089","display_name":"Geodesy","level":1,"score":0.0},{"id":"https://openalex.org/C26760741","wikidata":"https://www.wikidata.org/wiki/Q160402","display_name":"Perception","level":2,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/ijcnn.2015.7280437","is_oa":false,"landing_page_url":"https://doi.org/10.1109/ijcnn.2015.7280437","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2015 International Joint Conference on Neural Networks (IJCNN)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[{"display_name":"Peace, Justice and strong institutions","id":"https://metadata.un.org/sdg/16","score":0.6000000238418579}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":32,"referenced_works":["https://openalex.org/W1597303641","https://openalex.org/W1999678919","https://openalex.org/W2024162902","https://openalex.org/W2029462142","https://openalex.org/W2050838777","https://openalex.org/W2052688942","https://openalex.org/W2084202551","https://openalex.org/W2117056304","https://openalex.org/W2121703796","https://openalex.org/W2124175081","https://openalex.org/W2128920470","https://openalex.org/W2134540127","https://openalex.org/W2151268438","https://openalex.org/W2153290280","https://openalex.org/W2156974606","https://openalex.org/W2159571856","https://openalex.org/W2165726932","https://openalex.org/W2179284380","https://openalex.org/W2586680856","https://openalex.org/W4211049957","https://openalex.org/W4214717370","https://openalex.org/W4245296547","https://openalex.org/W4285719527","https://openalex.org/W6635767209","https://openalex.org/W6656547946","https://openalex.org/W6657898649","https://openalex.org/W6663596635","https://openalex.org/W6677984395","https://openalex.org/W6678114464","https://openalex.org/W6679401659","https://openalex.org/W6679938571","https://openalex.org/W7066478640"],"related_works":["https://openalex.org/W2149418961","https://openalex.org/W4308702637","https://openalex.org/W4386246817","https://openalex.org/W4256087190","https://openalex.org/W4240668504","https://openalex.org/W2183243664","https://openalex.org/W2100100236","https://openalex.org/W3038962357","https://openalex.org/W2971484784","https://openalex.org/W4214574858"],"abstract_inverted_index":{"Policy":[0],"evaluation":[1,100],"has":[2],"long":[3],"been":[4],"one":[5],"of":[6,10,93],"the":[7,11,17,24,34,39,44,50,70,86,91,98,103,127],"core":[8],"issues":[9],"online":[12,111],"reinforcement":[13,112],"learning,":[14],"especially":[15],"in":[16],"continuous":[18],"state":[19,63],"domain.":[20],"In":[21],"this":[22],"paper,":[23],"issue":[25],"is":[26,79,120],"addressed":[27],"by":[28,66,90],"employing":[29],"Gaussian":[30],"processes":[31],"to":[32,58,117],"represent":[33],"action":[35,51,105],"value":[36,52],"function":[37,53],"from":[38],"probability":[40],"perspective.":[41],"By":[42],"modeling":[43],"return":[45],"as":[46,62,116],"a":[47,80,94],"stochastic":[48],"variable,":[49],"can":[54],"sequentially":[55],"update":[56,74],"according":[57],"observed":[59],"variables":[60],"such":[61],"and":[64,126],"reward":[65],"Bayesian":[67],"inference":[68],"during":[69],"policy":[71,99],"evaluation.":[72],"The":[73],"rule":[75],"shows":[76],"that":[77],"it":[78],"temporal":[81],"difference":[82],"learning":[83,87,113],"method":[84,101],"with":[85,102],"rate":[88],"determined":[89],"uncertainty":[92],"collected":[95],"sample.":[96],"Incorporating":[97],"\u2208-greedy":[104],"selection":[106],"method,":[107],"we":[108],"propose":[109],"an":[110],"algorithm":[114],"referred":[115],"Bayesian-SARSA.":[118],"It":[119],"tested":[121],"on":[122],"some":[123],"benchmark":[124],"problems":[125],"empirical":[128],"results":[129],"verifies":[130],"its":[131],"effectiveness.":[132]},"counts_by_year":[{"year":2025,"cited_by_count":1},{"year":2024,"cited_by_count":2},{"year":2022,"cited_by_count":2},{"year":2020,"cited_by_count":1},{"year":2019,"cited_by_count":1},{"year":2018,"cited_by_count":1},{"year":2017,"cited_by_count":1},{"year":2016,"cited_by_count":3}],"updated_date":"2025-11-25T21:42:39.735039","created_date":"2025-10-10T00:00:00"}