{"id":"https://openalex.org/W2116875315","doi":"https://doi.org/10.1109/isic.2010.5612911","title":"Convergence of multiagent Q-learning: Multi action replay process approach","display_name":"Convergence of multiagent Q-learning: Multi action replay process approach","publication_year":2010,"publication_date":"2010-09-01","ids":{"openalex":"https://openalex.org/W2116875315","doi":"https://doi.org/10.1109/isic.2010.5612911","mag":"2116875315"},"language":"en","primary_location":{"id":"doi:10.1109/isic.2010.5612911","is_oa":false,"landing_page_url":"https://doi.org/10.1109/isic.2010.5612911","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2010 IEEE International Symposium on Intelligent Control","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5089158291","display_name":"Han-Eol Kim","orcid":null},"institutions":[{"id":"https://openalex.org/I39534123","display_name":"Gwangju Institute of Science and Technology","ror":"https://ror.org/024kbgz78","country_code":"KR","type":"education","lineage":["https://openalex.org/I39534123"]}],"countries":["KR"],"is_corresponding":true,"raw_author_name":"Han-Eol Kim","raw_affiliation_strings":["Distributed Control and Autonomous Systems Laboratory, Graduate School of Mechatronics, Gwangju Institute of Science and Technology, Gwangju, South Korea","Distributed Control and Autonomous Systems Laboratory, Graduate School of Mechatronics, Gwangju Institute of Science and Technology (GIST), 1 Oryong-dong, Buk-gu, Korea"],"affiliations":[{"raw_affiliation_string":"Distributed Control and Autonomous Systems Laboratory, Graduate School of Mechatronics, Gwangju Institute of Science and Technology, Gwangju, South Korea","institution_ids":["https://openalex.org/I39534123"]},{"raw_affiliation_string":"Distributed Control and Autonomous Systems Laboratory, Graduate School of Mechatronics, Gwangju Institute of Science and Technology (GIST), 1 Oryong-dong, Buk-gu, Korea","institution_ids":["https://openalex.org/I39534123"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5003982643","display_name":"Hyo\u2010Sung Ahn","orcid":"https://orcid.org/0000-0002-7939-0093"},"institutions":[{"id":"https://openalex.org/I39534123","display_name":"Gwangju Institute of Science and Technology","ror":"https://ror.org/024kbgz78","country_code":"KR","type":"education","lineage":["https://openalex.org/I39534123"]}],"countries":["KR"],"is_corresponding":false,"raw_author_name":"Hyo-Sung Ahn","raw_affiliation_strings":["Distributed Control and Autonomous Systems Laboratory, Graduate School of Mechatronics, Gwangju Institute of Science and Technology, Gwangju, South Korea","Faculty of Distributed Control and Autonomous Systems Laboratory, Graduate School of Mechatronics, Gwangju Institute of Science and Technology (GIST), 1 Oryong-dong, Buk-gu, Korea"],"affiliations":[{"raw_affiliation_string":"Distributed Control and Autonomous Systems Laboratory, Graduate School of Mechatronics, Gwangju Institute of Science and Technology, Gwangju, South Korea","institution_ids":["https://openalex.org/I39534123"]},{"raw_affiliation_string":"Faculty of Distributed Control and Autonomous Systems Laboratory, Graduate School of Mechatronics, Gwangju Institute of Science and Technology (GIST), 1 Oryong-dong, Buk-gu, Korea","institution_ids":["https://openalex.org/I39534123"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":["https://openalex.org/A5089158291"],"corresponding_institution_ids":["https://openalex.org/I39534123"],"apc_list":null,"apc_paid":null,"fwci":0.451,"has_fulltext":false,"cited_by_count":6,"citation_normalized_percentile":{"value":0.74047424,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":89,"max":94},"biblio":{"volume":"36","issue":null,"first_page":"789","last_page":"794"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.998199999332428,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.998199999332428,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10320","display_name":"Neural Networks and Applications","score":0.9628999829292297,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12761","display_name":"Data Stream Mining Techniques","score":0.9564999938011169,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.8092509508132935},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7489390969276428},{"id":"https://openalex.org/keywords/q-learning","display_name":"Q-learning","score":0.7099237442016602},{"id":"https://openalex.org/keywords/convergence","display_name":"Convergence (economics)","score":0.6281037926673889},{"id":"https://openalex.org/keywords/process","display_name":"Process (computing)","score":0.5801444053649902},{"id":"https://openalex.org/keywords/action","display_name":"Action (physics)","score":0.5738862156867981},{"id":"https://openalex.org/keywords/multi-agent-system","display_name":"Multi-agent system","score":0.5602888464927673},{"id":"https://openalex.org/keywords/markov-process","display_name":"Markov process","score":0.5559902191162109},{"id":"https://openalex.org/keywords/markov-chain","display_name":"Markov chain","score":0.5449378490447998},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.4789462685585022},{"id":"https://openalex.org/keywords/markov-decision-process","display_name":"Markov decision process","score":0.45227155089378357},{"id":"https://openalex.org/keywords/mathematical-optimization","display_name":"Mathematical optimization","score":0.3917899429798126},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.34951430559158325},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.15312251448631287}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.8092509508132935},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7489390969276428},{"id":"https://openalex.org/C188116033","wikidata":"https://www.wikidata.org/wiki/Q2664563","display_name":"Q-learning","level":3,"score":0.7099237442016602},{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.6281037926673889},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.5801444053649902},{"id":"https://openalex.org/C2780791683","wikidata":"https://www.wikidata.org/wiki/Q846785","display_name":"Action (physics)","level":2,"score":0.5738862156867981},{"id":"https://openalex.org/C41550386","wikidata":"https://www.wikidata.org/wiki/Q529909","display_name":"Multi-agent system","level":2,"score":0.5602888464927673},{"id":"https://openalex.org/C159886148","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov process","level":2,"score":0.5559902191162109},{"id":"https://openalex.org/C98763669","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov chain","level":2,"score":0.5449378490447998},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.4789462685585022},{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.45227155089378357},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.3917899429798126},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.34951430559158325},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.15312251448631287},{"id":"https://openalex.org/C105795698","wikidata":"https://www.wikidata.org/wiki/Q12483","display_name":"Statistics","level":1,"score":0.0},{"id":"https://openalex.org/C50522688","wikidata":"https://www.wikidata.org/wiki/Q189833","display_name":"Economic growth","level":1,"score":0.0},{"id":"https://openalex.org/C162324750","wikidata":"https://www.wikidata.org/wiki/Q8134","display_name":"Economics","level":0,"score":0.0},{"id":"https://openalex.org/C111919701","wikidata":"https://www.wikidata.org/wiki/Q9135","display_name":"Operating system","level":1,"score":0.0},{"id":"https://openalex.org/C121332964","wikidata":"https://www.wikidata.org/wiki/Q413","display_name":"Physics","level":0,"score":0.0},{"id":"https://openalex.org/C62520636","wikidata":"https://www.wikidata.org/wiki/Q944","display_name":"Quantum mechanics","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/isic.2010.5612911","is_oa":false,"landing_page_url":"https://doi.org/10.1109/isic.2010.5612911","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2010 IEEE International Symposium on Intelligent Control","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":16,"referenced_works":["https://openalex.org/W32403112","https://openalex.org/W1496590343","https://openalex.org/W1557517019","https://openalex.org/W1626977535","https://openalex.org/W2067050450","https://openalex.org/W2089415692","https://openalex.org/W2103561211","https://openalex.org/W2104602264","https://openalex.org/W2120846115","https://openalex.org/W2164637474","https://openalex.org/W2235056388","https://openalex.org/W6636868823","https://openalex.org/W6675356487","https://openalex.org/W6675811377","https://openalex.org/W6678168664","https://openalex.org/W6684470913"],"related_works":["https://openalex.org/W2386410636","https://openalex.org/W1985560493","https://openalex.org/W1626977535","https://openalex.org/W2341346307","https://openalex.org/W2808418668","https://openalex.org/W3096874164","https://openalex.org/W2357975469","https://openalex.org/W2937181779","https://openalex.org/W2145363145","https://openalex.org/W3168977894"],"abstract_inverted_index":{"In":[0],"this":[1,55],"paper,":[2],"we":[3,74],"first":[4],"suggest":[5],"a":[6,30,64],"new":[7,19],"type":[8],"of":[9,39,50,92],"Markov":[10,20],"model":[11,21],"extended":[12],"by":[13],"Watkins'":[14],"action":[15],"replay":[16,25],"process.":[17],"The":[18],"is":[22,29,60],"called":[23],"multi-action":[24],"process":[26,31],"(MARP),":[27],"which":[28],"designed":[32],"for":[33],"multiagent":[34,57,77,95],"coordination":[35],"on":[36],"the":[37,90,93],"basis":[38],"reward":[40],"values,":[41],"state":[42],"transition":[43],"probabilities,":[44],"and":[45],"equilibrium":[46],"strategy":[47],"taking":[48],"account":[49],"joint-action":[51],"among":[52],"agents.":[53,72],"Using":[54],"model,":[56],"Q-learning":[58,78,96],"algorithm":[59,68],"then":[61],"constructed":[62],"as":[63],"cooperative":[65],"reinforcement":[66],"learning":[67],"under":[69],"completely":[70],"connected":[71],"Finally,":[73],"prove":[75],"that":[76],"values":[79],"converge":[80],"to":[81,88],"optimal":[82],"values.":[83],"Simulation":[84],"results":[85],"are":[86],"reported":[87],"illustrate":[89],"validity":[91],"proposed":[94],"algorithm.":[97]},"counts_by_year":[{"year":2023,"cited_by_count":1},{"year":2021,"cited_by_count":1},{"year":2020,"cited_by_count":1},{"year":2018,"cited_by_count":1},{"year":2015,"cited_by_count":1},{"year":2013,"cited_by_count":1}],"updated_date":"2025-11-06T03:46:38.306776","created_date":"2025-10-10T00:00:00"}