{"id":"https://openalex.org/W2289187575","doi":"https://doi.org/10.1109/cdc.2015.7403282","title":"1-recall reinforcement learning leading to an optimal equilibrium in potential games with discrete and continuous actions","display_name":"1-recall reinforcement learning leading to an optimal equilibrium in potential games with discrete and continuous actions","publication_year":2015,"publication_date":"2015-12-01","ids":{"openalex":"https://openalex.org/W2289187575","doi":"https://doi.org/10.1109/cdc.2015.7403282","mag":"2289187575"},"language":"en","primary_location":{"id":"doi:10.1109/cdc.2015.7403282","is_oa":false,"landing_page_url":"https://doi.org/10.1109/cdc.2015.7403282","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2015 54th IEEE Conference on Decision and Control (CDC)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5042936048","display_name":"Tatiana Tatarenko","orcid":"https://orcid.org/0000-0001-8951-112X"},"institutions":[{"id":"https://openalex.org/I31512782","display_name":"Technical University of Darmstadt","ror":"https://ror.org/05n911h24","country_code":"DE","type":"education","lineage":["https://openalex.org/I31512782"]}],"countries":["DE"],"is_corresponding":true,"raw_author_name":"Tatiana Tatarenko","raw_affiliation_strings":["Control Methods and Robotics Lab, Technical University Darmstadt, Darmstadt, Germany"],"affiliations":[{"raw_affiliation_string":"Control Methods and Robotics Lab, Technical University Darmstadt, Darmstadt, Germany","institution_ids":["https://openalex.org/I31512782"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":["https://openalex.org/A5042936048"],"corresponding_institution_ids":["https://openalex.org/I31512782"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":3,"citation_normalized_percentile":{"value":0.17150737,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":89,"max":96},"biblio":{"volume":"4","issue":null,"first_page":"6749","last_page":"6754"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11031","display_name":"Game Theory and Applications","score":0.9987999796867371,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},"topics":[{"id":"https://openalex.org/T11031","display_name":"Game Theory and Applications","score":0.9987999796867371,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},{"id":"https://openalex.org/T12288","display_name":"Optimization and Search Problems","score":0.9976000189781189,"subfield":{"id":"https://openalex.org/subfields/1705","display_name":"Computer Networks and Communications"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12101","display_name":"Advanced Bandit Algorithms Research","score":0.9940999746322632,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.8342418670654297},{"id":"https://openalex.org/keywords/stochastic-game","display_name":"Stochastic game","score":0.7489200830459595},{"id":"https://openalex.org/keywords/potential-game","display_name":"Potential game","score":0.7153605222702026},{"id":"https://openalex.org/keywords/nash-equilibrium","display_name":"Nash equilibrium","score":0.668120265007019},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.6430158615112305},{"id":"https://openalex.org/keywords/learning-automata","display_name":"Learning automata","score":0.5785142183303833},{"id":"https://openalex.org/keywords/q-learning","display_name":"Q-learning","score":0.5230917930603027},{"id":"https://openalex.org/keywords/action","display_name":"Action (physics)","score":0.48633891344070435},{"id":"https://openalex.org/keywords/game-theory","display_name":"Game theory","score":0.47311756014823914},{"id":"https://openalex.org/keywords/mathematical-optimization","display_name":"Mathematical optimization","score":0.4648987352848053},{"id":"https://openalex.org/keywords/set","display_name":"Set (abstract data type)","score":0.4555481970310211},{"id":"https://openalex.org/keywords/repeated-game","display_name":"Repeated game","score":0.4513513147830963},{"id":"https://openalex.org/keywords/function","display_name":"Function (biology)","score":0.4395730197429657},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.4309346079826355},{"id":"https://openalex.org/keywords/automaton","display_name":"Automaton","score":0.3860066533088684},{"id":"https://openalex.org/keywords/mathematical-economics","display_name":"Mathematical economics","score":0.3359692692756653},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.19936826825141907}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.8342418670654297},{"id":"https://openalex.org/C22171661","wikidata":"https://www.wikidata.org/wiki/Q1074380","display_name":"Stochastic game","level":2,"score":0.7489200830459595},{"id":"https://openalex.org/C2778079155","wikidata":"https://www.wikidata.org/wiki/Q288500","display_name":"Potential game","level":3,"score":0.7153605222702026},{"id":"https://openalex.org/C46814582","wikidata":"https://www.wikidata.org/wiki/Q23389","display_name":"Nash equilibrium","level":2,"score":0.668120265007019},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6430158615112305},{"id":"https://openalex.org/C2776807809","wikidata":"https://www.wikidata.org/wiki/Q6510160","display_name":"Learning automata","level":3,"score":0.5785142183303833},{"id":"https://openalex.org/C188116033","wikidata":"https://www.wikidata.org/wiki/Q2664563","display_name":"Q-learning","level":3,"score":0.5230917930603027},{"id":"https://openalex.org/C2780791683","wikidata":"https://www.wikidata.org/wiki/Q846785","display_name":"Action (physics)","level":2,"score":0.48633891344070435},{"id":"https://openalex.org/C177142836","wikidata":"https://www.wikidata.org/wiki/Q44455","display_name":"Game theory","level":2,"score":0.47311756014823914},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.4648987352848053},{"id":"https://openalex.org/C177264268","wikidata":"https://www.wikidata.org/wiki/Q1514741","display_name":"Set (abstract data type)","level":2,"score":0.4555481970310211},{"id":"https://openalex.org/C202556891","wikidata":"https://www.wikidata.org/wiki/Q1584646","display_name":"Repeated game","level":3,"score":0.4513513147830963},{"id":"https://openalex.org/C14036430","wikidata":"https://www.wikidata.org/wiki/Q3736076","display_name":"Function (biology)","level":2,"score":0.4395730197429657},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.4309346079826355},{"id":"https://openalex.org/C112505250","wikidata":"https://www.wikidata.org/wiki/Q787116","display_name":"Automaton","level":2,"score":0.3860066533088684},{"id":"https://openalex.org/C144237770","wikidata":"https://www.wikidata.org/wiki/Q747534","display_name":"Mathematical economics","level":1,"score":0.3359692692756653},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.19936826825141907},{"id":"https://openalex.org/C199360897","wikidata":"https://www.wikidata.org/wiki/Q9143","display_name":"Programming language","level":1,"score":0.0},{"id":"https://openalex.org/C121332964","wikidata":"https://www.wikidata.org/wiki/Q413","display_name":"Physics","level":0,"score":0.0},{"id":"https://openalex.org/C78458016","wikidata":"https://www.wikidata.org/wiki/Q840400","display_name":"Evolutionary biology","level":1,"score":0.0},{"id":"https://openalex.org/C86803240","wikidata":"https://www.wikidata.org/wiki/Q420","display_name":"Biology","level":0,"score":0.0},{"id":"https://openalex.org/C62520636","wikidata":"https://www.wikidata.org/wiki/Q944","display_name":"Quantum mechanics","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/cdc.2015.7403282","is_oa":false,"landing_page_url":"https://doi.org/10.1109/cdc.2015.7403282","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2015 54th IEEE Conference on Decision and Control (CDC)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[{"score":0.800000011920929,"id":"https://metadata.un.org/sdg/16","display_name":"Peace, Justice and strong institutions"}],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":12,"referenced_works":["https://openalex.org/W103934657","https://openalex.org/W270482562","https://openalex.org/W750498331","https://openalex.org/W1574638321","https://openalex.org/W1972768959","https://openalex.org/W2001007182","https://openalex.org/W2088607728","https://openalex.org/W2103151730","https://openalex.org/W3022321359","https://openalex.org/W6610032579","https://openalex.org/W6634362133","https://openalex.org/W6656710697"],"related_works":["https://openalex.org/W2971598508","https://openalex.org/W2040682131","https://openalex.org/W1204918052","https://openalex.org/W3123805338","https://openalex.org/W1570044001","https://openalex.org/W3150925513","https://openalex.org/W4230011720","https://openalex.org/W2122010238","https://openalex.org/W4301668927","https://openalex.org/W4288917516"],"abstract_inverted_index":{"Game":[0],"theory":[1],"serves":[2],"as":[3,27],"a":[4,28,36],"powerful":[5],"tool":[6],"for":[7,94],"distributed":[8],"optimization":[9,55],"in":[10,13,65,131,161],"multiagent":[11,21],"systems":[12,22,86],"different":[14],"applications.":[15],"In":[16,69],"this":[17],"paper":[18],"we":[19,81,115],"consider":[20],"that":[23,144],"can":[24],"be":[25,41],"modeled":[26],"potential":[29,32],"game":[30,147],"whose":[31],"function":[33,39],"coincides":[34],"with":[35,84],"global":[37],"objective":[38],"to":[40,138,157],"maximized.":[42],"This":[43],"approach":[44],"renders":[45],"the":[46,48,53,57,66,72,76,85,103,108,117,141,146],"agents":[47,88],"strategic":[49],"decision":[50,100],"makers":[51],"and":[52,96,107,124,129,153,166],"corresponding":[54],"problem":[56,58],"of":[59,78,112,119,149,164],"learning":[60,125],"an":[61,158],"optimal":[62,159],"equilibruim":[63],"point":[64],"designed":[67],"game.":[68],"distinction":[70],"from":[71],"existing":[73],"works":[74],"on":[75,102],"topic":[77],"payoff-based":[79],"learning,":[80,121],"deal":[82],"here":[83],"where":[87],"have":[89],"neither":[90],"memory":[91],"nor":[92],"ability":[93],"communication,":[95],"they":[97],"base":[98],"their":[99],"only":[101],"currently":[104],"played":[105],"action":[106,168],"experienced":[109],"payoff.":[110],"Because":[111],"these":[113],"restrictions,":[114],"use":[116],"methods":[118,135],"reinforcement":[120],"stochastic":[122],"approximation,":[123],"automata":[126],"extensively":[127],"reviewed":[128],"analyzed":[130],"[3],":[132],"[9].":[133],"These":[134],"allow":[136],"us":[137],"set":[139],"up":[140],"agent":[142],"dynamics":[143],"moves":[145],"out":[148],"inefficient":[150],"Nash":[151],"equilibria":[152],"leads":[154],"it":[155],"close":[156],"one":[160],"both":[162],"cases":[163],"discrete":[165],"continuous":[167],"sets.":[169]},"counts_by_year":[{"year":2020,"cited_by_count":1},{"year":2019,"cited_by_count":2}],"updated_date":"2025-11-06T03:46:38.306776","created_date":"2025-10-10T00:00:00"}