{"id":"https://openalex.org/W4414247700","doi":"https://doi.org/10.1145/3719545.3719556","title":"RegFTRL: Efficient Equilibrium Learning in Two-Player Zero-Sum Games","display_name":"RegFTRL: Efficient Equilibrium Learning in Two-Player Zero-Sum Games","publication_year":2024,"publication_date":"2024-12-18","ids":{"openalex":"https://openalex.org/W4414247700","doi":"https://doi.org/10.1145/3719545.3719556"},"language":"en","primary_location":{"id":"doi:10.1145/3719545.3719556","is_oa":true,"landing_page_url":"https://doi.org/10.1145/3719545.3719556","pdf_url":"https://dl.acm.org/doi/pdf/10.1145/3719545.3719556","source":null,"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 2024 Sixth International Conference on Distributed Artificial Intelligences","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":true,"oa_status":"gold","oa_url":"https://dl.acm.org/doi/pdf/10.1145/3719545.3719556","any_repository_has_fulltext":null},"authorships":[{"author_position":"first","author":{"id":null,"display_name":"Zijian Fang","orcid":"https://orcid.org/0009-0007-9897-4370"},"institutions":[{"id":"https://openalex.org/I157773358","display_name":"Sun Yat-sen University","ror":"https://ror.org/0064kty71","country_code":"CN","type":"education","lineage":["https://openalex.org/I157773358"]}],"countries":["CN"],"is_corresponding":true,"raw_author_name":"Zijian Fang","raw_affiliation_strings":["Sun Yat-Sen University, Guangzhou, Guangdong, China"],"raw_orcid":"https://orcid.org/0009-0007-9897-4370","affiliations":[{"raw_affiliation_string":"Sun Yat-Sen University, Guangzhou, Guangdong, China","institution_ids":["https://openalex.org/I157773358"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5033824062","display_name":"Zhuo-Lin Liu","orcid":"https://orcid.org/0009-0009-5655-9691"},"institutions":[{"id":"https://openalex.org/I157773358","display_name":"Sun Yat-sen University","ror":"https://ror.org/0064kty71","country_code":"CN","type":"education","lineage":["https://openalex.org/I157773358"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Zongkai Liu","raw_affiliation_strings":["Sun Yat-Sen University, Guangzhou, Guangdong, China"],"raw_orcid":"https://orcid.org/0009-0009-5655-9691","affiliations":[{"raw_affiliation_string":"Sun Yat-Sen University, Guangzhou, Guangdong, China","institution_ids":["https://openalex.org/I157773358"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5074681163","display_name":"Chao Yu","orcid":"https://orcid.org/0000-0002-4371-3663"},"institutions":[{"id":"https://openalex.org/I157773358","display_name":"Sun Yat-sen University","ror":"https://ror.org/0064kty71","country_code":"CN","type":"education","lineage":["https://openalex.org/I157773358"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Chao Yu","raw_affiliation_strings":["Sun Yat-Sen University, Guangzhou, Guangdong, China"],"raw_orcid":"https://orcid.org/0000-0002-4371-3663","affiliations":[{"raw_affiliation_string":"Sun Yat-Sen University, Guangzhou, Guangdong, China","institution_ids":["https://openalex.org/I157773358"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":3,"corresponding_author_ids":[],"corresponding_institution_ids":["https://openalex.org/I157773358"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":true,"cited_by_count":0,"citation_normalized_percentile":{"value":0.35970403,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"81","last_page":"93"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T12101","display_name":"Advanced Bandit Algorithms Research","score":0.9991000294685364,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},"topics":[{"id":"https://openalex.org/T12101","display_name":"Advanced Bandit Algorithms Research","score":0.9991000294685364,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9973999857902527,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11031","display_name":"Game Theory and Applications","score":0.9932000041007996,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/nash-equilibrium","display_name":"Nash equilibrium","score":0.744700014591217},{"id":"https://openalex.org/keywords/convergence","display_name":"Convergence (economics)","score":0.6330000162124634},{"id":"https://openalex.org/keywords/context","display_name":"Context (archaeology)","score":0.5950000286102295},{"id":"https://openalex.org/keywords/property","display_name":"Property (philosophy)","score":0.5529999732971191},{"id":"https://openalex.org/keywords/artificial-neural-network","display_name":"Artificial neural network","score":0.4805999994277954},{"id":"https://openalex.org/keywords/equilibrium-selection","display_name":"Equilibrium selection","score":0.4578999876976013},{"id":"https://openalex.org/keywords/adaptive-learning","display_name":"Adaptive learning","score":0.44190001487731934},{"id":"https://openalex.org/keywords/function","display_name":"Function (biology)","score":0.4253999888896942}],"concepts":[{"id":"https://openalex.org/C46814582","wikidata":"https://www.wikidata.org/wiki/Q23389","display_name":"Nash equilibrium","level":2,"score":0.744700014591217},{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.6330000162124634},{"id":"https://openalex.org/C2779343474","wikidata":"https://www.wikidata.org/wiki/Q3109175","display_name":"Context (archaeology)","level":2,"score":0.5950000286102295},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.5773000121116638},{"id":"https://openalex.org/C189950617","wikidata":"https://www.wikidata.org/wiki/Q937228","display_name":"Property (philosophy)","level":2,"score":0.5529999732971191},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.4869999885559082},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.4805999994277954},{"id":"https://openalex.org/C164407509","wikidata":"https://www.wikidata.org/wiki/Q5384490","display_name":"Equilibrium selection","level":4,"score":0.4578999876976013},{"id":"https://openalex.org/C125014702","wikidata":"https://www.wikidata.org/wiki/Q4680749","display_name":"Adaptive learning","level":2,"score":0.44190001487731934},{"id":"https://openalex.org/C14036430","wikidata":"https://www.wikidata.org/wiki/Q3736076","display_name":"Function (biology)","level":2,"score":0.4253999888896942},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.3659999966621399},{"id":"https://openalex.org/C141824439","wikidata":"https://www.wikidata.org/wiki/Q307521","display_name":"Epsilon-equilibrium","level":4,"score":0.3531000018119812},{"id":"https://openalex.org/C32407928","wikidata":"https://www.wikidata.org/wiki/Q2733833","display_name":"Best response","level":3,"score":0.33799999952316284},{"id":"https://openalex.org/C144237770","wikidata":"https://www.wikidata.org/wiki/Q747534","display_name":"Mathematical economics","level":1,"score":0.3343999981880188},{"id":"https://openalex.org/C94766913","wikidata":"https://www.wikidata.org/wiki/Q1530271","display_name":"Equilibrium point","level":3,"score":0.3203999996185303},{"id":"https://openalex.org/C112972136","wikidata":"https://www.wikidata.org/wiki/Q7595718","display_name":"Stability (learning theory)","level":2,"score":0.31839999556541443},{"id":"https://openalex.org/C177142836","wikidata":"https://www.wikidata.org/wiki/Q44455","display_name":"Game theory","level":2,"score":0.3084000051021576},{"id":"https://openalex.org/C201364048","wikidata":"https://www.wikidata.org/wiki/Q2897085","display_name":"Sequential equilibrium","level":5,"score":0.30309998989105225},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.29919999837875366},{"id":"https://openalex.org/C527412718","wikidata":"https://www.wikidata.org/wiki/Q855395","display_name":"Interpretation (philosophy)","level":2,"score":0.2757999897003174},{"id":"https://openalex.org/C120936955","wikidata":"https://www.wikidata.org/wiki/Q2155640","display_name":"Empirical research","level":2,"score":0.2529999911785126}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1145/3719545.3719556","is_oa":true,"landing_page_url":"https://doi.org/10.1145/3719545.3719556","pdf_url":"https://dl.acm.org/doi/pdf/10.1145/3719545.3719556","source":null,"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 2024 Sixth International Conference on Distributed Artificial Intelligences","raw_type":"proceedings-article"}],"best_oa_location":{"id":"doi:10.1145/3719545.3719556","is_oa":true,"landing_page_url":"https://doi.org/10.1145/3719545.3719556","pdf_url":"https://dl.acm.org/doi/pdf/10.1145/3719545.3719556","source":null,"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 2024 Sixth International Conference on Distributed Artificial Intelligences","raw_type":"proceedings-article"},"sustainable_development_goals":[],"awards":[{"id":"https://openalex.org/G1901648776","display_name":null,"funder_award_id":"62076259","funder_id":"https://openalex.org/F4320321001","funder_display_name":"National Natural Science Foundation of China"}],"funders":[{"id":"https://openalex.org/F4320321001","display_name":"National Natural Science Foundation of China","ror":"https://ror.org/01h0zpd94"},{"id":"https://openalex.org/F4320321160","display_name":"Sun Yat-sen University","ror":"https://ror.org/0064kty71"},{"id":"https://openalex.org/F4320335787","display_name":"Fundamental Research Funds for the Central Universities","ror":null}],"has_content":{"grobid_xml":true,"pdf":true},"content_urls":{"pdf":"https://content.openalex.org/works/W4414247700.pdf","grobid_xml":"https://content.openalex.org/works/W4414247700.grobid-xml"},"referenced_works_count":19,"referenced_works":["https://openalex.org/W316323024","https://openalex.org/W1570963478","https://openalex.org/W1980392196","https://openalex.org/W1982813377","https://openalex.org/W2085728653","https://openalex.org/W2109150831","https://openalex.org/W2149254401","https://openalex.org/W2156006942","https://openalex.org/W2562755098","https://openalex.org/W2595697910","https://openalex.org/W2612690371","https://openalex.org/W2765775789","https://openalex.org/W2914238450","https://openalex.org/W2925418831","https://openalex.org/W2990138404","https://openalex.org/W3022321359","https://openalex.org/W3205019751","https://openalex.org/W4211108990","https://openalex.org/W4292022450"],"related_works":[],"abstract_inverted_index":{"Recent":[0],"literature":[1],"has":[2],"witnessed":[3],"a":[4,12,21,95,101],"rising":[5],"interest":[6],"in":[7,46,111,131],"learning":[8,44,110],"Nash":[9,76],"equilibrium":[10,77],"with":[11,36,100],"guarantee":[13],"of":[14,33,43,52,63,81,98,121],"last-iterate":[15,64],"convergence.In":[16],"this":[17],"paper,":[18],"we":[19,84],"introduce":[20],"novel":[22],"approach":[23],"called":[24],"Regularized":[25],"Followthe-Regularized-Leader":[26],"(RegFTRL),":[27],"which":[28],"is":[29],"an":[30,37,68,74],"efficient":[31],"variant":[32],"FTRL":[34],"enriched":[35],"adaptive":[38,79],"regularization,":[39],"for":[40,108],"the":[41,50,82,105,118],"purpose":[42],"equilibria":[45],"two-player":[47],"zero-sum":[48],"games.In":[49],"context":[51],"normal-form":[53],"games":[54,90],"(NFGs),":[55],"our":[56,86],"proposed":[57],"RegFTRL":[58,99],"algorithm":[59],"exhibits":[60],"desirable":[61],"property":[62],"linear":[65],"convergence":[66],"towards":[67],"approximated":[69],"equilibrium,":[70],"and":[71,92,123],"converges":[72],"to":[73,88],"exact":[75],"through":[78],"adjustments":[80],"regularization.Moreover,":[83],"extend":[85],"method":[87],"extensive-form":[89],"(EFGs)":[91],"propose":[93],"FollowMu,":[94],"practical":[96],"implementation":[97],"neural":[102],"network":[103],"as":[104],"function":[106],"approximator,":[107],"model-free":[109],"sequential":[112],"non-stationary":[113],"environments.Finally,":[114],"empirical":[115],"results":[116],"substantiate":[117],"theoretical":[119],"properties":[120],"RegFTRL,":[122],"demonstrate":[124],"that":[125],"FollowMu":[126],"can":[127],"achieve":[128],"favorable":[129],"performance":[130],"EFGs.":[132]},"counts_by_year":[],"updated_date":"2025-11-06T03:46:38.306776","created_date":"2025-10-10T00:00:00"}