{"id":"https://openalex.org/W2976396018","doi":"https://doi.org/10.1109/cig.2019.8848100","title":"Win or Learn Fast Proximal Policy Optimisation","display_name":"Win or Learn Fast Proximal Policy Optimisation","publication_year":2019,"publication_date":"2019-08-01","ids":{"openalex":"https://openalex.org/W2976396018","doi":"https://doi.org/10.1109/cig.2019.8848100","mag":"2976396018"},"language":"en","primary_location":{"id":"doi:10.1109/cig.2019.8848100","is_oa":false,"landing_page_url":"https://doi.org/10.1109/cig.2019.8848100","pdf_url":null,"source":{"id":"https://openalex.org/S4306498491","display_name":"2019 IEEE Conference on Games (CoG)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2019 IEEE Conference on Games (CoG)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5041298584","display_name":"Dino Stephen Ratcliffe","orcid":null},"institutions":[{"id":"https://openalex.org/I166337079","display_name":"Queen Mary University of London","ror":"https://ror.org/026zzn846","country_code":"GB","type":"education","lineage":["https://openalex.org/I124357947","https://openalex.org/I166337079"]}],"countries":["GB"],"is_corresponding":false,"raw_author_name":"Dino Stephen Ratcliffe","raw_affiliation_strings":["EECS, Queen Mary University of London, London, England"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"EECS, Queen Mary University of London, London, England","institution_ids":["https://openalex.org/I166337079"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5027441885","display_name":"Katja Hofmann","orcid":"https://orcid.org/0000-0003-3697-407X"},"institutions":[{"id":"https://openalex.org/I4210164937","display_name":"Microsoft Research (United Kingdom)","ror":"https://ror.org/05k87vq12","country_code":"GB","type":"company","lineage":["https://openalex.org/I1290206253","https://openalex.org/I4210164937"]}],"countries":["GB"],"is_corresponding":false,"raw_author_name":"Katja Hofmann","raw_affiliation_strings":["Microsoft Research Cambridge Microsoft, Cambridge, England"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Microsoft Research Cambridge Microsoft, Cambridge, England","institution_ids":["https://openalex.org/I4210164937"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5048451922","display_name":"Sam Devlin","orcid":"https://orcid.org/0000-0002-7769-3090"},"institutions":[{"id":"https://openalex.org/I4210164937","display_name":"Microsoft Research (United Kingdom)","ror":"https://ror.org/05k87vq12","country_code":"GB","type":"company","lineage":["https://openalex.org/I1290206253","https://openalex.org/I4210164937"]}],"countries":["GB"],"is_corresponding":false,"raw_author_name":"Sam Devlin","raw_affiliation_strings":["Microsoft Research Cambridge Microsoft, Cambridge, England"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Microsoft Research Cambridge Microsoft, Cambridge, England","institution_ids":["https://openalex.org/I4210164937"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":3,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.5319,"has_fulltext":false,"cited_by_count":11,"citation_normalized_percentile":{"value":0.73703766,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":89,"max":98},"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"4"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9987000226974487,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9987000226974487,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11031","display_name":"Game Theory and Applications","score":0.9980000257492065,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},{"id":"https://openalex.org/T11574","display_name":"Artificial Intelligence in Games","score":0.9961000084877014,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7662920951843262},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7199440598487854},{"id":"https://openalex.org/keywords/stochastic-game","display_name":"Stochastic game","score":0.6030747294425964},{"id":"https://openalex.org/keywords/variety","display_name":"Variety (cybernetics)","score":0.5638383626937866},{"id":"https://openalex.org/keywords/nash-equilibrium","display_name":"Nash equilibrium","score":0.48749256134033203},{"id":"https://openalex.org/keywords/adversary","display_name":"Adversary","score":0.47779566049575806},{"id":"https://openalex.org/keywords/policy-learning","display_name":"Policy learning","score":0.46728047728538513},{"id":"https://openalex.org/keywords/fictitious-play","display_name":"Fictitious play","score":0.45683759450912476},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.43872132897377014},{"id":"https://openalex.org/keywords/focus","display_name":"Focus (optics)","score":0.4358513355255127},{"id":"https://openalex.org/keywords/mathematical-economics","display_name":"Mathematical economics","score":0.33181923627853394},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.29154884815216064},{"id":"https://openalex.org/keywords/computer-security","display_name":"Computer security","score":0.14035102725028992},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.12676921486854553}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7662920951843262},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7199440598487854},{"id":"https://openalex.org/C22171661","wikidata":"https://www.wikidata.org/wiki/Q1074380","display_name":"Stochastic game","level":2,"score":0.6030747294425964},{"id":"https://openalex.org/C136197465","wikidata":"https://www.wikidata.org/wiki/Q1729295","display_name":"Variety (cybernetics)","level":2,"score":0.5638383626937866},{"id":"https://openalex.org/C46814582","wikidata":"https://www.wikidata.org/wiki/Q23389","display_name":"Nash equilibrium","level":2,"score":0.48749256134033203},{"id":"https://openalex.org/C41065033","wikidata":"https://www.wikidata.org/wiki/Q2825412","display_name":"Adversary","level":2,"score":0.47779566049575806},{"id":"https://openalex.org/C2779436431","wikidata":"https://www.wikidata.org/wiki/Q30672407","display_name":"Policy learning","level":2,"score":0.46728047728538513},{"id":"https://openalex.org/C145071142","wikidata":"https://www.wikidata.org/wiki/Q1411116","display_name":"Fictitious play","level":3,"score":0.45683759450912476},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.43872132897377014},{"id":"https://openalex.org/C192209626","wikidata":"https://www.wikidata.org/wiki/Q190909","display_name":"Focus (optics)","level":2,"score":0.4358513355255127},{"id":"https://openalex.org/C144237770","wikidata":"https://www.wikidata.org/wiki/Q747534","display_name":"Mathematical economics","level":1,"score":0.33181923627853394},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.29154884815216064},{"id":"https://openalex.org/C38652104","wikidata":"https://www.wikidata.org/wiki/Q3510521","display_name":"Computer security","level":1,"score":0.14035102725028992},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.12676921486854553},{"id":"https://openalex.org/C120665830","wikidata":"https://www.wikidata.org/wiki/Q14620","display_name":"Optics","level":1,"score":0.0},{"id":"https://openalex.org/C121332964","wikidata":"https://www.wikidata.org/wiki/Q413","display_name":"Physics","level":0,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/cig.2019.8848100","is_oa":false,"landing_page_url":"https://doi.org/10.1109/cig.2019.8848100","pdf_url":null,"source":{"id":"https://openalex.org/S4306498491","display_name":"2019 IEEE Conference on Games (CoG)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2019 IEEE Conference on Games (CoG)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[{"display_name":"Peace, Justice and strong institutions","score":0.6299999952316284,"id":"https://metadata.un.org/sdg/16"}],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":22,"referenced_works":["https://openalex.org/W1578630563","https://openalex.org/W1607392272","https://openalex.org/W1771410628","https://openalex.org/W2120327309","https://openalex.org/W2330024298","https://openalex.org/W2727450595","https://openalex.org/W2736601468","https://openalex.org/W2762117857","https://openalex.org/W2913409451","https://openalex.org/W2963407617","https://openalex.org/W2964121744","https://openalex.org/W4234761190","https://openalex.org/W4297810554","https://openalex.org/W4299802797","https://openalex.org/W4300311901","https://openalex.org/W6631190155","https://openalex.org/W6636288269","https://openalex.org/W6638018090","https://openalex.org/W6738796088","https://openalex.org/W6741002519","https://openalex.org/W6745190604","https://openalex.org/W6758729514"],"related_works":["https://openalex.org/W4283767558","https://openalex.org/W4287598332","https://openalex.org/W2477999315","https://openalex.org/W2661089522","https://openalex.org/W1517138936","https://openalex.org/W2487035323","https://openalex.org/W3095522703","https://openalex.org/W4287814064","https://openalex.org/W2269850137","https://openalex.org/W2976396018"],"abstract_inverted_index":{"AI":[0],"agents":[1,94],"within":[2,10],"video":[3],"games":[4],"are":[5],"often":[6],"required":[7],"to":[8,30,33,70,118,137,144],"compete":[9],"an":[11,131],"environment":[12],"shared":[13],"by":[14,23],"many":[15],"other":[16,49],"agents.":[17,51],"This":[18],"problem":[19],"can":[20],"be":[21],"tackled":[22],"multi-agent":[24],"reinforcement":[25],"learning":[26,58,101],"(MARL).":[27],"One":[28],"solution":[29],"MARL":[31,87],"is":[32,135,142],"learn":[34,119,138],"a":[35,42,59,73,76,102,106,120,139],"Nash":[36],"Equilibrium":[37],"Strategy":[38],"(NES)":[39],"that":[40,134,141],"guarantees":[41],"known":[43],"minimum":[44],"payoff":[45],"when":[46],"playing":[47],"against":[48,92],"rational":[50],"We":[52,104,128],"focus":[53],"on":[54,90],"one":[55],"approach":[56],"for":[57],"NES,":[60,121],"Win":[61],"or":[62],"Learn":[63],"Fast":[64],"(WoLF),":[65],"WoLF":[66],"has":[67,88],"been":[68],"shown":[69],"converge":[71],"towards":[72],"NES":[74],"in":[75,124],"variety":[77],"of":[78,113],"matrix-games":[79],"and":[80,95],"grid":[81],"based":[82],"games.":[83,127],"Research":[84],"into":[85,110],"Deep":[86],"focused":[89],"performance":[91],"opponent":[93],"with":[96],"limited":[97],"quantitative":[98],"results":[99],"regarding":[100],"NES.":[103,146],"present":[105,130],"systematic":[107],"empirical":[108],"investigation":[109],"the":[111,145],"ability":[112],"Proximal":[114],"Policy":[115],"Optimisation":[116],"(PPO)":[117],"showing":[122],"instability":[123],"certain":[125],"matrix":[126],"then":[129],"extension,":[132],"WoLF-PPO,":[133],"able":[136],"policy":[140],"closer":[143]},"counts_by_year":[{"year":2026,"cited_by_count":1},{"year":2024,"cited_by_count":3},{"year":2023,"cited_by_count":3},{"year":2022,"cited_by_count":3},{"year":2020,"cited_by_count":1}],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2025-10-10T00:00:00"}