{"id":"https://openalex.org/W4416252182","doi":"https://doi.org/10.1109/ijcnn64981.2025.11228019","title":"Mixed Policy-Space Response Oracles","display_name":"Mixed Policy-Space Response Oracles","publication_year":2025,"publication_date":"2025-06-30","ids":{"openalex":"https://openalex.org/W4416252182","doi":"https://doi.org/10.1109/ijcnn64981.2025.11228019"},"language":null,"primary_location":{"id":"doi:10.1109/ijcnn64981.2025.11228019","is_oa":false,"landing_page_url":"https://doi.org/10.1109/ijcnn64981.2025.11228019","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 International Joint Conference on Neural Networks (IJCNN)","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5101898223","display_name":"Junyu Zhang","orcid":"https://orcid.org/0000-0002-9983-2311"},"institutions":[{"id":"https://openalex.org/I99065089","display_name":"Tsinghua University","ror":"https://ror.org/03cve4549","country_code":"CN","type":"education","lineage":["https://openalex.org/I99065089"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Junyu Zhang","raw_affiliation_strings":["Tsinghua University,Department of Electronic Engineering,Beijing,China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Tsinghua University,Department of Electronic Engineering,Beijing,China","institution_ids":["https://openalex.org/I99065089"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5037670006","display_name":"Feihong Yang","orcid":"https://orcid.org/0000-0003-4842-8367"},"institutions":[{"id":"https://openalex.org/I99065089","display_name":"Tsinghua University","ror":"https://ror.org/03cve4549","country_code":"CN","type":"education","lineage":["https://openalex.org/I99065089"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Feihong Yang","raw_affiliation_strings":["Tsinghua University,High Technology Lab,Beijing,China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Tsinghua University,High Technology Lab,Beijing,China","institution_ids":["https://openalex.org/I99065089"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5020075443","display_name":"Jian Wang","orcid":"https://orcid.org/0000-0002-4840-9716"},"institutions":[{"id":"https://openalex.org/I99065089","display_name":"Tsinghua University","ror":"https://ror.org/03cve4549","country_code":"CN","type":"education","lineage":["https://openalex.org/I99065089"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Jian Wang","raw_affiliation_strings":["Tsinghua University,Department of Electronic Engineering,Beijing,China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Tsinghua University,Department of Electronic Engineering,Beijing,China","institution_ids":["https://openalex.org/I99065089"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5101753912","display_name":"Chao Wang","orcid":"https://orcid.org/0000-0001-8367-5211"},"institutions":[{"id":"https://openalex.org/I99065089","display_name":"Tsinghua University","ror":"https://ror.org/03cve4549","country_code":"CN","type":"education","lineage":["https://openalex.org/I99065089"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Chao Wang","raw_affiliation_strings":["Tsinghua University,High Technology Lab,Beijing,China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Tsinghua University,High Technology Lab,Beijing,China","institution_ids":["https://openalex.org/I99065089"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5016626335","display_name":"Xudong Zhang","orcid":"https://orcid.org/0000-0003-0848-7506"},"institutions":[{"id":"https://openalex.org/I99065089","display_name":"Tsinghua University","ror":"https://ror.org/03cve4549","country_code":"CN","type":"education","lineage":["https://openalex.org/I99065089"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Xudong Zhang","raw_affiliation_strings":["Tsinghua University,Department of Electronic Engineering,Beijing,China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Tsinghua University,Department of Electronic Engineering,Beijing,China","institution_ids":["https://openalex.org/I99065089"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":[],"corresponding_institution_ids":["https://openalex.org/I99065089"],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"8"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.6284000277519226,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.6284000277519226,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12794","display_name":"Adaptive Dynamic Programming Control","score":0.14790000021457672,"subfield":{"id":"https://openalex.org/subfields/1703","display_name":"Computational Theory and Mathematics"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11574","display_name":"Artificial Intelligence in Games","score":0.07209999859333038,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/nash-equilibrium","display_name":"Nash equilibrium","score":0.7968999743461609},{"id":"https://openalex.org/keywords/best-response","display_name":"Best response","score":0.7477999925613403},{"id":"https://openalex.org/keywords/epsilon-equilibrium","display_name":"Epsilon-equilibrium","score":0.489300012588501},{"id":"https://openalex.org/keywords/equilibrium-selection","display_name":"Equilibrium selection","score":0.4666999876499176},{"id":"https://openalex.org/keywords/range","display_name":"Range (aeronautics)","score":0.4390000104904175},{"id":"https://openalex.org/keywords/outcome","display_name":"Outcome (game theory)","score":0.4203999936580658},{"id":"https://openalex.org/keywords/strategy","display_name":"Strategy","score":0.4172999858856201},{"id":"https://openalex.org/keywords/policy-analysis","display_name":"Policy analysis","score":0.4097000062465668}],"concepts":[{"id":"https://openalex.org/C46814582","wikidata":"https://www.wikidata.org/wiki/Q23389","display_name":"Nash equilibrium","level":2,"score":0.7968999743461609},{"id":"https://openalex.org/C32407928","wikidata":"https://www.wikidata.org/wiki/Q2733833","display_name":"Best response","level":3,"score":0.7477999925613403},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6173999905586243},{"id":"https://openalex.org/C144237770","wikidata":"https://www.wikidata.org/wiki/Q747534","display_name":"Mathematical economics","level":1,"score":0.5723000168800354},{"id":"https://openalex.org/C141824439","wikidata":"https://www.wikidata.org/wiki/Q307521","display_name":"Epsilon-equilibrium","level":4,"score":0.489300012588501},{"id":"https://openalex.org/C164407509","wikidata":"https://www.wikidata.org/wiki/Q5384490","display_name":"Equilibrium selection","level":4,"score":0.4666999876499176},{"id":"https://openalex.org/C204323151","wikidata":"https://www.wikidata.org/wiki/Q905424","display_name":"Range (aeronautics)","level":2,"score":0.4390000104904175},{"id":"https://openalex.org/C148220186","wikidata":"https://www.wikidata.org/wiki/Q7111912","display_name":"Outcome (game theory)","level":2,"score":0.4203999936580658},{"id":"https://openalex.org/C88959737","wikidata":"https://www.wikidata.org/wiki/Q1546627","display_name":"Strategy","level":3,"score":0.4172999858856201},{"id":"https://openalex.org/C123587114","wikidata":"https://www.wikidata.org/wiki/Q2101508","display_name":"Policy analysis","level":2,"score":0.4097000062465668},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.38440001010894775},{"id":"https://openalex.org/C201364048","wikidata":"https://www.wikidata.org/wiki/Q2897085","display_name":"Sequential equilibrium","level":5,"score":0.3452000021934509},{"id":"https://openalex.org/C177142836","wikidata":"https://www.wikidata.org/wiki/Q44455","display_name":"Game theory","level":2,"score":0.3345000147819519},{"id":"https://openalex.org/C123650614","wikidata":"https://www.wikidata.org/wiki/Q282491","display_name":"Strategic dominance","level":2,"score":0.32010000944137573},{"id":"https://openalex.org/C2778572836","wikidata":"https://www.wikidata.org/wiki/Q380933","display_name":"Space (punctuation)","level":2,"score":0.3165000081062317},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.27900001406669617},{"id":"https://openalex.org/C103382277","wikidata":"https://www.wikidata.org/wiki/Q282640","display_name":"General equilibrium theory","level":2,"score":0.27469998598098755},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.27140000462532043},{"id":"https://openalex.org/C163630976","wikidata":"https://www.wikidata.org/wiki/Q964667","display_name":"Correlated equilibrium","level":5,"score":0.2694000005722046},{"id":"https://openalex.org/C162324750","wikidata":"https://www.wikidata.org/wiki/Q8134","display_name":"Economics","level":0,"score":0.2635999917984009},{"id":"https://openalex.org/C67091656","wikidata":"https://www.wikidata.org/wiki/Q6771328","display_name":"Markov perfect equilibrium","level":3,"score":0.25929999351501465}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/ijcnn64981.2025.11228019","is_oa":false,"landing_page_url":"https://doi.org/10.1109/ijcnn64981.2025.11228019","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 International Joint Conference on Neural Networks (IJCNN)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":6,"referenced_works":["https://openalex.org/W2006791053","https://openalex.org/W2902907165","https://openalex.org/W2925418831","https://openalex.org/W3088096814","https://openalex.org/W4285093350","https://openalex.org/W4415428471"],"related_works":[],"abstract_inverted_index":{"Finding":[0],"the":[1,16,23,55,59,62,66,87,90,115,163,171,176,186,190],"Nash":[2,146,177],"equilibrium":[3,60,88,178],"in":[4,65,195],"large-scale":[5],"zero-sum":[6],"games":[7,172],"has":[8],"long":[9],"been":[10],"a":[11,33,45,50,71,75,106,111,128,153],"challenging":[12],"problem":[13],"due":[14],"to":[15,58,114,132,143],"vast":[17],"and":[18,22,159,173],"unknown":[19],"policy":[20,52,73,108,113,117,124,134],"space":[21],"utility":[24],"matrix.":[25],"The":[26],"Policy-Space":[27,100],"Response":[28,101],"Oracles":[29,102],"(PSRO)":[30],"framework,":[31],"as":[32,79],"combination":[34],"of":[35,61,89,156,192],"conventional":[36],"game":[37,47,64],"analysis":[38,137],"with":[39],"deep":[40],"reinforcement":[41],"learning,":[42],"iteratively":[43],"constructs":[44],"restricted":[46,63,92],"by":[48],"including":[49],"pure":[51,72,112],"that":[53,85,139,162,185],"is":[54,77],"best":[56],"response":[57],"previous":[67],"iteration.":[68],"However,":[69],"adding":[70],"at":[74],"time":[76],"inefficient,":[78],"there":[80],"may":[81],"be":[82],"multiple":[83],"policies":[84,194],"dominate":[86],"current":[91,116],"game.":[93],"In":[94],"this":[95],"regard,":[96],"we":[97,126],"propose":[98],"Mixed":[99],"(M-PSRO),":[103],"which":[104,197],"add":[105],"mixed":[107,123,193],"rather":[109],"than":[110],"set.":[118],"To":[119],"obtain":[120],"more":[121,179,201],"effective":[122],"candidates,":[125],"adopt":[127],"parallelized":[129],"training":[130],"framework":[131],"promote":[133],"diversity.":[135],"Theoretical":[136],"shows":[138],"M-PSRO":[140,164],"can":[141,174],"converge":[142],"an":[144,199],"approximate":[145],"equilibrium.":[147],"We":[148],"conduct":[149],"extensive":[150],"experiments":[151],"across":[152,169],"wide":[154],"range":[155],"complex":[157],"games,":[158],"results":[160],"show":[161,184],"algorithm":[165],"achieves":[166],"state-of-the-art":[167],"performance":[168],"all":[170],"approach":[175],"efficiently.":[180],"Numerous":[181],"ablation":[182],"studies":[183],"improvement":[187],"benefits":[188],"from":[189],"usage":[191],"M-PSRO,":[196],"offer":[198],"even":[200],"flexible":[202],"optimization":[203],"space.":[204]},"counts_by_year":[],"updated_date":"2026-07-14T23:27:15.235271","created_date":"2025-11-14T00:00:00"}