{"id":"https://openalex.org/W7130726257","doi":"https://doi.org/10.48550/arxiv.2602.16928","title":"Discovering Multiagent Learning Algorithms with Large Language Models","display_name":"Discovering Multiagent Learning Algorithms with Large Language Models","publication_year":2026,"publication_date":"2026-02-18","ids":{"openalex":"https://openalex.org/W7130726257","doi":"https://doi.org/10.48550/arxiv.2602.16928"},"language":null,"primary_location":{"id":"pmh:doi:10.48550/arxiv.2602.16928","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":null,"any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5010030891","display_name":"Zun Li","orcid":"https://orcid.org/0000-0002-2503-9038"},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Li, Zun","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5126497455","display_name":"John Schultz","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Schultz, John","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5126464064","display_name":"Daniel Hennes","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Hennes, Daniel","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5126485769","display_name":"Marc Lanctot","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Lanctot, Marc","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":4,"corresponding_author_ids":["https://openalex.org/A5010030891"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.49149999022483826,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.49149999022483826,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11574","display_name":"Artificial Intelligence in Games","score":0.17030000686645508,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12026","display_name":"Explainable Artificial Intelligence (XAI)","score":0.04919999837875366,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/regret","display_name":"Regret","score":0.76419997215271},{"id":"https://openalex.org/keywords/generality","display_name":"Generality","score":0.6164000034332275},{"id":"https://openalex.org/keywords/population","display_name":"Population","score":0.5070000290870667},{"id":"https://openalex.org/keywords/counterfactual-thinking","display_name":"Counterfactual thinking","score":0.4505000114440918},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.43540000915527344},{"id":"https://openalex.org/keywords/markov-chain","display_name":"Markov chain","score":0.4221000075340271},{"id":"https://openalex.org/keywords/markov-decision-process","display_name":"Markov decision process","score":0.3856000006198883},{"id":"https://openalex.org/keywords/intuition","display_name":"Intuition","score":0.3709999918937683}],"concepts":[{"id":"https://openalex.org/C50817715","wikidata":"https://www.wikidata.org/wiki/Q79895177","display_name":"Regret","level":2,"score":0.76419997215271},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.694100022315979},{"id":"https://openalex.org/C2780767217","wikidata":"https://www.wikidata.org/wiki/Q5532421","display_name":"Generality","level":2,"score":0.6164000034332275},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5273000001907349},{"id":"https://openalex.org/C2908647359","wikidata":"https://www.wikidata.org/wiki/Q2625603","display_name":"Population","level":2,"score":0.5070000290870667},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.4860999882221222},{"id":"https://openalex.org/C108650721","wikidata":"https://www.wikidata.org/wiki/Q1783253","display_name":"Counterfactual thinking","level":2,"score":0.4505000114440918},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.43540000915527344},{"id":"https://openalex.org/C98763669","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov chain","level":2,"score":0.4221000075340271},{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.3856000006198883},{"id":"https://openalex.org/C132010649","wikidata":"https://www.wikidata.org/wiki/Q189222","display_name":"Intuition","level":2,"score":0.3709999918937683},{"id":"https://openalex.org/C71889745","wikidata":"https://www.wikidata.org/wiki/Q1783264","display_name":"Counterfactual conditional","level":3,"score":0.34450000524520874},{"id":"https://openalex.org/C179518139","wikidata":"https://www.wikidata.org/wiki/Q5140297","display_name":"Coding (social sciences)","level":2,"score":0.3294999897480011},{"id":"https://openalex.org/C22367795","wikidata":"https://www.wikidata.org/wiki/Q7625208","display_name":"Structured prediction","level":2,"score":0.32260000705718994},{"id":"https://openalex.org/C159149176","wikidata":"https://www.wikidata.org/wiki/Q14489129","display_name":"Evolutionary algorithm","level":2,"score":0.3199999928474426},{"id":"https://openalex.org/C80444323","wikidata":"https://www.wikidata.org/wiki/Q2878974","display_name":"Theoretical computer science","level":1,"score":0.31940001249313354},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.30720001459121704},{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.3028999865055084},{"id":"https://openalex.org/C127705205","wikidata":"https://www.wikidata.org/wiki/Q5748245","display_name":"Heuristics","level":2,"score":0.2913999855518341},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.2879999876022339},{"id":"https://openalex.org/C2776330181","wikidata":"https://www.wikidata.org/wiki/Q18358244","display_name":"Maximization","level":2,"score":0.27619999647140503},{"id":"https://openalex.org/C2776214188","wikidata":"https://www.wikidata.org/wiki/Q408386","display_name":"Inference","level":2,"score":0.2736999988555908},{"id":"https://openalex.org/C165064840","wikidata":"https://www.wikidata.org/wiki/Q1321061","display_name":"Matching (statistics)","level":2,"score":0.2653000056743622},{"id":"https://openalex.org/C2780310539","wikidata":"https://www.wikidata.org/wiki/Q12547192","display_name":"Imperfect","level":2,"score":0.26109999418258667},{"id":"https://openalex.org/C207685749","wikidata":"https://www.wikidata.org/wiki/Q2088941","display_name":"Domain knowledge","level":2,"score":0.2574999928474426}],"mesh":[],"locations_count":2,"locations":[{"id":"pmh:doi:10.48550/arxiv.2602.16928","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},{"id":"doi:10.48550/arxiv.2602.16928","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2602.16928","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"pmh:doi:10.48550/arxiv.2602.16928","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},"sustainable_development_goals":[{"display_name":"Peace, Justice and strong institutions","score":0.409402459859848,"id":"https://metadata.un.org/sdg/16"}],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Much":[0],"of":[1,4,19,42,66,88,99,106,154],"the":[2,40,64,86,104,112,152,209,212],"advancement":[3],"Multi-Agent":[5],"Reinforcement":[6],"Learning":[7],"(MARL)":[8],"in":[9,103,151],"imperfect-information":[10],"games":[11],"has":[12],"historically":[13],"depended":[14],"on":[15,36,49],"manual":[16],"iterative":[17,107],"refinement":[18],"baselines.":[20],"While":[21],"foundational":[22],"families":[23],"like":[24,146],"Counterfactual":[25],"Regret":[26,176,187],"Minimization":[27],"(CFR)":[28],"and":[29,117,136,162,204],"Policy":[30],"Space":[31],"Response":[32],"Oracles":[33],"(PSRO)":[34],"rest":[35],"solid":[37],"theoretical":[38],"ground,":[39],"design":[41,57],"their":[43],"most":[44],"effective":[45],"variants":[46,94],"often":[47],"relies":[48],"human":[50],"intuition":[51],"to":[52,77,217,226],"navigate":[53],"a":[54,121,137,170,180,190],"vast":[55],"algorithmic":[56],"space.":[58],"In":[59],"this":[60,89,201],"work,":[61],"we":[62,110,159],"propose":[63],"use":[65],"AlphaEvolve,":[67],"an":[68],"evolutionary":[69],"coding":[70],"agent":[71],"powered":[72],"by":[73,91],"large":[74],"language":[75],"models,":[76],"automatically":[78],"discover":[79],"new":[80,122,171],"multiagent":[81],"learning":[82],"algorithms.":[83],"We":[84],"demonstrate":[85],"generality":[87],"framework":[90],"evolving":[92],"novel":[93],"for":[95,167],"two":[96],"distinct":[97],"paradigms":[98],"game-theoretic":[100],"learning.":[101],"First,":[102],"domain":[105],"regret":[108,115],"minimization,":[109],"evolve":[111,160],"logic":[113],"governing":[114],"accumulation":[116,141],"policy":[118,140],"derivation,":[119],"discovering":[120,169],"algorithm,":[123],"Volatility-Adaptive":[124],"Discounted":[125,147],"(VAD-)CFR.":[126],"VAD-CFR":[127],"employs":[128],"novel,":[129],"non-intuitive":[130],"mechanisms-including":[131],"volatility-sensitive":[132],"discounting,":[133],"consistency-enforced":[134],"optimism,":[135],"hard":[138],"warm-start":[139],"schedule-to":[142],"outperform":[143],"state-of-the-art":[144],"baselines":[145],"Predictive":[148],"CFR+.":[149],"Second,":[150],"regime":[153],"population":[155,215],"based":[156],"training":[157],"algorithms,":[158],"training-time":[161],"evaluation-time":[163],"meta":[164],"strategy":[165],"solvers":[166],"PSRO,":[168],"variant,":[172],"Smoothed":[173],"Hybrid":[174],"Optimistic":[175,186],"(SHOR-)PSRO.":[177],"SHOR-PSRO":[178],"introduces":[179],"hybrid":[181],"meta-solver":[182],"that":[183],"linearly":[184],"blends":[185],"Matching":[188],"with":[189],"smoothed,":[191],"temperature-controlled":[192],"distribution":[193],"over":[194],"best":[195],"pure":[196],"strategies.":[197],"By":[198],"dynamically":[199],"annealing":[200],"blending":[202],"factor":[203],"diversity":[205,216],"bonuses":[206],"during":[207],"training,":[208],"algorithm":[210],"automates":[211],"transition":[213],"from":[214],"rigorous":[218],"equilibrium":[219],"finding,":[220],"yielding":[221],"superior":[222],"empirical":[223],"convergence":[224],"compared":[225],"standard":[227],"static":[228],"meta-solvers.":[229]},"counts_by_year":[],"updated_date":"2026-04-04T16:13:02.066488","created_date":"2026-02-21T00:00:00"}