{"id":"https://openalex.org/W7135037267","doi":"https://doi.org/10.48550/arxiv.2603.10098","title":"Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models","display_name":"Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models","publication_year":2026,"publication_date":"2026-03-10","ids":{"openalex":"https://openalex.org/W7135037267","doi":"https://doi.org/10.48550/arxiv.2603.10098"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2603.10098","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.10098","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2603.10098","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5043984392","display_name":"Daniel Hennes","orcid":"https://orcid.org/0000-0002-3646-5286"},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Hennes, Daniel","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5128861085","display_name":"Zun Li","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Li, Zun","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5128871113","display_name":"John Schultz","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Schultz, John","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5128859083","display_name":"Marc Lanctot","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Lanctot, Marc","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":4,"corresponding_author_ids":["https://openalex.org/A5043984392"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T12026","display_name":"Explainable Artificial Intelligence (XAI)","score":0.41780000925064087,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T12026","display_name":"Explainable Artificial Intelligence (XAI)","score":0.41780000925064087,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.3361999988555908,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.028699999675154686,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.6819999814033508},{"id":"https://openalex.org/keywords/construct","display_name":"Construct (python library)","score":0.6747999787330627},{"id":"https://openalex.org/keywords/perspective","display_name":"Perspective (graphical)","score":0.6256999969482422},{"id":"https://openalex.org/keywords/focus","display_name":"Focus (optics)","score":0.5648000240325928},{"id":"https://openalex.org/keywords/set","display_name":"Set (abstract data type)","score":0.5627999901771545},{"id":"https://openalex.org/keywords/computation","display_name":"Computation","score":0.5350000262260437},{"id":"https://openalex.org/keywords/code","display_name":"Code (set theory)","score":0.5055999755859375},{"id":"https://openalex.org/keywords/language-model","display_name":"Language model","score":0.3578999936580658}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.8169999718666077},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.6819999814033508},{"id":"https://openalex.org/C2780801425","wikidata":"https://www.wikidata.org/wiki/Q5164392","display_name":"Construct (python library)","level":2,"score":0.6747999787330627},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6316999793052673},{"id":"https://openalex.org/C12713177","wikidata":"https://www.wikidata.org/wiki/Q1900281","display_name":"Perspective (graphical)","level":2,"score":0.6256999969482422},{"id":"https://openalex.org/C192209626","wikidata":"https://www.wikidata.org/wiki/Q190909","display_name":"Focus (optics)","level":2,"score":0.5648000240325928},{"id":"https://openalex.org/C177264268","wikidata":"https://www.wikidata.org/wiki/Q1514741","display_name":"Set (abstract data type)","level":2,"score":0.5627999901771545},{"id":"https://openalex.org/C45374587","wikidata":"https://www.wikidata.org/wiki/Q12525525","display_name":"Computation","level":2,"score":0.5350000262260437},{"id":"https://openalex.org/C2776760102","wikidata":"https://www.wikidata.org/wiki/Q5139990","display_name":"Code (set theory)","level":3,"score":0.5055999755859375},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.4925999939441681},{"id":"https://openalex.org/C137293760","wikidata":"https://www.wikidata.org/wiki/Q3621696","display_name":"Language model","level":2,"score":0.3578999936580658},{"id":"https://openalex.org/C43126263","wikidata":"https://www.wikidata.org/wiki/Q128751","display_name":"Source code","level":2,"score":0.35510000586509705},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.3540000021457672},{"id":"https://openalex.org/C2777212361","wikidata":"https://www.wikidata.org/wiki/Q5127848","display_name":"Class (philosophy)","level":2,"score":0.3321000039577484},{"id":"https://openalex.org/C108583219","wikidata":"https://www.wikidata.org/wiki/Q197536","display_name":"Deep learning","level":2,"score":0.3043000102043152},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.3003000020980835},{"id":"https://openalex.org/C2984842247","wikidata":"https://www.wikidata.org/wiki/Q197536","display_name":"Deep neural networks","level":3,"score":0.28540000319480896},{"id":"https://openalex.org/C143587482","wikidata":"https://www.wikidata.org/wiki/Q1543216","display_name":"Iterative and incremental development","level":2,"score":0.2727999985218048},{"id":"https://openalex.org/C105902424","wikidata":"https://www.wikidata.org/wiki/Q1197129","display_name":"Evolutionary computation","level":2,"score":0.2587999999523163},{"id":"https://openalex.org/C44291984","wikidata":"https://www.wikidata.org/wiki/Q1074173","display_name":"Question answering","level":2,"score":0.257099986076355}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2603.10098","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.10098","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2603.10098","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.10098","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[{"display_name":"Peace, Justice and strong institutions","score":0.6353489756584167,"id":"https://metadata.un.org/sdg/16"}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Recent":[0],"advances":[1],"in":[2,19],"multi-agent":[3,155],"reinforcement":[4,29],"learning,":[5,156],"particularly":[6],"Policy-Space":[7],"Response":[8,49],"Oracles":[9,50],"(PSRO),":[10],"have":[11],"enabled":[12],"the":[13,70,100,158],"computation":[14,73],"of":[15,145],"approximate":[16],"game-theoretic":[17],"equilibria":[18],"increasingly":[20],"complex":[21],"domains.":[22],"However,":[23],"these":[24],"methods":[25],"rely":[26],"on":[27,154],"deep":[28],"learning":[30],"oracles":[31,62],"that":[32,55,133],"produce":[33],"`black-box'":[34],"neural":[35],"network":[36],"policies,":[37],"making":[38],"them":[39],"difficult":[40],"to":[41,82,104,113,165],"interpret,":[42],"trust":[43],"or":[44],"debug.":[45],"We":[46,109,131],"introduce":[47],"Code-Space":[48],"(CSRO),":[51],"a":[52,75,126,142,151],"novel":[53],"framework":[54],"addresses":[56],"this":[57],"challenge":[58],"by":[59],"replacing":[60],"RL":[61],"with":[63,138],"Large":[64],"Language":[65],"Models":[66],"(LLMs).":[67],"CSRO":[68,134],"reframes":[69],"best":[71],"response":[72],"as":[74,86],"code":[76],"generation":[77],"task,":[78],"prompting":[79],"an":[80,117],"LLM":[81],"generate":[83],"policies":[84,96],"directly":[85],"human-readable":[87],"code.":[88],"This":[89],"approach":[90],"not":[91],"only":[92],"yields":[93],"inherently":[94],"interpretable":[95,167],"but":[97],"also":[98],"leverages":[99],"LLM's":[101],"pretrained":[102],"knowledge":[103],"discover":[105],"complex,":[106],"human-like":[107],"strategies.":[108],"explore":[110],"multiple":[111],"ways":[112],"construct":[114],"and":[115,124],"enhance":[116],"LLM-based":[118,128],"oracle:":[119],"zero-shot":[120],"prompting,":[121],"iterative":[122],"refinement":[123],"\\emph{AlphaEvolve},":[125],"distributed":[127],"evolutionary":[129],"system.":[130],"demonstrate":[132],"achieves":[135],"performance":[136],"competitive":[137],"baselines":[139],"while":[140],"producing":[141],"diverse":[143],"set":[144],"explainable":[146],"policies.":[147],"Our":[148],"work":[149],"presents":[150],"new":[152],"perspective":[153],"shifting":[157],"focus":[159],"from":[160],"optimizing":[161],"opaque":[162],"policy":[163],"parameters":[164],"synthesizing":[166],"algorithmic":[168],"behavior.":[169]},"counts_by_year":[],"updated_date":"2026-05-05T08:41:31.759640","created_date":"2026-03-13T00:00:00"}