{"id":"https://openalex.org/W7135175002","doi":"https://doi.org/10.48550/arxiv.2603.11327","title":"Meta-Reinforcement Learning with Self-Reflection for Agentic Search","display_name":"Meta-Reinforcement Learning with Self-Reflection for Agentic Search","publication_year":2026,"publication_date":"2026-03-11","ids":{"openalex":"https://openalex.org/W7135175002","doi":"https://doi.org/10.48550/arxiv.2603.11327"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2603.11327","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.11327","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2603.11327","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5129023021","display_name":"Teng Xiao","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Xiao, Teng","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5129074834","display_name":"Yige Yuan","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Yuan, Yige","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5055099110","display_name":"Hamish Ivison","orcid":"https://orcid.org/0000-0002-0069-7659"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Ivison, Hamish","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5039112361","display_name":"Huaisheng Zhu","orcid":"https://orcid.org/0009-0002-0688-6466"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhu, Huaisheng","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5076297634","display_name":"Faeze Brahman","orcid":"https://orcid.org/0009-0008-4452-1488"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Brahman, Faeze","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5083548887","display_name":"Nathan Lambert","orcid":"https://orcid.org/0000-0002-9997-6817"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Lambert, Nathan","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5029074038","display_name":"Pradeep Dasigi","orcid":"https://orcid.org/0000-0001-7127-1316"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Dasigi, Pradeep","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5102004623","display_name":"Noah A. Smith","orcid":"https://orcid.org/0000-0002-2387-9789"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Smith, Noah A.","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5128929033","display_name":"Hannaneh Hajishirzi","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Hajishirzi, Hannaneh","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":9,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.7663000226020813,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.7663000226020813,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11574","display_name":"Artificial Intelligence in Games","score":0.14830000698566437,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.014800000004470348,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.6607000231742859},{"id":"https://openalex.org/keywords/generalization","display_name":"Generalization","score":0.5212000012397766},{"id":"https://openalex.org/keywords/context","display_name":"Context (archaeology)","score":0.5156000256538391},{"id":"https://openalex.org/keywords/train","display_name":"Train","score":0.4672999978065491},{"id":"https://openalex.org/keywords/code","display_name":"Code (set theory)","score":0.44110000133514404},{"id":"https://openalex.org/keywords/policy-learning","display_name":"Policy learning","score":0.3465000092983246},{"id":"https://openalex.org/keywords/search-algorithm","display_name":"Search algorithm","score":0.32089999318122864}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6743999719619751},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.6607000231742859},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.560699999332428},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5353000164031982},{"id":"https://openalex.org/C177148314","wikidata":"https://www.wikidata.org/wiki/Q170084","display_name":"Generalization","level":2,"score":0.5212000012397766},{"id":"https://openalex.org/C2779343474","wikidata":"https://www.wikidata.org/wiki/Q3109175","display_name":"Context (archaeology)","level":2,"score":0.5156000256538391},{"id":"https://openalex.org/C190839683","wikidata":"https://www.wikidata.org/wiki/Q2448197","display_name":"Train","level":2,"score":0.4672999978065491},{"id":"https://openalex.org/C2776760102","wikidata":"https://www.wikidata.org/wiki/Q5139990","display_name":"Code (set theory)","level":3,"score":0.44110000133514404},{"id":"https://openalex.org/C2779436431","wikidata":"https://www.wikidata.org/wiki/Q30672407","display_name":"Policy learning","level":2,"score":0.3465000092983246},{"id":"https://openalex.org/C125583679","wikidata":"https://www.wikidata.org/wiki/Q755673","display_name":"Search algorithm","level":2,"score":0.32089999318122864},{"id":"https://openalex.org/C19889080","wikidata":"https://www.wikidata.org/wiki/Q2835852","display_name":"Beam search","level":3,"score":0.3122999966144562},{"id":"https://openalex.org/C12725497","wikidata":"https://www.wikidata.org/wiki/Q810247","display_name":"Baseline (sea)","level":2,"score":0.30709999799728394},{"id":"https://openalex.org/C166052673","wikidata":"https://www.wikidata.org/wiki/Q83021","display_name":"Empirical evidence","level":2,"score":0.3012999892234802},{"id":"https://openalex.org/C2781002164","wikidata":"https://www.wikidata.org/wiki/Q6822311","display_name":"Meta learning (computer science)","level":3,"score":0.2946000099182129},{"id":"https://openalex.org/C177264268","wikidata":"https://www.wikidata.org/wiki/Q1514741","display_name":"Set (abstract data type)","level":2,"score":0.2903999984264374},{"id":"https://openalex.org/C77967617","wikidata":"https://www.wikidata.org/wiki/Q4677561","display_name":"Active learning (machine learning)","level":2,"score":0.2865000069141388},{"id":"https://openalex.org/C120936955","wikidata":"https://www.wikidata.org/wiki/Q2155640","display_name":"Empirical research","level":2,"score":0.2791999876499176}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2603.11327","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.11327","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2603.11327","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.11327","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"This":[0],"paper":[1],"introduces":[2],"MR-Search,":[3],"an":[4],"in-context":[5,59],"meta":[6],"reinforcement":[7],"learning":[8],"(RL)":[9],"formulation":[10],"for":[11],"agentic":[12],"search":[13,41,50,55],"with":[14,26,52],"self-reflection.":[15],"Instead":[16],"of":[17,124,136],"optimizing":[18],"a":[19,22,31,49,95,101],"policy":[20,32],"within":[21],"single":[23],"independent":[24],"episode":[25,74],"sparse":[27],"rewards,":[28],"MR-Search":[29,45,64,125],"trains":[30],"that":[33,99],"conditions":[34],"on":[35,113],"past":[36],"episodes":[37],"and":[38,75,133,145],"adapts":[39],"its":[40],"strategy":[42,51],"across":[43,118,140],"episodes.":[44],"learns":[46],"to":[47,57,81,138],"learn":[48],"self-reflection,":[53],"allowing":[54],"agents":[56],"improve":[58],"exploration":[60,67,89],"at":[61,105,149],"test-time.":[62,91],"Specifically,":[63],"performs":[65],"cross-episode":[66],"by":[68],"generating":[69],"explicit":[70],"self-reflections":[71],"after":[72],"each":[73,114],"leveraging":[76],"them":[77],"as":[78],"additional":[79],"context":[80],"guide":[82],"subsequent":[83],"attempts,":[84],"thereby":[85],"promoting":[86],"more":[87],"effective":[88],"during":[90],"We":[92],"further":[93],"introduce":[94],"multi-turn":[96],"RL":[97],"algorithm":[98],"estimates":[100],"dense":[102],"relative":[103,134],"advantage":[104],"the":[106,122],"turn":[107],"level,":[108],"enabling":[109],"fine-grained":[110],"credit":[111],"assignment":[112],"episode.":[115],"Empirical":[116],"results":[117],"various":[119],"benchmarks":[120],"demonstrate":[121],"advantages":[123],"over":[126],"baselines":[127],"based":[128],"RL,":[129],"showing":[130],"strong":[131],"generalization":[132],"improvements":[135],"9.2%":[137],"19.3%":[139],"eight":[141],"benchmarks.":[142],"Our":[143],"code":[144],"data":[146],"are":[147],"available":[148],"https://github.com/tengxiao1/MR-Search.":[150]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2026-03-14T00:00:00"}