{"id":"https://openalex.org/W7162788772","doi":"https://doi.org/10.48550/arxiv.2605.30159","title":"Meta-Cognitive Memory Policy Optimization for Long-Horizon LLM Agents","display_name":"Meta-Cognitive Memory Policy Optimization for Long-Horizon LLM Agents","publication_year":2026,"publication_date":"2026-05-28","ids":{"openalex":"https://openalex.org/W7162788772","doi":"https://doi.org/10.48550/arxiv.2605.30159"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2605.30159","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.30159","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2605.30159","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5137323700","display_name":"Ziyan Liu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Liu, Ziyan","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5123306956","display_name":"Zhezheng Hao","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Hao, Zhezheng","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5137320539","display_name":"Yeqiu Chen","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Chen, Yeqiu","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5137362994","display_name":"Hong Wang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Wang, Hong","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5047760076","display_name":"Jingren Hou","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Hou, Jingren","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5101213772","display_name":"Ruiyi Ding","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Ding, Ruiyi","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5102669853","display_name":"Yongkang Yang","orcid":"https://orcid.org/0000-0002-7612-7572"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Yang, Yongkang","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5137359149","display_name":"Wence Ji","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Ji, Wence","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5137322418","display_name":"Wei Xia","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Xia, Wei","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5137315869","display_name":"Feng Liu","orcid":"https://orcid.org/0009-0009-7351-7266"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Liu, Feng","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":10,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":2,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.579200029373169,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.579200029373169,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.08749999850988388,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11307","display_name":"Domain Adaptation and Few-Shot Learning","score":0.03759999945759773,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/task","display_name":"Task (project management)","score":0.633899986743927},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.6187000274658203},{"id":"https://openalex.org/keywords/clarity","display_name":"CLARITY","score":0.6049000024795532},{"id":"https://openalex.org/keywords/focus","display_name":"Focus (optics)","score":0.4814999997615814},{"id":"https://openalex.org/keywords/policy-learning","display_name":"Policy learning","score":0.47589999437332153},{"id":"https://openalex.org/keywords/state","display_name":"State (computer science)","score":0.47099998593330383},{"id":"https://openalex.org/keywords/quality","display_name":"Quality (philosophy)","score":0.42149999737739563},{"id":"https://openalex.org/keywords/proxy","display_name":"Proxy (statistics)","score":0.3840000033378601}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7476000189781189},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.633899986743927},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.6187000274658203},{"id":"https://openalex.org/C2777146004","wikidata":"https://www.wikidata.org/wiki/Q14949826","display_name":"CLARITY","level":2,"score":0.6049000024795532},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5292999744415283},{"id":"https://openalex.org/C192209626","wikidata":"https://www.wikidata.org/wiki/Q190909","display_name":"Focus (optics)","level":2,"score":0.4814999997615814},{"id":"https://openalex.org/C2779436431","wikidata":"https://www.wikidata.org/wiki/Q30672407","display_name":"Policy learning","level":2,"score":0.47589999437332153},{"id":"https://openalex.org/C48103436","wikidata":"https://www.wikidata.org/wiki/Q599031","display_name":"State (computer science)","level":2,"score":0.47099998593330383},{"id":"https://openalex.org/C2779530757","wikidata":"https://www.wikidata.org/wiki/Q1207505","display_name":"Quality (philosophy)","level":2,"score":0.42149999737739563},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.385699987411499},{"id":"https://openalex.org/C2780148112","wikidata":"https://www.wikidata.org/wiki/Q1432581","display_name":"Proxy (statistics)","level":2,"score":0.3840000033378601},{"id":"https://openalex.org/C184337299","wikidata":"https://www.wikidata.org/wiki/Q1437428","display_name":"Semantics (computer science)","level":2,"score":0.36730000376701355},{"id":"https://openalex.org/C175154964","wikidata":"https://www.wikidata.org/wiki/Q380077","display_name":"Task analysis","level":3,"score":0.34950000047683716},{"id":"https://openalex.org/C2780522230","wikidata":"https://www.wikidata.org/wiki/Q1140419","display_name":"Ambiguity","level":2,"score":0.3280999958515167},{"id":"https://openalex.org/C118147538","wikidata":"https://www.wikidata.org/wiki/Q1126970","display_name":"Metacognition","level":3,"score":0.310699999332428},{"id":"https://openalex.org/C197914299","wikidata":"https://www.wikidata.org/wiki/Q18650","display_name":"Semantic memory","level":3,"score":0.29280000925064087},{"id":"https://openalex.org/C137836250","wikidata":"https://www.wikidata.org/wiki/Q984063","display_name":"Optimization problem","level":2,"score":0.2793000042438507},{"id":"https://openalex.org/C21963081","wikidata":"https://www.wikidata.org/wiki/Q11337567","display_name":"Working memory","level":3,"score":0.2775999903678894},{"id":"https://openalex.org/C180747234","wikidata":"https://www.wikidata.org/wiki/Q23373","display_name":"Cognitive psychology","level":1,"score":0.2736999988555908},{"id":"https://openalex.org/C51167844","wikidata":"https://www.wikidata.org/wiki/Q4422623","display_name":"Latent variable","level":2,"score":0.2549999952316284},{"id":"https://openalex.org/C12186640","wikidata":"https://www.wikidata.org/wiki/Q6815743","display_name":"Memory model","level":3,"score":0.2531000077724457}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2605.30159","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.30159","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2605.30159","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.30159","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[{"score":0.6778323650360107,"display_name":"Peace, Justice and strong institutions","id":"https://metadata.un.org/sdg/16"}],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Memory-augmented":[0],"LLM":[1],"agents":[2],"tackle":[3],"complex":[4],"long-horizon":[5,65,160],"tasks":[6],"by":[7,88],"recursively":[8],"summarizing":[9],"interaction":[10],"trajectories":[11],"into":[12],"compact":[13],"memory.":[14,116],"However,":[15],"existing":[16,156],"approaches":[17],"typically":[18],"train":[19],"these":[20],"memory":[21,32,71],"policies":[22],"using":[23],"outcome-based":[24,134],"reinforcement":[25],"learning,":[26],"failing":[27],"to":[28,168],"localize":[29],"where":[30],"intermediate":[31,89],"quality":[33],"degrades.":[34],"As":[35],"interactions":[36],"unfold,":[37],"ambiguous":[38],"recursive":[39],"summaries":[40,144],"progressively":[41],"discard":[42],"task-relevant":[43],"information":[44],"and":[45,62],"introduce":[46,95],"semantic":[47],"noise.":[48],"This":[49],"exacerbates":[50],"belief":[51,86],"deviation,":[52],"obscuring":[53],"the":[54,58,82,85,105,109],"agent's":[55],"estimate":[56],"of":[57,84,129],"latent":[59,110],"task":[60,111],"state":[61,112],"ultimately":[63],"derailing":[64],"reasoning.":[66],"We":[67],"therefore":[68],"argue":[69],"that":[70,101,145,152],"optimization":[72],"should":[73],"focus":[74],"not":[75],"merely":[76],"on":[77,81,118,132,158],"trajectory-level":[78],"success,":[79],"but":[80],"clarity":[83],"induced":[87],"summaries.":[90],"To":[91],"this":[92,119],"end,":[93],"we":[94,121],"Belief":[96],"Entropy,":[97],"a":[98],"self-supervised":[99],"proxy":[100],"probes":[102],"how":[103],"uncertain":[104],"model":[106],"remains":[107],"about":[108],"given":[113],"its":[114],"current":[115],"Based":[117],"proxy,":[120],"propose":[122],"Metacognitive":[123],"Memory":[124],"Policy":[125],"Optimization":[126],"(MMPO).":[127],"Instead":[128],"relying":[130],"only":[131],"sparse":[133],"signals,":[135],"MMPO":[136,153],"provides":[137],"fine-grained,":[138],"memory-specific":[139],"supervision":[140],"via":[141],"explicitly":[142],"penalizing":[143],"induce":[146],"high":[147],"epistemic":[148],"uncertainty.":[149],"Experiments":[150],"show":[151],"consistently":[154],"outperforms":[155],"methods":[157],"diverse":[159],"tasks,":[161],"maintaining":[162],"97.1%":[163],"performance":[164],"even":[165],"when":[166],"scaled":[167],"1.75M-token":[169],"contexts.":[170]},"counts_by_year":[{"year":2026,"cited_by_count":2}],"updated_date":"2026-06-13T07:54:00.901334","created_date":"2026-05-30T00:00:00"}