{"id":"https://openalex.org/W7148853812","doi":"https://doi.org/10.48550/arxiv.2604.01560","title":"DeltaMem: Towards Agentic Memory Management via Reinforcement Learning","display_name":"DeltaMem: Towards Agentic Memory Management via Reinforcement Learning","publication_year":2026,"publication_date":"2026-04-02","ids":{"openalex":"https://openalex.org/W7148853812","doi":"https://doi.org/10.48550/arxiv.2604.01560"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2604.01560","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.01560","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2604.01560","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5132895871","display_name":"Qi Zhang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhang, Qi","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5132918148","display_name":"Shen Huang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Huang, Shen","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5132890014","display_name":"Chu Liu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Liu, Chu","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5078654359","display_name":"Shouqing Yang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Yang, Shouqing","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5132852153","display_name":"Junbo Zhao","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhao, Junbo","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5132869622","display_name":"Haobo Wang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Wang, Haobo","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5121689935","display_name":"Pengjun Xie","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Xie, Pengjun","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":7,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T14074","display_name":"Persona Design and Applications","score":0.2612999975681305,"subfield":{"id":"https://openalex.org/subfields/1709","display_name":"Human-Computer Interaction"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T14074","display_name":"Persona Design and Applications","score":0.2612999975681305,"subfield":{"id":"https://openalex.org/subfields/1709","display_name":"Human-Computer Interaction"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T13471","display_name":"Cognitive Functions and Memory","score":0.07190000265836716,"subfield":{"id":"https://openalex.org/subfields/3205","display_name":"Experimental and Cognitive Psychology"},"field":{"id":"https://openalex.org/fields/32","display_name":"Psychology"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},{"id":"https://openalex.org/T12607","display_name":"Personal Information Management and User Behavior","score":0.06710000336170197,"subfield":{"id":"https://openalex.org/subfields/1802","display_name":"Information Systems and Management"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/task","display_name":"Task (project management)","score":0.6297000050544739},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.6129000186920166},{"id":"https://openalex.org/keywords/memory-management","display_name":"Memory management","score":0.4625999927520752},{"id":"https://openalex.org/keywords/human-memory","display_name":"Human memory","score":0.4413999915122986},{"id":"https://openalex.org/keywords/encoding","display_name":"Encoding (memory)","score":0.3479999899864197},{"id":"https://openalex.org/keywords/task-management","display_name":"Task management","score":0.321399986743927},{"id":"https://openalex.org/keywords/reinforcement","display_name":"Reinforcement","score":0.30820000171661377}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.695900022983551},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.6297000050544739},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.6129000186920166},{"id":"https://openalex.org/C176649486","wikidata":"https://www.wikidata.org/wiki/Q2308807","display_name":"Memory management","level":3,"score":0.4625999927520752},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.4578999876976013},{"id":"https://openalex.org/C2985957978","wikidata":"https://www.wikidata.org/wiki/Q492","display_name":"Human memory","level":3,"score":0.4413999915122986},{"id":"https://openalex.org/C107457646","wikidata":"https://www.wikidata.org/wiki/Q207434","display_name":"Human\u2013computer interaction","level":1,"score":0.4325000047683716},{"id":"https://openalex.org/C125411270","wikidata":"https://www.wikidata.org/wiki/Q18653","display_name":"Encoding (memory)","level":2,"score":0.3479999899864197},{"id":"https://openalex.org/C188147891","wikidata":"https://www.wikidata.org/wiki/Q147638","display_name":"Cognitive science","level":1,"score":0.322299987077713},{"id":"https://openalex.org/C2780021488","wikidata":"https://www.wikidata.org/wiki/Q759682","display_name":"Task management","level":3,"score":0.321399986743927},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.30820000171661377},{"id":"https://openalex.org/C30390489","wikidata":"https://www.wikidata.org/wiki/Q4680748","display_name":"Adaptive memory","level":3,"score":0.3010999858379364},{"id":"https://openalex.org/C12186640","wikidata":"https://www.wikidata.org/wiki/Q6815743","display_name":"Memory model","level":3,"score":0.3000999987125397},{"id":"https://openalex.org/C2777515626","wikidata":"https://www.wikidata.org/wiki/Q496939","display_name":"Levenshtein distance","level":2,"score":0.2777999937534332},{"id":"https://openalex.org/C175154964","wikidata":"https://www.wikidata.org/wiki/Q380077","display_name":"Task analysis","level":3,"score":0.27730000019073486},{"id":"https://openalex.org/C21963081","wikidata":"https://www.wikidata.org/wiki/Q11337567","display_name":"Working memory","level":3,"score":0.26969999074935913},{"id":"https://openalex.org/C2781355261","wikidata":"https://www.wikidata.org/wiki/Q2727939","display_name":"Organizational memory","level":3,"score":0.26969999074935913},{"id":"https://openalex.org/C180747234","wikidata":"https://www.wikidata.org/wiki/Q23373","display_name":"Cognitive psychology","level":1,"score":0.2694999873638153},{"id":"https://openalex.org/C118702147","wikidata":"https://www.wikidata.org/wiki/Q189396","display_name":"Dynamic random-access memory","level":3,"score":0.2547999918460846}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2604.01560","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.01560","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2604.01560","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.01560","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Recent":[0],"advances":[1],"in":[2,13,18,37],"persona-centric":[3,53],"memory":[4,48,54,72,82,93,109,143],"have":[5],"revealed":[6],"the":[7,67,78,108,122],"powerful":[8],"capability":[9],"of":[10,69,80,125],"multi-agent":[11],"systems":[12],"managing":[14],"persona":[15],"memory,":[16],"especially":[17],"conversational":[19],"scenarios.":[20],"However,":[21],"these":[22],"complex":[23],"frameworks":[24],"often":[25],"suffer":[26],"from":[27,77],"information":[28],"loss":[29],"and":[30,83,112,133,148],"are":[31],"fragile":[32],"across":[33,140],"varying":[34],"scenarios,":[35],"resulting":[36],"suboptimal":[38],"performance.":[39],"In":[40],"this":[41],"paper,":[42],"we":[43,74,99],"propose":[44,113],"DeltaMem,":[45],"an":[46,57],"agentic":[47,71],"management":[49,55,123],"system":[50],"that":[51,130],"formulates":[52],"as":[56],"end-to-end":[58],"task":[59],"within":[60],"a":[61,85,101,114],"single-agent":[62],"setting.":[63],"To":[64],"further":[65,120],"improve":[66],"performance":[68],"our":[70],"manager,":[73],"draw":[75],"inspiration":[76],"evolution":[79],"human":[81],"synthesize":[84],"user-assistant":[86],"dialogue":[87],"dataset":[88],"along":[89],"with":[90],"corresponding":[91],"operation-level":[92],"updating":[94,110],"labels.":[95],"Building":[96],"on":[97],"this,":[98],"introduce":[100],"novel":[102],"Memory-based":[103],"Levenshtein":[104],"Distance":[105],"to":[106,119],"formalize":[107],"reward,":[111],"tailored":[115],"reinforcement":[116],"learning":[117],"framework":[118],"enhance":[121],"capabilities":[124],"DeltaMem.":[126],"Extensive":[127],"experiments":[128],"show":[129],"both":[131],"training-free":[132],"RL-trained":[134],"DeltaMem":[135],"outperform":[136],"all":[137],"product-level":[138],"baselines":[139],"diverse":[141],"long-term":[142],"benchmarks,":[144],"including":[145],"LoCoMo,":[146],"HaluMem,":[147],"PersonaMem.":[149]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2026-04-04T00:00:00"}