{"id":"https://openalex.org/W7147434172","doi":"https://doi.org/10.48550/arxiv.2603.28716","title":"Dynamic Dual-Granularity Skill Bank for Agentic RL","display_name":"Dynamic Dual-Granularity Skill Bank for Agentic RL","publication_year":2026,"publication_date":"2026-03-30","ids":{"openalex":"https://openalex.org/W7147434172","doi":"https://doi.org/10.48550/arxiv.2603.28716"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2603.28716","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.28716","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2603.28716","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5132565521","display_name":"Songjun Tu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Tu, Songjun","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5124126739","display_name":"Chengdong Xu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Xu, Chengdong","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5132569568","display_name":"Qichao Zhang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhang, Qichao","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5132599181","display_name":"Yaocheng Zhang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhang, Yaocheng","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5132581736","display_name":"Xiangyuan Lan","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Lan, Xiangyuan","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5132695042","display_name":"Linjing Li","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Li, Linjing","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5132720432","display_name":"Dongbin Zhao","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Li, Dong","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":null,"display_name":"Zhao, Dongbin","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhao, Dongbin","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":8,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.8776999711990356,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.8776999711990356,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.02319999970495701,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11307","display_name":"Domain Adaptation and Few-Shot Learning","score":0.018400000408291817,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/hindsight-bias","display_name":"Hindsight bias","score":0.7950999736785889},{"id":"https://openalex.org/keywords/task","display_name":"Task (project management)","score":0.6398000121116638},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.617900013923645},{"id":"https://openalex.org/keywords/dreyfus-model-of-skill-acquisition","display_name":"Dreyfus model of skill acquisition","score":0.5831000208854675},{"id":"https://openalex.org/keywords/train","display_name":"Train","score":0.5127999782562256},{"id":"https://openalex.org/keywords/reflection","display_name":"Reflection (computer programming)","score":0.46239998936653137},{"id":"https://openalex.org/keywords/baseline","display_name":"Baseline (sea)","score":0.4481000006198883}],"concepts":[{"id":"https://openalex.org/C10347200","wikidata":"https://www.wikidata.org/wiki/Q1960297","display_name":"Hindsight bias","level":2,"score":0.7950999736785889},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.6398000121116638},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.617900013923645},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6035000085830688},{"id":"https://openalex.org/C132758656","wikidata":"https://www.wikidata.org/wiki/Q5307365","display_name":"Dreyfus model of skill acquisition","level":2,"score":0.5831000208854675},{"id":"https://openalex.org/C190839683","wikidata":"https://www.wikidata.org/wiki/Q2448197","display_name":"Train","level":2,"score":0.5127999782562256},{"id":"https://openalex.org/C65682993","wikidata":"https://www.wikidata.org/wiki/Q1056451","display_name":"Reflection (computer programming)","level":2,"score":0.46239998936653137},{"id":"https://openalex.org/C12725497","wikidata":"https://www.wikidata.org/wiki/Q810247","display_name":"Baseline (sea)","level":2,"score":0.4481000006198883},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.3481999933719635},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.33959999680519104},{"id":"https://openalex.org/C2777938197","wikidata":"https://www.wikidata.org/wiki/Q7834022","display_name":"Transfer of training","level":2,"score":0.3294999897480011},{"id":"https://openalex.org/C175154964","wikidata":"https://www.wikidata.org/wiki/Q380077","display_name":"Task analysis","level":3,"score":0.3077999949455261},{"id":"https://openalex.org/C176777502","wikidata":"https://www.wikidata.org/wiki/Q4774623","display_name":"Anticipation (artificial intelligence)","level":2,"score":0.2989000082015991},{"id":"https://openalex.org/C180747234","wikidata":"https://www.wikidata.org/wiki/Q23373","display_name":"Cognitive psychology","level":1,"score":0.29789999127388},{"id":"https://openalex.org/C56739046","wikidata":"https://www.wikidata.org/wiki/Q192060","display_name":"Knowledge management","level":1,"score":0.2888999879360199},{"id":"https://openalex.org/C2777211547","wikidata":"https://www.wikidata.org/wiki/Q17141490","display_name":"Training (meteorology)","level":2,"score":0.2761000096797943},{"id":"https://openalex.org/C59656382","wikidata":"https://www.wikidata.org/wiki/Q191536","display_name":"Conjunction (astronomy)","level":2,"score":0.27410000562667847},{"id":"https://openalex.org/C15744967","wikidata":"https://www.wikidata.org/wiki/Q9418","display_name":"Psychology","level":0,"score":0.25839999318122864},{"id":"https://openalex.org/C177264268","wikidata":"https://www.wikidata.org/wiki/Q1514741","display_name":"Set (abstract data type)","level":2,"score":0.25679999589920044}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2603.28716","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.28716","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2603.28716","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.28716","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[{"id":"https://metadata.un.org/sdg/4","display_name":"Quality Education","score":0.4277143180370331}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Agentic":[0],"RL":[1,37],"can":[2],"benefit":[3],"substantially":[4,123],"from":[5,94],"reusable":[6,40],"experience,":[7,96],"yet":[8],"existing":[9],"skill-based":[10],"methods":[11],"mainly":[12],"extract":[13],"trajectory-level":[14],"guidance":[15,47],"and":[16,48,55,63,69,89,105,110,116,136,144,164],"often":[17],"lack":[18],"principled":[19],"mechanisms":[20],"for":[21,35,45,51,85],"maintaining":[22],"an":[23],"evolving":[24],"skill":[25,33,64,87,98,142,146],"memory.":[26],"We":[27],"propose":[28],"D2Skill,":[29],"a":[30],"dynamic":[31,145],"dual-granularity":[32,141],"bank":[34,65,99],"agentic":[36],"that":[38,121,139],"organizes":[39],"experience":[41],"into":[42],"task":[43],"skills":[44,50,156],"high-level":[46],"step":[49],"fine-grained":[52],"decision":[53],"support":[54],"error":[56],"correction.":[57],"D2Skill":[58,122],"jointly":[59],"trains":[60],"the":[61,73,97,154],"policy":[62,90],"through":[66,103],"paired":[67],"baseline":[68],"skill-injected":[70],"rollouts":[71],"under":[72],"same":[74],"policy,":[75],"using":[76],"their":[77],"performance":[78,125],"gap":[79],"to":[80,150],"derive":[81],"hindsight":[82],"utility":[83],"signals":[84],"both":[86,140],"updating":[88],"optimization.":[91],"Built":[92],"entirely":[93],"training-time":[95],"is":[100],"continuously":[101],"expanded":[102],"reflection":[104],"maintained":[106],"with":[107],"utility-aware":[108],"retrieval":[109],"pruning.":[111],"Experiments":[112],"on":[113],"ALFWorld,":[114],"WebShop,":[115],"Search-Augmented":[117],"QA":[118],"tasks":[119],"show":[120,138],"improves":[124],"over":[126],"skill-free":[127],"baselines":[128],"across":[129,161],"models":[130],"of":[131],"different":[132],"scales.":[133],"Further":[134],"ablations":[135],"analyses":[137],"modeling":[143],"maintenance":[147],"are":[148],"critical":[149],"these":[151],"gains,":[152],"while":[153],"learned":[155],"exhibit":[157],"higher":[158],"utility,":[159],"transfer":[160],"evaluation":[162],"settings,":[163],"introduce":[165],"only":[166],"modest":[167],"training":[168],"overhead.":[169]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2026-04-02T00:00:00"}