{"id":"https://openalex.org/W7130605930","doi":"https://doi.org/10.48550/arxiv.2602.16165","title":"HiPER: Hierarchical Reinforcement Learning with Explicit Credit Assignment for Large Language Model Agents","display_name":"HiPER: Hierarchical Reinforcement Learning with Explicit Credit Assignment for Large Language Model Agents","publication_year":2026,"publication_date":"2026-02-18","ids":{"openalex":"https://openalex.org/W7130605930","doi":"https://doi.org/10.48550/arxiv.2602.16165"},"language":null,"primary_location":{"id":"pmh:doi:10.48550/arxiv.2602.16165","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"publisher-specific-oa","license_id":"https://openalex.org/licenses/publisher-specific-oa","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":null,"any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5126391805","display_name":"Jiangweizhi Peng","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Peng, Jiangweizhi","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5126426351","display_name":"Yuanxin Liu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Liu, Yuanxin","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5029262439","display_name":"Ruida Zhou","orcid":"https://orcid.org/0000-0002-8855-2031"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhou, Ruida","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5113534508","display_name":"C. A. Fleming","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Fleming, Charles","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5126393095","display_name":"Zhaoran Wang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Wang, Zhaoran","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5126374052","display_name":"Alfredo Garcia","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Garcia, Alfredo","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5121354726","display_name":"Mingyi Hong","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Hong, Mingyi","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":7,"corresponding_author_ids":["https://openalex.org/A5126391805"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.5400999784469604,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.5400999784469604,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.16509999334812164,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10028","display_name":"Topic Modeling","score":0.08209999650716782,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7750999927520752},{"id":"https://openalex.org/keywords/scalability","display_name":"Scalability","score":0.612500011920929},{"id":"https://openalex.org/keywords/key","display_name":"Key (lock)","score":0.585099995136261},{"id":"https://openalex.org/keywords/estimator","display_name":"Estimator","score":0.5202000141143799},{"id":"https://openalex.org/keywords/decomposition","display_name":"Decomposition","score":0.49309998750686646},{"id":"https://openalex.org/keywords/action","display_name":"Action (physics)","score":0.45899999141693115},{"id":"https://openalex.org/keywords/planner","display_name":"Planner","score":0.4189000129699707},{"id":"https://openalex.org/keywords/control","display_name":"Control (management)","score":0.39730000495910645}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.777400016784668},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7750999927520752},{"id":"https://openalex.org/C48044578","wikidata":"https://www.wikidata.org/wiki/Q727490","display_name":"Scalability","level":2,"score":0.612500011920929},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.585099995136261},{"id":"https://openalex.org/C185429906","wikidata":"https://www.wikidata.org/wiki/Q1130160","display_name":"Estimator","level":2,"score":0.5202000141143799},{"id":"https://openalex.org/C124681953","wikidata":"https://www.wikidata.org/wiki/Q339062","display_name":"Decomposition","level":2,"score":0.49309998750686646},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.46160000562667847},{"id":"https://openalex.org/C2780791683","wikidata":"https://www.wikidata.org/wiki/Q846785","display_name":"Action (physics)","level":2,"score":0.45899999141693115},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.4327999949455261},{"id":"https://openalex.org/C2776999362","wikidata":"https://www.wikidata.org/wiki/Q2349274","display_name":"Planner","level":2,"score":0.4189000129699707},{"id":"https://openalex.org/C2775924081","wikidata":"https://www.wikidata.org/wiki/Q55608371","display_name":"Control (management)","level":2,"score":0.39730000495910645},{"id":"https://openalex.org/C13662910","wikidata":"https://www.wikidata.org/wiki/Q193139","display_name":"Trajectory","level":2,"score":0.39469999074935913},{"id":"https://openalex.org/C196083921","wikidata":"https://www.wikidata.org/wiki/Q7915758","display_name":"Variance (accounting)","level":2,"score":0.35899999737739563},{"id":"https://openalex.org/C180591056","wikidata":"https://www.wikidata.org/wiki/Q654437","display_name":"Executor","level":2,"score":0.3400000035762787},{"id":"https://openalex.org/C144986985","wikidata":"https://www.wikidata.org/wiki/Q871236","display_name":"Hierarchical database model","level":2,"score":0.3102000057697296},{"id":"https://openalex.org/C2778755073","wikidata":"https://www.wikidata.org/wiki/Q10858537","display_name":"Scale (ratio)","level":2,"score":0.28870001435279846},{"id":"https://openalex.org/C137836250","wikidata":"https://www.wikidata.org/wiki/Q984063","display_name":"Optimization problem","level":2,"score":0.28529998660087585},{"id":"https://openalex.org/C64543145","wikidata":"https://www.wikidata.org/wiki/Q162942","display_name":"Intersection (aeronautics)","level":2,"score":0.28369998931884766},{"id":"https://openalex.org/C46814582","wikidata":"https://www.wikidata.org/wiki/Q23389","display_name":"Nash equilibrium","level":2,"score":0.28029999136924744},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.2766999900341034},{"id":"https://openalex.org/C2779304628","wikidata":"https://www.wikidata.org/wiki/Q3503480","display_name":"Face (sociological concept)","level":2,"score":0.271699994802475},{"id":"https://openalex.org/C137293760","wikidata":"https://www.wikidata.org/wiki/Q3621696","display_name":"Language model","level":2,"score":0.26759999990463257},{"id":"https://openalex.org/C130440534","wikidata":"https://www.wikidata.org/wiki/Q14946528","display_name":"Conflation","level":2,"score":0.26030001044273376}],"mesh":[],"locations_count":2,"locations":[{"id":"pmh:doi:10.48550/arxiv.2602.16165","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"publisher-specific-oa","license_id":"https://openalex.org/licenses/publisher-specific-oa","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},{"id":"doi:10.48550/arxiv.2602.16165","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2602.16165","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"pmh:doi:10.48550/arxiv.2602.16165","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"publisher-specific-oa","license_id":"https://openalex.org/licenses/publisher-specific-oa","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},"sustainable_development_goals":[{"id":"https://metadata.un.org/sdg/16","display_name":"Peace, Justice and strong institutions","score":0.795318067073822}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Training":[0],"LLMs":[1],"as":[2,40],"interactive":[3,188],"agents":[4,20,39],"for":[5,229],"multi-turn":[6,234],"decision-making":[7],"remains":[8],"challenging,":[9],"particularly":[10],"in":[11],"long-horizon":[12,214],"tasks":[13,215],"with":[14,125,199,209],"sparse":[15],"and":[16,78,110,146,158,171,195,202],"delayed":[17],"rewards,":[18],"where":[19],"must":[21,61],"execute":[22],"extended":[23],"sequences":[24],"of":[25,155,225,233],"actions":[26],"before":[27],"receiving":[28],"meaningful":[29],"feedback.":[30],"Most":[31],"existing":[32],"reinforcement":[33],"learning":[34],"(RL)":[35],"approaches":[36],"model":[37],"LLM":[38,235],"flat":[41,59,177],"policies":[42,60],"operating":[43],"at":[44,52,142],"a":[45,85,104,111,130],"single":[46],"time":[47],"scale,":[48],"selecting":[49],"one":[50],"action":[51,120],"each":[53,156],"turn.":[54],"In":[55],"sparse-reward":[56],"settings,":[57],"such":[58],"propagate":[62],"credit":[63,80,141],"across":[64,161],"the":[65,101,144,153,162,205,223],"entire":[66],"trajectory":[67],"without":[68],"explicit":[69,226],"temporal":[70],"abstraction,":[71],"which":[72,138],"often":[73],"leads":[74],"to":[75,176],"unstable":[76],"optimization":[77,124],"inefficient":[79],"assignment.":[81],"We":[82],"propose":[83],"HiPER,":[84],"novel":[86],"Hierarchical":[87],"Plan-Execute":[88],"RL":[89,231],"framework":[90],"that":[91,107,114],"explicitly":[92],"separates":[93],"high-level":[94,105],"planning":[95,145],"from":[96],"low-level":[97,112],"execution.":[98],"HiPER":[99,182],"factorizes":[100],"policy":[102],"into":[103],"planner":[106],"proposes":[108],"subgoals":[109],"executor":[113],"carries":[115],"them":[116],"out":[117],"over":[118,152,204],"multiple":[119,217],"steps.":[121],"To":[122],"align":[123],"this":[126],"structure,":[127],"we":[128],"introduce":[129],"key":[131],"technique":[132],"called":[133],"hierarchical":[134,227],"advantage":[135,179],"estimation":[136],"(HAE),":[137],"carefully":[139],"assigns":[140],"both":[143],"execution":[147,154],"levels.":[148],"By":[149],"aggregating":[150],"returns":[151],"subgoal":[157],"coordinating":[159],"updates":[160],"two":[163],"levels,":[164],"HAE":[165],"provides":[166],"an":[167],"unbiased":[168],"gradient":[169],"estimator":[170],"provably":[172],"reduces":[173],"variance":[174],"compared":[175],"generalized":[178],"estimation.":[180],"Empirically,":[181],"achieves":[183],"state-of-the-art":[184],"performance":[185],"on":[186,193,197,213],"challenging":[187],"benchmarks,":[189],"reaching":[190],"97.4\\%":[191],"success":[192],"ALFWorld":[194],"83.3\\%":[196],"WebShop":[198],"Qwen2.5-7B-Instruct":[200],"(+6.6\\%":[201],"+8.3\\%":[203],"best":[206],"prior":[207],"method),":[208],"especially":[210],"large":[211],"gains":[212],"requiring":[216],"dependent":[218],"subtasks.":[219],"These":[220],"results":[221],"highlight":[222],"importance":[224],"decomposition":[228],"scalable":[230],"training":[232],"agents.":[236]},"counts_by_year":[],"updated_date":"2026-04-04T16:13:02.066488","created_date":"2026-02-20T00:00:00"}