{"id":"https://openalex.org/W7130685168","doi":"https://doi.org/10.48550/arxiv.2602.17038","title":"Phase-Aware Mixture of Experts for Agentic Reinforcement Learning","display_name":"Phase-Aware Mixture of Experts for Agentic Reinforcement Learning","publication_year":2026,"publication_date":"2026-02-19","ids":{"openalex":"https://openalex.org/W7130685168","doi":"https://doi.org/10.48550/arxiv.2602.17038"},"language":null,"primary_location":{"id":"pmh:doi:10.48550/arxiv.2602.17038","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":null,"any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5126264937","display_name":"Shengtian Yang","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Yang, Shengtian","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5126509686","display_name":"Yu Li","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Li, Yu","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5101390996","display_name":"Shuo He","orcid":"https://orcid.org/0009-0009-0941-4908"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"He, Shuo","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5063575625","display_name":"Yewen Li","orcid":"https://orcid.org/0000-0001-8406-0606"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Li, Yewen","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5126517287","display_name":"Qingpeng Cai","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Cai, Qingpeng","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5126449869","display_name":"Peng Jiang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Jiang, Peng","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5126468263","display_name":"Lei Feng","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Feng, Lei","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":7,"corresponding_author_ids":["https://openalex.org/A5126264937"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.671500027179718,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.671500027179718,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11307","display_name":"Domain Adaptation and Few-Shot Learning","score":0.05040000006556511,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11612","display_name":"Stochastic Gradient Optimization Techniques","score":0.025800000876188278,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.6741999983787537},{"id":"https://openalex.org/keywords/key","display_name":"Key (lock)","score":0.5964000225067139},{"id":"https://openalex.org/keywords/simple","display_name":"Simple (philosophy)","score":0.5309000015258789},{"id":"https://openalex.org/keywords/router","display_name":"Router","score":0.4487999975681305},{"id":"https://openalex.org/keywords/phase","display_name":"Phase (matter)","score":0.43160000443458557},{"id":"https://openalex.org/keywords/reinforcement","display_name":"Reinforcement","score":0.3864000141620636}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.6741999983787537},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6729000210762024},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.5964000225067139},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5618000030517578},{"id":"https://openalex.org/C2780586882","wikidata":"https://www.wikidata.org/wiki/Q7520643","display_name":"Simple (philosophy)","level":2,"score":0.5309000015258789},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.4708000123500824},{"id":"https://openalex.org/C2775896111","wikidata":"https://www.wikidata.org/wiki/Q642560","display_name":"Router","level":2,"score":0.4487999975681305},{"id":"https://openalex.org/C44280652","wikidata":"https://www.wikidata.org/wiki/Q104837","display_name":"Phase (matter)","level":2,"score":0.43160000443458557},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.3864000141620636},{"id":"https://openalex.org/C48145219","wikidata":"https://www.wikidata.org/wiki/Q1335365","display_name":"Security token","level":2,"score":0.2840999960899353},{"id":"https://openalex.org/C175154964","wikidata":"https://www.wikidata.org/wiki/Q380077","display_name":"Task analysis","level":3,"score":0.2815000116825104},{"id":"https://openalex.org/C58328972","wikidata":"https://www.wikidata.org/wiki/Q184609","display_name":"Expert system","level":2,"score":0.2808000147342682},{"id":"https://openalex.org/C77967617","wikidata":"https://www.wikidata.org/wiki/Q4677561","display_name":"Active learning (machine learning)","level":2,"score":0.2671000063419342},{"id":"https://openalex.org/C2779436431","wikidata":"https://www.wikidata.org/wiki/Q30672407","display_name":"Policy learning","level":2,"score":0.26269999146461487},{"id":"https://openalex.org/C61797465","wikidata":"https://www.wikidata.org/wiki/Q1188986","display_name":"Term (time)","level":2,"score":0.258899986743927}],"mesh":[],"locations_count":2,"locations":[{"id":"pmh:doi:10.48550/arxiv.2602.17038","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},{"id":"doi:10.48550/arxiv.2602.17038","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2602.17038","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"pmh:doi:10.48550/arxiv.2602.17038","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},"sustainable_development_goals":[{"score":0.5537921190261841,"display_name":"Peace, Justice and strong institutions","id":"https://metadata.un.org/sdg/16"}],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Reinforcement":[0],"learning":[1],"(RL)":[2],"has":[3],"equipped":[4],"LLM":[5],"agents":[6],"with":[7],"a":[8,21,77,122],"strong":[9],"ability":[10],"to":[11,64,93,148,154],"solve":[12],"complex":[13,42],"tasks.":[14,43],"However,":[15,76],"existing":[16],"RL":[17,134],"methods":[18],"normally":[19],"use":[20],"\\emph{single}":[22],"policy":[23,56],"network,":[24,57],"causing":[25],"\\emph{simplicity":[26],"bias}":[27],"where":[28,87],"simple":[29,70],"tasks":[30,71],"occupy":[31],"most":[32],"parameters":[33,62],"and":[34,104],"dominate":[35],"gradient":[36],"updates,":[37],"leaving":[38],"insufficient":[39],"capacity":[40],"for":[41],"A":[44],"plausible":[45],"remedy":[46],"could":[47],"be":[48],"employing":[49],"the":[50,55,88,133,141,149,161],"Mixture-of-Experts":[51],"(MoE)":[52],"architecture":[53],"in":[54,66],"as":[58],"MoE":[59,82],"allows":[60],"different":[61,67],"(experts)":[63],"specialize":[65],"tasks,":[68],"preventing":[69],"from":[72,132],"dominating":[73],"all":[74],"parameters.":[75],"key":[78],"limitation":[79],"of":[80,116,163],"traditional":[81],"is":[83],"its":[84],"token-level":[85],"routing,":[86],"router":[89,143],"assigns":[90],"each":[91],"token":[92],"specialized":[94],"experts,":[95],"which":[96],"fragments":[97],"phase-consistent":[98],"patterns":[99],"into":[100],"scattered":[101],"expert":[102,107],"assignments":[103,147],"thus":[105],"undermines":[106],"specialization.":[108],"In":[109],"this":[110],"paper,":[111],"we":[112],"propose":[113],"\\textbf{Phase-Aware":[114],"Mixture":[115],"Experts":[117],"(PA-MoE)}.":[118],"It":[119],"first":[120],"features":[121],"lightweight":[123],"\\emph{phase":[124],"router}":[125],"that":[126],"learns":[127],"latent":[128],"phase":[129,138,142],"boundaries":[130],"directly":[131],"objective":[135],"without":[136],"pre-defining":[137],"categories.":[139],"Then,":[140],"allocates":[144],"temporally":[145],"consistent":[146],"same":[150],"expert,":[151],"allowing":[152],"experts":[153],"preserve":[155],"phase-specific":[156],"expertise.":[157],"Experimental":[158],"results":[159],"demonstrate":[160],"effectiveness":[162],"our":[164],"proposed":[165],"PA-MoE.":[166]},"counts_by_year":[],"updated_date":"2026-04-04T16:13:02.066488","created_date":"2026-02-21T00:00:00"}