{"id":"https://openalex.org/W7147178922","doi":"https://doi.org/10.48550/arxiv.2603.29656","title":"6GAgentGym: Tool Use, Data Synthesis, and Agentic Learning for Network Management","display_name":"6GAgentGym: Tool Use, Data Synthesis, and Agentic Learning for Network Management","publication_year":2026,"publication_date":"2026-03-31","ids":{"openalex":"https://openalex.org/W7147178922","doi":"https://doi.org/10.48550/arxiv.2603.29656"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2603.29656","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.29656","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2603.29656","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5132632457","display_name":"Jiao Chen","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Chen, Jiao","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5132572723","display_name":"Jianhua Tang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Tang, Jianhua","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5132702141","display_name":"Xiaotong Yang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Yang, Xiaotong","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5132568274","display_name":"Zuohong Lv","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Lv, Zuohong","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":4,"corresponding_author_ids":["https://openalex.org/A5132632457"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10714","display_name":"Software-Defined Networks and 5G","score":0.5536999702453613,"subfield":{"id":"https://openalex.org/subfields/1705","display_name":"Computer Networks and Communications"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10714","display_name":"Software-Defined Networks and 5G","score":0.5536999702453613,"subfield":{"id":"https://openalex.org/subfields/1705","display_name":"Computer Networks and Communications"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.035599999129772186,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12808","display_name":"Ferroelectric and Negative Capacitance Devices","score":0.02810000069439411,"subfield":{"id":"https://openalex.org/subfields/2208","display_name":"Electrical and Electronic Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.6797999739646912},{"id":"https://openalex.org/keywords/limiting","display_name":"Limiting","score":0.6223000288009644},{"id":"https://openalex.org/keywords/state","display_name":"State (computer science)","score":0.483599990606308},{"id":"https://openalex.org/keywords/path","display_name":"Path (computing)","score":0.3970000147819519},{"id":"https://openalex.org/keywords/component","display_name":"Component (thermodynamics)","score":0.3522000014781952},{"id":"https://openalex.org/keywords/data-modeling","display_name":"Data modeling","score":0.33809998631477356},{"id":"https://openalex.org/keywords/network-management","display_name":"Network management","score":0.3271999955177307},{"id":"https://openalex.org/keywords/scheme","display_name":"Scheme (mathematics)","score":0.32199999690055847}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7706999778747559},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.6797999739646912},{"id":"https://openalex.org/C188198153","wikidata":"https://www.wikidata.org/wiki/Q1613840","display_name":"Limiting","level":2,"score":0.6223000288009644},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5005000233650208},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.48570001125335693},{"id":"https://openalex.org/C48103436","wikidata":"https://www.wikidata.org/wiki/Q599031","display_name":"State (computer science)","level":2,"score":0.483599990606308},{"id":"https://openalex.org/C2777735758","wikidata":"https://www.wikidata.org/wiki/Q817765","display_name":"Path (computing)","level":2,"score":0.3970000147819519},{"id":"https://openalex.org/C107457646","wikidata":"https://www.wikidata.org/wiki/Q207434","display_name":"Human\u2013computer interaction","level":1,"score":0.3824999928474426},{"id":"https://openalex.org/C168167062","wikidata":"https://www.wikidata.org/wiki/Q1117970","display_name":"Component (thermodynamics)","level":2,"score":0.3522000014781952},{"id":"https://openalex.org/C67186912","wikidata":"https://www.wikidata.org/wiki/Q367664","display_name":"Data modeling","level":2,"score":0.33809998631477356},{"id":"https://openalex.org/C129763632","wikidata":"https://www.wikidata.org/wiki/Q1454667","display_name":"Network management","level":2,"score":0.3271999955177307},{"id":"https://openalex.org/C77618280","wikidata":"https://www.wikidata.org/wiki/Q1155772","display_name":"Scheme (mathematics)","level":2,"score":0.32199999690055847},{"id":"https://openalex.org/C143587482","wikidata":"https://www.wikidata.org/wiki/Q1543216","display_name":"Iterative and incremental development","level":2,"score":0.2996000051498413},{"id":"https://openalex.org/C136389625","wikidata":"https://www.wikidata.org/wiki/Q334384","display_name":"Supervised learning","level":3,"score":0.2985999882221222},{"id":"https://openalex.org/C175154964","wikidata":"https://www.wikidata.org/wiki/Q380077","display_name":"Task analysis","level":3,"score":0.2847000062465668},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.2782999873161316},{"id":"https://openalex.org/C108583219","wikidata":"https://www.wikidata.org/wiki/Q197536","display_name":"Deep learning","level":2,"score":0.27070000767707825},{"id":"https://openalex.org/C51632099","wikidata":"https://www.wikidata.org/wiki/Q3985153","display_name":"Training set","level":2,"score":0.26980000734329224},{"id":"https://openalex.org/C163258240","wikidata":"https://www.wikidata.org/wiki/Q25342","display_name":"Power (physics)","level":2,"score":0.267300009727478},{"id":"https://openalex.org/C139940560","wikidata":"https://www.wikidata.org/wiki/Q290036","display_name":"Network simulation","level":2,"score":0.2669999897480011},{"id":"https://openalex.org/C104122410","wikidata":"https://www.wikidata.org/wiki/Q1416406","display_name":"Network model","level":2,"score":0.25850000977516174},{"id":"https://openalex.org/C136197465","wikidata":"https://www.wikidata.org/wiki/Q1729295","display_name":"Variety (cybernetics)","level":2,"score":0.25459998846054077},{"id":"https://openalex.org/C188116033","wikidata":"https://www.wikidata.org/wiki/Q2664563","display_name":"Q-learning","level":3,"score":0.25440001487731934}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2603.29656","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.29656","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2603.29656","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.29656","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Autonomous":[0],"6G":[1],"network":[2,154],"management":[3],"requires":[4],"agents":[5,38],"that":[6],"can":[7],"execute":[8],"tools,":[9],"observe":[10],"the":[11,43,104,110,135],"resulting":[12,111],"state":[13],"changes,":[14],"and":[15],"adapt":[16],"their":[17],"decisions":[18],"accordingly.":[19],"Existing":[20],"benchmarks":[21],"based":[22],"on":[23,84,109,134,141],"static":[24],"questions":[25],"or":[26],"scripted":[27],"episode":[28],"replay,":[29],"however,":[30],"do":[31],"not":[32],"support":[33],"such":[34],"closed-loop":[35,56,90,119,153],"interaction,":[36],"limiting":[37],"to":[39,45,54,126,132],"passive":[40],"evaluation":[41],"without":[42],"ability":[44],"learn":[46],"from":[47,74,93],"environmental":[48],"feedback.":[49],"This":[50],"paper":[51],"presents":[52],"6GAgentGym":[53],"provide":[55,147],"capability.":[57],"The":[58],"framework":[59],"provides":[60],"an":[61,122],"interactive":[62],"environment":[63],"with":[64,100,117,138],"42":[65],"typed":[66],"tools":[67],"whose":[68],"effect":[69],"classification":[70],"distinguishes":[71],"read-only":[72],"observation":[73],"state-mutating":[75],"configuration,":[76],"backed":[77],"by":[78,114],"a":[79,148],"learned":[80],"Experiment":[81,105],"Model":[82],"calibrated":[83],"NS-3":[85,94],"simulation":[86],"data.":[87],"6G-Forge":[88],"bootstraps":[89],"training":[91],"trajectories":[92],"seeds":[95],"via":[96],"iterative":[97],"Self-Instruct":[98],"generation":[99],"execution":[101],"verification":[102],"against":[103],"Model.":[106],"Supervised":[107],"fine-tuning":[108],"corpus":[112],"followed":[113],"reinforcement":[115],"learning":[116],"online":[118],"interaction":[120],"enables":[121],"8B":[123],"open-source":[124],"model":[125],"achieve":[127],"comparable":[128],"overall":[129],"success":[130],"rate":[131],"GPT-5":[133],"accompanying":[136],"6GAgentBench,":[137],"stronger":[139],"performance":[140],"long-horizon":[142],"tasks.":[143],"Together,":[144],"these":[145],"components":[146],"viable":[149],"path":[150],"toward":[151],"autonomous,":[152],"management.":[155]},"counts_by_year":[],"updated_date":"2026-04-02T13:53:19.096889","created_date":"2026-04-02T00:00:00"}