{"id":"https://openalex.org/W7152525183","doi":"https://doi.org/10.48550/arxiv.2604.06691","title":"KD-MARL: Resource-Aware Knowledge Distillation in Multi-Agent Reinforcement Learning","display_name":"KD-MARL: Resource-Aware Knowledge Distillation in Multi-Agent Reinforcement Learning","publication_year":2026,"publication_date":"2026-04-08","ids":{"openalex":"https://openalex.org/W7152525183","doi":"https://doi.org/10.48550/arxiv.2604.06691"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2604.06691","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.06691","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2604.06691","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5046243684","display_name":"Monirul Islam Pavel","orcid":"https://orcid.org/0000-0001-9470-7725"},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Pavel, Monirul Islam","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5133314391","display_name":"Siyi Hu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Hu, Siyi","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5133246617","display_name":"Muhammad Anwar Masum","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Masum, Muhammad Anwar","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5036928886","display_name":"Mahardhika Pratama","orcid":"https://orcid.org/0000-0001-6531-5087"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Pratama, Mahardhika","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5024220409","display_name":"Ryszard Kowalczyk","orcid":"https://orcid.org/0000-0003-0937-4028"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Kowalczyk, Ryszard","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5133239114","display_name":"Zehong Jimmy Cao","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Cao, Zehong Jimmy","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":6,"corresponding_author_ids":["https://openalex.org/A5046243684"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.8252000212669373,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.8252000212669373,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12026","display_name":"Explainable Artificial Intelligence (XAI)","score":0.02969999983906746,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Machine Learning","score":0.02879999950528145,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.6636000275611877},{"id":"https://openalex.org/keywords/resource-allocation","display_name":"Resource allocation","score":0.4765999913215637},{"id":"https://openalex.org/keywords/software-deployment","display_name":"Software deployment","score":0.44859999418258667},{"id":"https://openalex.org/keywords/expert-system","display_name":"Expert system","score":0.42879998683929443},{"id":"https://openalex.org/keywords/resource","display_name":"Resource (disambiguation)","score":0.41110000014305115},{"id":"https://openalex.org/keywords/observability","display_name":"Observability","score":0.4043000042438507},{"id":"https://openalex.org/keywords/inference","display_name":"Inference","score":0.3815999925136566},{"id":"https://openalex.org/keywords/distillation","display_name":"Distillation","score":0.364300012588501}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7055000066757202},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.6636000275611877},{"id":"https://openalex.org/C29202148","wikidata":"https://www.wikidata.org/wiki/Q287260","display_name":"Resource allocation","level":2,"score":0.4765999913215637},{"id":"https://openalex.org/C105339364","wikidata":"https://www.wikidata.org/wiki/Q2297740","display_name":"Software deployment","level":2,"score":0.44859999418258667},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.44339999556541443},{"id":"https://openalex.org/C58328972","wikidata":"https://www.wikidata.org/wiki/Q184609","display_name":"Expert system","level":2,"score":0.42879998683929443},{"id":"https://openalex.org/C120314980","wikidata":"https://www.wikidata.org/wiki/Q180634","display_name":"Distributed computing","level":1,"score":0.41589999198913574},{"id":"https://openalex.org/C206345919","wikidata":"https://www.wikidata.org/wiki/Q20380951","display_name":"Resource (disambiguation)","level":2,"score":0.41110000014305115},{"id":"https://openalex.org/C36299963","wikidata":"https://www.wikidata.org/wiki/Q1369844","display_name":"Observability","level":2,"score":0.4043000042438507},{"id":"https://openalex.org/C2776214188","wikidata":"https://www.wikidata.org/wiki/Q408386","display_name":"Inference","level":2,"score":0.3815999925136566},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.3734999895095825},{"id":"https://openalex.org/C204030448","wikidata":"https://www.wikidata.org/wiki/Q101017","display_name":"Distillation","level":2,"score":0.364300012588501},{"id":"https://openalex.org/C56814567","wikidata":"https://www.wikidata.org/wiki/Q1323686","display_name":"Explicit knowledge","level":2,"score":0.3010999858379364},{"id":"https://openalex.org/C2777904410","wikidata":"https://www.wikidata.org/wiki/Q7397","display_name":"Software","level":2,"score":0.28049999475479126},{"id":"https://openalex.org/C4554734","wikidata":"https://www.wikidata.org/wiki/Q593744","display_name":"Knowledge base","level":2,"score":0.2718000113964081},{"id":"https://openalex.org/C2777655017","wikidata":"https://www.wikidata.org/wiki/Q1501161","display_name":"Toolbox","level":2,"score":0.26910001039505005},{"id":"https://openalex.org/C2775924081","wikidata":"https://www.wikidata.org/wiki/Q55608371","display_name":"Control (management)","level":2,"score":0.2662999927997589},{"id":"https://openalex.org/C2780791683","wikidata":"https://www.wikidata.org/wiki/Q846785","display_name":"Action (physics)","level":2,"score":0.2639000117778778},{"id":"https://openalex.org/C125411270","wikidata":"https://www.wikidata.org/wiki/Q18653","display_name":"Encoding (memory)","level":2,"score":0.2606000006198883},{"id":"https://openalex.org/C63000827","wikidata":"https://www.wikidata.org/wiki/Q3080428","display_name":"Software portability","level":2,"score":0.25699999928474426},{"id":"https://openalex.org/C41550386","wikidata":"https://www.wikidata.org/wiki/Q529909","display_name":"Multi-agent system","level":2,"score":0.25369998812675476},{"id":"https://openalex.org/C206729178","wikidata":"https://www.wikidata.org/wiki/Q2271896","display_name":"Scheduling (production processes)","level":2,"score":0.2500999867916107}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2604.06691","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.06691","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2604.06691","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.06691","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Real":[0],"world":[1],"deployment":[2,236],"of":[3,207],"multi":[4,198],"agent":[5,74,153,199],"reinforcement":[6],"learning":[7],"MARL":[8,61,88,186,202,235],"systems":[9],"is":[10,162],"fundamentally":[11],"constrained":[12,239],"by":[13,214],"limited":[14,130,170,173],"compute":[15],"memory":[16],"and":[17,32,71,120,129,139,172,180,227],"inference":[18],"time.":[19],"While":[20],"expert":[21,100,144,208,224],"policies":[22,108,145],"achieve":[23],"high":[24,188],"performance":[25,189,209],"they":[26],"rely":[27],"on":[28,64,116,178],"costly":[29],"decision":[30],"cycles":[31],"large":[33],"scale":[34],"models":[35],"that":[36,93,184],"are":[37,109],"impractical":[38],"for":[39,82,164],"edge":[40],"devices":[41],"or":[42,169],"embedded":[43],"platforms.":[44,241],"Knowledge":[45,80],"distillation":[46,232],"KD":[47,58,87,185,201],"offers":[48],"a":[49,89,98,112],"promising":[50],"path":[51],"toward":[52],"resource":[53,78,238],"aware":[54,79],"execution":[55,166],"but":[56],"existing":[57],"methods":[59],"in":[60],"focus":[62],"narrowly":[63],"action":[65,136],"imitation":[66],"often":[67],"neglecting":[68],"coordination":[69,126,141,226],"structure":[70],"assuming":[72],"uniform":[73],"capabilities.":[75],"We":[76],"propose":[77],"Distillation":[81],"Multi":[83],"Agent":[84],"Reinforcement":[85],"Learning":[86],"two":[90],"stage":[91],"framework":[92],"transfers":[94,134],"coordinated":[95],"behavior":[96,138],"from":[97,143],"centralized":[99],"to":[101,124,156,216],"lightweight":[102],"decentralized":[103],"student":[104,107,149],"agents.":[105],"The":[106,220],"trained":[110],"without":[111],"critic":[113],"relying":[114],"instead":[115],"distilled":[117],"advantage":[118],"signals":[119],"structured":[121,231],"policy":[122],"supervision":[123],"preserve":[125],"under":[127,167],"heterogeneous":[128,148],"observations.":[131],"Our":[132],"approach":[133,222],"both":[135],"level":[137,225],"structural":[140],"patterns":[142],"while":[146,191,210],"supporting":[147],"architectures":[150],"allowing":[151],"each":[152],"model":[154],"capacity":[155],"match":[157],"its":[158],"observation":[159],"complexity":[160],"which":[161],"crucial":[163],"efficient":[165],"partial":[168],"observability":[171],"onboard":[174,240],"resources.":[175],"Extensive":[176],"experiments":[177],"SMAC":[179],"MPE":[181],"benchmarks":[182,200],"demonstrate":[183],"achieves":[187,223],"retention":[190],"substantially":[192],"reducing":[193,211],"computational":[194,212],"cost.":[195],"Across":[196],"standard":[197],"retains":[203],"over":[204],"90":[205],"percent":[206],"cost":[213],"up":[215],"28.6":[217],"times":[218],"FLOPs.":[219],"proposed":[221],"preserves":[228],"it":[229],"through":[230],"enabling":[233],"practical":[234],"across":[237]},"counts_by_year":[],"updated_date":"2026-05-05T08:41:31.759640","created_date":"2026-04-10T00:00:00"}