{"id":"https://openalex.org/W7147279122","doi":"https://doi.org/10.48550/arxiv.2603.29426","title":"Multi-AUV Cooperative Target Tracking Based on Supervised Diffusion-Aided Multi-Agent Reinforcement Learning","display_name":"Multi-AUV Cooperative Target Tracking Based on Supervised Diffusion-Aided Multi-Agent Reinforcement Learning","publication_year":2026,"publication_date":"2026-03-31","ids":{"openalex":"https://openalex.org/W7147279122","doi":"https://doi.org/10.48550/arxiv.2603.29426"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2603.29426","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.29426","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2603.29426","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5132581508","display_name":"Jiaao Ma","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Ma, Jiaao","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5132577859","display_name":"Chuan Lin","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Lin, Chuan","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5132665119","display_name":"Guangjie Han","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Han, Guangjie","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5132593613","display_name":"Shengchao Zhu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhu, Shengchao","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5132670464","display_name":"Zhenyu Wang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Wang, Zhenyu","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5132664306","display_name":"Chen An","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"An, Chen","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":6,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11192","display_name":"Underwater Vehicles and Communication Systems","score":0.25450000166893005,"subfield":{"id":"https://openalex.org/subfields/2212","display_name":"Ocean Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11192","display_name":"Underwater Vehicles and Communication Systems","score":0.25450000166893005,"subfield":{"id":"https://openalex.org/subfields/2212","display_name":"Ocean Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.2425999939441681,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10249","display_name":"Distributed Control Multi-Agent Systems","score":0.1736000031232834,"subfield":{"id":"https://openalex.org/subfields/1705","display_name":"Computer Networks and Communications"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7838000059127808},{"id":"https://openalex.org/keywords/robustness","display_name":"Robustness (evolution)","score":0.6201000213623047},{"id":"https://openalex.org/keywords/underwater","display_name":"Underwater","score":0.46369999647140503},{"id":"https://openalex.org/keywords/process","display_name":"Process (computing)","score":0.4235999882221222},{"id":"https://openalex.org/keywords/inefficiency","display_name":"Inefficiency","score":0.3781000077724457},{"id":"https://openalex.org/keywords/supervised-learning","display_name":"Supervised learning","score":0.37299999594688416},{"id":"https://openalex.org/keywords/supervisor","display_name":"Supervisor","score":0.3353999853134155}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7838000059127808},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7264999747276306},{"id":"https://openalex.org/C63479239","wikidata":"https://www.wikidata.org/wiki/Q7353546","display_name":"Robustness (evolution)","level":3,"score":0.6201000213623047},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5889000296592712},{"id":"https://openalex.org/C98083399","wikidata":"https://www.wikidata.org/wiki/Q3246517","display_name":"Underwater","level":2,"score":0.46369999647140503},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.4607999920845032},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.4235999882221222},{"id":"https://openalex.org/C2778869765","wikidata":"https://www.wikidata.org/wiki/Q6028363","display_name":"Inefficiency","level":2,"score":0.3781000077724457},{"id":"https://openalex.org/C136389625","wikidata":"https://www.wikidata.org/wiki/Q334384","display_name":"Supervised learning","level":3,"score":0.37299999594688416},{"id":"https://openalex.org/C2779110517","wikidata":"https://www.wikidata.org/wiki/Q1240788","display_name":"Supervisor","level":2,"score":0.3353999853134155},{"id":"https://openalex.org/C193415008","wikidata":"https://www.wikidata.org/wiki/Q639681","display_name":"Network architecture","level":2,"score":0.28949999809265137},{"id":"https://openalex.org/C123657996","wikidata":"https://www.wikidata.org/wiki/Q12271","display_name":"Architecture","level":2,"score":0.28850001096725464},{"id":"https://openalex.org/C79403827","wikidata":"https://www.wikidata.org/wiki/Q3988","display_name":"Real-time computing","level":1,"score":0.27480000257492065},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.27090001106262207},{"id":"https://openalex.org/C19768560","wikidata":"https://www.wikidata.org/wiki/Q320727","display_name":"Dependency (UML)","level":2,"score":0.2678999900817871},{"id":"https://openalex.org/C123403432","wikidata":"https://www.wikidata.org/wiki/Q654068","display_name":"Visibility","level":2,"score":0.2619999945163727},{"id":"https://openalex.org/C205875254","wikidata":"https://www.wikidata.org/wiki/Q17156857","display_name":"Decentralised system","level":3,"score":0.25189998745918274}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2603.29426","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.29426","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2603.29426","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.29426","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[{"display_name":"Life below water","score":0.5395298600196838,"id":"https://metadata.un.org/sdg/14"}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"In":[0],"recent":[1],"years,":[2],"advances":[3],"in":[4,20,37,200,210],"underwater":[5,16,56,212],"networking":[6],"and":[7,23,58,65,104,112,167],"multi-agent":[8,100],"reinforcement":[9],"learning":[10,150,171],"(MARL)":[11],"have":[12],"significantly":[13],"expanded":[14],"multi-autonomous":[15],"vehicle":[17],"(AUV)":[18],"applications":[19],"marine":[21],"exploration":[22,52],"target":[24],"tracking.":[25],"However,":[26],"current":[27],"MARL-driven":[28],"cooperative":[29],"tracking":[30,194],"faces":[31],"three":[32,131],"critical":[33],"challenges:":[34],"1)":[35,133],"non-stationarity":[36],"decentralized":[38],"coordination,":[39,101],"where":[40],"local":[41,102],"policy":[42,170],"updates":[43],"destabilize":[44],"teammates'":[45],"observation":[46],"spaces,":[47],"preventing":[48],"convergence;":[49,166],"2)":[50,147],"sparse-reward":[51],"inefficiency":[53],"from":[54],"limited":[55],"visibility":[57],"constrained":[59],"sensor":[60],"ranges,":[61],"causing":[62],"high-variance":[63],"learning;":[64],"3)":[66,168],"water":[67],"disturbance":[68],"fragility":[69],"combined":[70],"with":[71,137],"handcrafted":[72,190],"reward":[73,191],"dependency":[74],"that":[75,164],"degrades":[76],"real-world":[77],"robustness":[78],"under":[79],"unmodeled":[80],"hydrodynamic":[81],"conditions.":[82],"To":[83],"address":[84],"these":[85],"challenges,":[86],"this":[87,120,201],"paper":[88,202],"proposes":[89],"a":[90,134,148],"hierarchical":[91,116],"MARL":[92,127],"architecture":[93,108,136],"comprising":[94],"four":[95],"layers:":[96],"global":[97],"training":[98,162],"scheduling,":[99],"decision-making,":[103],"real-time":[105],"execution.":[106],"This":[107],"optimizes":[109],"task":[110],"allocation":[111],"inter-AUV":[113],"coordination":[114],"through":[115,143],"decomposition.":[117],"Building":[118],"on":[119,197],"foundation,":[121],"we":[122],"propose":[123],"the":[124,153,178],"Supervised":[125],"Diffusion-Aided":[126],"(SDA-MARL)":[128],"algorithm":[129,195],"featuring":[130],"innovations:":[132],"dual-decision":[135],"segregated":[138],"experience":[139,145],"pools":[140],"mitigating":[141],"nonstationarity":[142],"structured":[144],"replay;":[146],"supervised":[149],"mechanism":[151],"guiding":[152],"diffusion":[154],"model's":[155],"reverse":[156],"denoising":[157],"process":[158],"to":[159,176,207],"generate":[160],"high-fidelity":[161],"samples":[163],"accelerate":[165],"disturbance-robust":[169],"incorporating":[172],"behavioral":[173],"cloning":[174],"loss":[175],"guide":[177],"Deep":[179],"Deterministic":[180],"Policy":[181],"Gradient":[182],"network":[183],"update":[184],"using":[185],"high-quality":[186],"replay":[187],"actions,":[188],"eliminating":[189],"dependency.":[192],"The":[193],"based":[196],"SDA-MARL":[198],"proposed":[199],"achieves":[203],"superior":[204],"precision":[205],"compared":[206],"state-of-the-art":[208],"methods":[209],"comprehensive":[211],"simulations.":[213]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2026-04-02T00:00:00"}