{"id":"https://openalex.org/W4415428706","doi":"https://doi.org/10.3233/faia250963","title":"Improving Cross-Task Applicability of Parameter Sharing in Cooperative Multi-Agent Reinforcement Learning","display_name":"Improving Cross-Task Applicability of Parameter Sharing in Cooperative Multi-Agent Reinforcement Learning","publication_year":2025,"publication_date":"2025-10-21","ids":{"openalex":"https://openalex.org/W4415428706","doi":"https://doi.org/10.3233/faia250963"},"language":null,"primary_location":{"id":"doi:10.3233/faia250963","is_oa":true,"landing_page_url":"https://doi.org/10.3233/faia250963","pdf_url":null,"source":{"id":"https://openalex.org/S4210201731","display_name":"Frontiers in artificial intelligence and applications","issn_l":"0922-6389","issn":["0922-6389","1879-8314"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"journal"},"license":"cc-by-nc","license_id":"https://openalex.org/licenses/cc-by-nc","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Frontiers in Artificial Intelligence and Applications","raw_type":"book-chapter"},"type":"book-chapter","indexed_in":["crossref"],"open_access":{"is_oa":true,"oa_status":"hybrid","oa_url":"https://doi.org/10.3233/faia250963","any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5102756396","display_name":"Yurui Li","orcid":null},"institutions":[{"id":"https://openalex.org/I76130692","display_name":"Zhejiang University","ror":"https://ror.org/00a2xv884","country_code":"CN","type":"education","lineage":["https://openalex.org/I76130692"]}],"countries":["CN"],"is_corresponding":true,"raw_author_name":"Yurui Li","raw_affiliation_strings":["Zhejiang University, Hangzhou, China"],"affiliations":[{"raw_affiliation_string":"Zhejiang University, Hangzhou, China","institution_ids":["https://openalex.org/I76130692"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5113966689","display_name":"Jianyu Zhang","orcid":"https://orcid.org/0009-0001-0595-698X"},"institutions":[{"id":"https://openalex.org/I76130692","display_name":"Zhejiang University","ror":"https://ror.org/00a2xv884","country_code":"CN","type":"education","lineage":["https://openalex.org/I76130692"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Jianyu Zhang","raw_affiliation_strings":["Zhejiang University, Hangzhou, China"],"affiliations":[{"raw_affiliation_string":"Zhejiang University, Hangzhou, China","institution_ids":["https://openalex.org/I76130692"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5100425453","display_name":"Li Zhang","orcid":"https://orcid.org/0000-0001-8303-4780"},"institutions":[{"id":"https://openalex.org/I76130692","display_name":"Zhejiang University","ror":"https://ror.org/00a2xv884","country_code":"CN","type":"education","lineage":["https://openalex.org/I76130692"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Li Zhang","raw_affiliation_strings":["Zhejiang University, Hangzhou, China"],"affiliations":[{"raw_affiliation_string":"Zhejiang University, Hangzhou, China","institution_ids":["https://openalex.org/I76130692"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5103196339","display_name":"Shijian Li","orcid":"https://orcid.org/0000-0001-5846-3065"},"institutions":[{"id":"https://openalex.org/I76130692","display_name":"Zhejiang University","ror":"https://ror.org/00a2xv884","country_code":"CN","type":"education","lineage":["https://openalex.org/I76130692"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Shijian Li","raw_affiliation_strings":["Zhejiang University, Hangzhou, China"],"affiliations":[{"raw_affiliation_string":"Zhejiang University, Hangzhou, China","institution_ids":["https://openalex.org/I76130692"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5084291326","display_name":"Gang Pan","orcid":"https://orcid.org/0000-0002-4049-6181"},"institutions":[{"id":"https://openalex.org/I76130692","display_name":"Zhejiang University","ror":"https://ror.org/00a2xv884","country_code":"CN","type":"education","lineage":["https://openalex.org/I76130692"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Gang Pan","raw_affiliation_strings":["State Key Lab of Brain-Machine Intelligence","Zhejiang University, Hangzhou, China"],"affiliations":[{"raw_affiliation_string":"State Key Lab of Brain-Machine Intelligence","institution_ids":[]},{"raw_affiliation_string":"Zhejiang University, Hangzhou, China","institution_ids":["https://openalex.org/I76130692"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":5,"corresponding_author_ids":["https://openalex.org/A5102756396"],"corresponding_institution_ids":["https://openalex.org/I76130692"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.50803537,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.6172000169754028,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.6172000169754028,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7376000285148621},{"id":"https://openalex.org/keywords/component","display_name":"Component (thermodynamics)","score":0.6223000288009644},{"id":"https://openalex.org/keywords/similarity","display_name":"Similarity (geometry)","score":0.5203999876976013},{"id":"https://openalex.org/keywords/reinforcement","display_name":"Reinforcement","score":0.4372999966144562},{"id":"https://openalex.org/keywords/source-code","display_name":"Source code","score":0.39730000495910645}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7376000285148621},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7008000016212463},{"id":"https://openalex.org/C168167062","wikidata":"https://www.wikidata.org/wiki/Q1117970","display_name":"Component (thermodynamics)","level":2,"score":0.6223000288009644},{"id":"https://openalex.org/C103278499","wikidata":"https://www.wikidata.org/wiki/Q254465","display_name":"Similarity (geometry)","level":3,"score":0.5203999876976013},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.4372999966144562},{"id":"https://openalex.org/C43126263","wikidata":"https://www.wikidata.org/wiki/Q128751","display_name":"Source code","level":2,"score":0.39730000495910645},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.39590001106262207},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.35350000858306885},{"id":"https://openalex.org/C2779436431","wikidata":"https://www.wikidata.org/wiki/Q30672407","display_name":"Policy learning","level":2,"score":0.3398999869823456},{"id":"https://openalex.org/C2781316041","wikidata":"https://www.wikidata.org/wiki/Q1230584","display_name":"Diversity (politics)","level":2,"score":0.3208000063896179},{"id":"https://openalex.org/C2776760102","wikidata":"https://www.wikidata.org/wiki/Q5139990","display_name":"Code (set theory)","level":3,"score":0.30979999899864197},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.2946999967098236},{"id":"https://openalex.org/C539667460","wikidata":"https://www.wikidata.org/wiki/Q2414942","display_name":"Management science","level":1,"score":0.25870001316070557}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.3233/faia250963","is_oa":true,"landing_page_url":"https://doi.org/10.3233/faia250963","pdf_url":null,"source":{"id":"https://openalex.org/S4210201731","display_name":"Frontiers in artificial intelligence and applications","issn_l":"0922-6389","issn":["0922-6389","1879-8314"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"journal"},"license":"cc-by-nc","license_id":"https://openalex.org/licenses/cc-by-nc","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Frontiers in Artificial Intelligence and Applications","raw_type":"book-chapter"}],"best_oa_location":{"id":"doi:10.3233/faia250963","is_oa":true,"landing_page_url":"https://doi.org/10.3233/faia250963","pdf_url":null,"source":{"id":"https://openalex.org/S4210201731","display_name":"Frontiers in artificial intelligence and applications","issn_l":"0922-6389","issn":["0922-6389","1879-8314"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"journal"},"license":"cc-by-nc","license_id":"https://openalex.org/licenses/cc-by-nc","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Frontiers in Artificial Intelligence and Applications","raw_type":"book-chapter"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Parameter":[0],"sharing":[1,29],"is":[2,58,186],"a":[3,41,124,173],"widely":[4,134],"adopted":[5],"approach":[6],"in":[7,33,176],"cooperative":[8,126],"Multi-Agent":[9],"Reinforcement":[10],"Learning":[11],"(MARL),":[12],"often":[13],"achieving":[14],"strong":[15],"performance.":[16],"However,":[17],"its":[18],"effectiveness":[19,115,179],"can":[20],"vary,":[21],"as":[22],"the":[23,51,78,81,89,105,114,146,159,177,181],"policy\u2019s":[24],"similarity":[25,91],"induced":[26],"by":[27],"parameter":[28,55,96,109,150],"may":[30],"hinder":[31],"performance":[32],"certain":[34],"tasks.":[35],"In":[36],"this":[37],"study,":[38],"we":[39,118,153],"propose":[40],"novel":[42],"framework,":[43],"termed":[44],"Composite":[45],"Shared":[46],"Policy":[47],"(CSP),":[48],"to":[49,60,103,157],"enhance":[50],"cross-task":[52,106,147],"applicability":[53,107,148],"of":[54,83,108,116,149,161,180],"sharing.":[56,97,110,151],"CSP":[57,86,102,143],"designed":[59],"model":[61],"multiple":[62],"diverse":[63],"policies":[64,82],"concurrently,":[65],"thereby":[66],"introducing":[67],"inherent":[68],"policy":[69,90],"diversity":[70],"without":[71],"relying":[72],"on":[73,122],"task-specific":[74],"designs.":[75],"By":[76],"increasing":[77],"differences":[79],"among":[80],"individual":[84],"agents,":[85],"effectively":[87],"mitigates":[88],"problem":[92],"commonly":[93],"associated":[94],"with":[95],"These":[98],"characteristics":[99],"collectively":[100],"enable":[101],"improve":[104],"To":[111],"empirically":[112],"validate":[113],"CSP,":[117],"implement":[119],"it":[120],"based":[121],"QMIX,":[123],"classic":[125],"MARL":[127,136],"method,":[128],"and":[129],"conduct":[130,154],"experiments":[131],"across":[132],"two":[133],"used":[135],"testbeds.":[137],"The":[138,166,183],"experimental":[139],"results":[140,167],"demonstrate":[141],"that":[142,169],"significantly":[144],"enhances":[145],"Additionally,":[152],"ablation":[155],"studies":[156],"evaluate":[158],"contributions":[160],"each":[162,170],"component":[163,171],"within":[164],"CSP.":[165],"highlight":[168],"plays":[172],"critical":[174],"role":[175],"overall":[178],"framework.":[182],"source":[184],"code":[185],"available":[187],"at":[188],"https://github.com/Yurui-Li/CSP.":[189]},"counts_by_year":[],"updated_date":"2026-03-07T16:01:11.037858","created_date":"2025-10-24T00:00:00"}