{"id":"https://openalex.org/W4416252332","doi":"https://doi.org/10.1109/ijcnn64981.2025.11228248","title":"Quality-Diversity Driven Action Swarm Evolution in Reinforcement Learning","display_name":"Quality-Diversity Driven Action Swarm Evolution in Reinforcement Learning","publication_year":2025,"publication_date":"2025-06-30","ids":{"openalex":"https://openalex.org/W4416252332","doi":"https://doi.org/10.1109/ijcnn64981.2025.11228248"},"language":null,"primary_location":{"id":"doi:10.1109/ijcnn64981.2025.11228248","is_oa":false,"landing_page_url":"https://doi.org/10.1109/ijcnn64981.2025.11228248","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 International Joint Conference on Neural Networks (IJCNN)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5001644413","display_name":"Liyao Sun","orcid":null},"institutions":[{"id":"https://openalex.org/I24943067","display_name":"Fudan University","ror":"https://ror.org/013q1eq08","country_code":"CN","type":"education","lineage":["https://openalex.org/I24943067"]}],"countries":["CN"],"is_corresponding":true,"raw_author_name":"Liyao Sun","raw_affiliation_strings":["Fudan University,Academy for Engineering and Technology,Shanghai,China"],"affiliations":[{"raw_affiliation_string":"Fudan University,Academy for Engineering and Technology,Shanghai,China","institution_ids":["https://openalex.org/I24943067"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5104307561","display_name":"Kang Xu","orcid":"https://orcid.org/0000-0001-6040-3002"},"institutions":[{"id":"https://openalex.org/I24943067","display_name":"Fudan University","ror":"https://ror.org/013q1eq08","country_code":"CN","type":"education","lineage":["https://openalex.org/I24943067"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Kang Xu","raw_affiliation_strings":["Fudan University,Academy for Engineering and Technology,Shanghai,China"],"affiliations":[{"raw_affiliation_string":"Fudan University,Academy for Engineering and Technology,Shanghai,China","institution_ids":["https://openalex.org/I24943067"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5102862727","display_name":"Yan Ma","orcid":"https://orcid.org/0009-0000-2525-0055"},"institutions":[{"id":"https://openalex.org/I24943067","display_name":"Fudan University","ror":"https://ror.org/013q1eq08","country_code":"CN","type":"education","lineage":["https://openalex.org/I24943067"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Yan Ma","raw_affiliation_strings":["Fudan University,Academy for Engineering and Technology,Shanghai,China"],"affiliations":[{"raw_affiliation_string":"Fudan University,Academy for Engineering and Technology,Shanghai,China","institution_ids":["https://openalex.org/I24943067"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5100318448","display_name":"Wei Li","orcid":"https://orcid.org/0000-0003-4242-1615"},"institutions":[{"id":"https://openalex.org/I24943067","display_name":"Fudan University","ror":"https://ror.org/013q1eq08","country_code":"CN","type":"education","lineage":["https://openalex.org/I24943067"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Wei Li","raw_affiliation_strings":["Fudan University,Academy for Engineering and Technology,Shanghai,China"],"affiliations":[{"raw_affiliation_string":"Fudan University,Academy for Engineering and Technology,Shanghai,China","institution_ids":["https://openalex.org/I24943067"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":4,"corresponding_author_ids":["https://openalex.org/A5001644413"],"corresponding_institution_ids":["https://openalex.org/I24943067"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.19527794,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"8"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9004999995231628,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9004999995231628,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10653","display_name":"Robot Manipulation and Learning","score":0.010099999606609344,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10848","display_name":"Advanced Multi-Objective Optimization Algorithms","score":0.009800000116229057,"subfield":{"id":"https://openalex.org/subfields/1703","display_name":"Computational Theory and Mathematics"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.8192999958992004},{"id":"https://openalex.org/keywords/adaptability","display_name":"Adaptability","score":0.6743000149726868},{"id":"https://openalex.org/keywords/robustness","display_name":"Robustness (evolution)","score":0.5709999799728394},{"id":"https://openalex.org/keywords/metric","display_name":"Metric (unit)","score":0.535099983215332},{"id":"https://openalex.org/keywords/novelty","display_name":"Novelty","score":0.5181000232696533},{"id":"https://openalex.org/keywords/swarm-behaviour","display_name":"Swarm behaviour","score":0.4867999851703644},{"id":"https://openalex.org/keywords/evolutionary-algorithm","display_name":"Evolutionary algorithm","score":0.47360000014305115},{"id":"https://openalex.org/keywords/convergence","display_name":"Convergence (economics)","score":0.4560000002384186},{"id":"https://openalex.org/keywords/flexibility","display_name":"Flexibility (engineering)","score":0.4339999854564667}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.8192999958992004},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6869000196456909},{"id":"https://openalex.org/C177606310","wikidata":"https://www.wikidata.org/wiki/Q5674297","display_name":"Adaptability","level":2,"score":0.6743000149726868},{"id":"https://openalex.org/C63479239","wikidata":"https://www.wikidata.org/wiki/Q7353546","display_name":"Robustness (evolution)","level":3,"score":0.5709999799728394},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5630000233650208},{"id":"https://openalex.org/C176217482","wikidata":"https://www.wikidata.org/wiki/Q860554","display_name":"Metric (unit)","level":2,"score":0.535099983215332},{"id":"https://openalex.org/C2778738651","wikidata":"https://www.wikidata.org/wiki/Q16546687","display_name":"Novelty","level":2,"score":0.5181000232696533},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.49059998989105225},{"id":"https://openalex.org/C181335050","wikidata":"https://www.wikidata.org/wiki/Q14915018","display_name":"Swarm behaviour","level":2,"score":0.4867999851703644},{"id":"https://openalex.org/C159149176","wikidata":"https://www.wikidata.org/wiki/Q14489129","display_name":"Evolutionary algorithm","level":2,"score":0.47360000014305115},{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.4560000002384186},{"id":"https://openalex.org/C2780598303","wikidata":"https://www.wikidata.org/wiki/Q65921492","display_name":"Flexibility (engineering)","level":2,"score":0.4339999854564667},{"id":"https://openalex.org/C2779530757","wikidata":"https://www.wikidata.org/wiki/Q1207505","display_name":"Quality (philosophy)","level":2,"score":0.3783999979496002},{"id":"https://openalex.org/C199505168","wikidata":"https://www.wikidata.org/wiki/Q3267529","display_name":"Evolutionary robotics","level":3,"score":0.36559998989105225},{"id":"https://openalex.org/C2780898871","wikidata":"https://www.wikidata.org/wiki/Q860554","display_name":"Performance metric","level":2,"score":0.3434999883174896},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.33730000257492065},{"id":"https://openalex.org/C192209626","wikidata":"https://www.wikidata.org/wiki/Q190909","display_name":"Focus (optics)","level":2,"score":0.33550000190734863},{"id":"https://openalex.org/C112972136","wikidata":"https://www.wikidata.org/wiki/Q7595718","display_name":"Stability (learning theory)","level":2,"score":0.3352999985218048},{"id":"https://openalex.org/C105902424","wikidata":"https://www.wikidata.org/wiki/Q1197129","display_name":"Evolutionary computation","level":2,"score":0.334199994802475},{"id":"https://openalex.org/C2780791683","wikidata":"https://www.wikidata.org/wiki/Q846785","display_name":"Action (physics)","level":2,"score":0.3206999897956848},{"id":"https://openalex.org/C118070581","wikidata":"https://www.wikidata.org/wiki/Q2060528","display_name":"Neuroevolution","level":3,"score":0.31049999594688416},{"id":"https://openalex.org/C198531522","wikidata":"https://www.wikidata.org/wiki/Q485146","display_name":"Sample (material)","level":2,"score":0.28540000319480896},{"id":"https://openalex.org/C176147130","wikidata":"https://www.wikidata.org/wiki/Q909622","display_name":"Evolvability","level":2,"score":0.2732999920845032},{"id":"https://openalex.org/C2775924081","wikidata":"https://www.wikidata.org/wiki/Q55608371","display_name":"Control (management)","level":2,"score":0.2676999866962433},{"id":"https://openalex.org/C169337768","wikidata":"https://www.wikidata.org/wiki/Q2446723","display_name":"Swarm robotics","level":3,"score":0.2526000142097473}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/ijcnn64981.2025.11228248","is_oa":false,"landing_page_url":"https://doi.org/10.1109/ijcnn64981.2025.11228248","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 International Joint Conference on Neural Networks (IJCNN)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":19,"referenced_works":["https://openalex.org/W1914583973","https://openalex.org/W2132083787","https://openalex.org/W2152195021","https://openalex.org/W2293025108","https://openalex.org/W2951360122","https://openalex.org/W2963099939","https://openalex.org/W2975778877","https://openalex.org/W3198149465","https://openalex.org/W4287757595","https://openalex.org/W4365396134","https://openalex.org/W4367672846","https://openalex.org/W4385566404","https://openalex.org/W4387171246","https://openalex.org/W4390826480","https://openalex.org/W4391057639","https://openalex.org/W4393159910","https://openalex.org/W4393160882","https://openalex.org/W4401596732","https://openalex.org/W4408105455"],"related_works":[],"abstract_inverted_index":{"In":[0],"recent":[1],"years,":[2],"the":[3,36,39,60,72,78,103,113,132,139,152,160,191,198],"combination":[4],"of":[5,38,49,62,74,80,176,193],"Reinforcement":[6,18],"Learning":[7,19],"(RL)":[8],"and":[9,21,119,150,169,181],"Evolutionary":[10,17],"Algorithm":[11],"(EA)":[12],"has":[13],"been":[14,27],"widely":[15],"studied.":[16],"(ERL)":[20],"its":[22],"various":[23,146],"variants":[24],"have":[25],"also":[26],"proposed.":[28],"However,":[29],"most":[30,66],"ERL":[31,172],"methods":[32,68,173],"focus":[33,70],"on":[34,71,145],"evolving":[35],"parameters":[37],"policy":[40],"network":[41],"which":[42,82,116,188],"are":[43],"high-dimensional.":[44],"The":[45,162],"low":[46],"sample":[47],"efficiency":[48],"EA":[50,110,136],"imposes":[51],"limitations":[52],"when":[53],"optimizing":[54],"high-dimensional":[55],"spaces,":[56],"thus":[57],"significantly":[58],"restricting":[59],"performance":[61],"such":[63],"methods.":[64],"Additionally,":[65],"existing":[67],"only":[69],"quality":[73,133],"actions,":[75,81],"without":[76],"considering":[77],"novelty":[79],"can":[83],"lead":[84],"to":[85,111,137,159,201],"insufficient":[86],"exploration.":[87],"To":[88],"address":[89],"these":[90],"two":[91],"problems,":[92],"we":[93,184],"propose":[94],"Quality-Diversity":[95],"Driven":[96],"Action":[97],"Swarm":[98],"Evolution":[99],"(ASE-QD).":[100],"Building":[101],"upon":[102],"off-policy":[104],"RL":[105],"method":[106],"TD3,":[107],"ASEQD":[108],"adopts":[109],"evolve":[112],"action":[114],"space":[115],"is":[117,128],"low-dimensional":[118],"introduces":[120],"a":[121],"diversity":[122,194],"metric":[123,127,134],"for":[124],"actions.":[125,141],"This":[126],"used":[129],"together":[130],"with":[131],"in":[135,174],"select":[138],"best":[140],"We":[142],"test":[143],"ASE-QD":[144,166],"control":[147],"locomotion":[148],"tasks":[149],"evaluate":[151],"model\u2019s":[153,199],"robustness":[154],"by":[155],"introducing":[156],"delayed":[157],"rewards":[158],"environment.":[161],"results":[163],"demonstrate":[164],"that":[165,190],"outperforms":[167],"TD3":[168],"several":[170],"state-of-the-art":[171],"terms":[175],"average":[177],"return,":[178],"convergence":[179],"speed,":[180],"robustness.":[182],"Furthermore,":[183],"conduct":[185],"ablation":[186],"experiments,":[187],"confirm":[189],"introduction":[192],"metrics":[195],"indeed":[196],"enhances":[197],"adaptability":[200],"different":[202],"environments.":[203]},"counts_by_year":[],"updated_date":"2026-03-07T16:01:11.037858","created_date":"2025-11-14T00:00:00"}