{"id":"https://openalex.org/W4416789512","doi":"https://doi.org/10.48550/arxiv.2511.21405","title":"Decentralized Shepherding of Non-Cohesive Swarms Through Cluttered Environments via Deep Reinforcement Learning","display_name":"Decentralized Shepherding of Non-Cohesive Swarms Through Cluttered Environments via Deep Reinforcement Learning","publication_year":2025,"publication_date":"2025-11-26","ids":{"openalex":"https://openalex.org/W4416789512","doi":"https://doi.org/10.48550/arxiv.2511.21405"},"language":null,"primary_location":{"id":"pmh:oai:arXiv.org:2511.21405","is_oa":true,"landing_page_url":"http://arxiv.org/abs/2511.21405","pdf_url":"https://arxiv.org/pdf/2511.21405","source":{"id":"https://openalex.org/S4393918464","display_name":"ArXiv.org","issn_l":"2331-8422","issn":["2331-8422"],"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by-nc-sa","license_id":"https://openalex.org/licenses/cc-by-nc-sa","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"text"},"type":"preprint","indexed_in":["arxiv","datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://arxiv.org/pdf/2511.21405","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5120436788","display_name":"Cristiana Punzo","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Punzo, Cristiana","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5114653538","display_name":"Italo Napolitano","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Napolitano, Italo","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5092741118","display_name":"Cinzia Tomaselli","orcid":"https://orcid.org/0000-0002-2632-7517"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Tomaselli, Cinzia","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5102761595","display_name":"Mario di Bernardo","orcid":"https://orcid.org/0000-0002-3329-0839"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"di Bernardo, Mario","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":4,"corresponding_author_ids":["https://openalex.org/A5120436788"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":true,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10249","display_name":"Distributed Control Multi-Agent Systems","score":0.40639999508857727,"subfield":{"id":"https://openalex.org/subfields/1705","display_name":"Computer Networks and Communications"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10249","display_name":"Distributed Control Multi-Agent Systems","score":0.40639999508857727,"subfield":{"id":"https://openalex.org/subfields/1705","display_name":"Computer Networks and Communications"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.271699994802475,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12158","display_name":"Guidance and Control Systems","score":0.0820000022649765,"subfield":{"id":"https://openalex.org/subfields/2202","display_name":"Aerospace Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.6919000148773193},{"id":"https://openalex.org/keywords/convergence","display_name":"Convergence (economics)","score":0.5526000261306763},{"id":"https://openalex.org/keywords/obstacle-avoidance","display_name":"Obstacle avoidance","score":0.5462999939918518},{"id":"https://openalex.org/keywords/obstacle","display_name":"Obstacle","score":0.5048999786376953},{"id":"https://openalex.org/keywords/control","display_name":"Control (management)","score":0.4011000096797943},{"id":"https://openalex.org/keywords/flocking","display_name":"Flocking (texture)","score":0.39890000224113464},{"id":"https://openalex.org/keywords/trajectory","display_name":"Trajectory","score":0.3961000144481659},{"id":"https://openalex.org/keywords/path","display_name":"Path (computing)","score":0.37229999899864197}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.6919000148773193},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6263999938964844},{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.5526000261306763},{"id":"https://openalex.org/C6683253","wikidata":"https://www.wikidata.org/wiki/Q7075535","display_name":"Obstacle avoidance","level":4,"score":0.5462999939918518},{"id":"https://openalex.org/C2776650193","wikidata":"https://www.wikidata.org/wiki/Q264661","display_name":"Obstacle","level":2,"score":0.5048999786376953},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.446399986743927},{"id":"https://openalex.org/C2775924081","wikidata":"https://www.wikidata.org/wiki/Q55608371","display_name":"Control (management)","level":2,"score":0.4011000096797943},{"id":"https://openalex.org/C2781220375","wikidata":"https://www.wikidata.org/wiki/Q814208","display_name":"Flocking (texture)","level":2,"score":0.39890000224113464},{"id":"https://openalex.org/C13662910","wikidata":"https://www.wikidata.org/wiki/Q193139","display_name":"Trajectory","level":2,"score":0.3961000144481659},{"id":"https://openalex.org/C2777735758","wikidata":"https://www.wikidata.org/wiki/Q817765","display_name":"Path (computing)","level":2,"score":0.37229999899864197},{"id":"https://openalex.org/C205875254","wikidata":"https://www.wikidata.org/wiki/Q17156857","display_name":"Decentralised system","level":3,"score":0.3465999960899353},{"id":"https://openalex.org/C2780864053","wikidata":"https://www.wikidata.org/wiki/Q5147495","display_name":"Collision avoidance","level":3,"score":0.3179999887943268},{"id":"https://openalex.org/C133731056","wikidata":"https://www.wikidata.org/wiki/Q4917288","display_name":"Control engineering","level":1,"score":0.29010000824928284},{"id":"https://openalex.org/C127413603","wikidata":"https://www.wikidata.org/wiki/Q11023","display_name":"Engineering","level":0,"score":0.28439998626708984},{"id":"https://openalex.org/C44154836","wikidata":"https://www.wikidata.org/wiki/Q45045","display_name":"Simulation","level":1,"score":0.28060001134872437},{"id":"https://openalex.org/C59519942","wikidata":"https://www.wikidata.org/wiki/Q650665","display_name":"Drone","level":2,"score":0.2711000144481659},{"id":"https://openalex.org/C2780791683","wikidata":"https://www.wikidata.org/wiki/Q846785","display_name":"Action (physics)","level":2,"score":0.26899999380111694},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.2676999866962433},{"id":"https://openalex.org/C81074085","wikidata":"https://www.wikidata.org/wiki/Q366872","display_name":"Motion planning","level":3,"score":0.26600000262260437},{"id":"https://openalex.org/C91575142","wikidata":"https://www.wikidata.org/wiki/Q1971426","display_name":"Optimal control","level":2,"score":0.26600000262260437},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.25040000677108765}],"mesh":[],"locations_count":2,"locations":[{"id":"pmh:oai:arXiv.org:2511.21405","is_oa":true,"landing_page_url":"http://arxiv.org/abs/2511.21405","pdf_url":"https://arxiv.org/pdf/2511.21405","source":{"id":"https://openalex.org/S4393918464","display_name":"ArXiv.org","issn_l":"2331-8422","issn":["2331-8422"],"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by-nc-sa","license_id":"https://openalex.org/licenses/cc-by-nc-sa","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"text"},{"id":"doi:10.48550/arxiv.2511.21405","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2511.21405","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"pmh:oai:arXiv.org:2511.21405","is_oa":true,"landing_page_url":"http://arxiv.org/abs/2511.21405","pdf_url":"https://arxiv.org/pdf/2511.21405","source":{"id":"https://openalex.org/S4393918464","display_name":"ArXiv.org","issn_l":"2331-8422","issn":["2331-8422"],"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by-nc-sa","license_id":"https://openalex.org/licenses/cc-by-nc-sa","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"text"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":true},"content_urls":{"pdf":"https://content.openalex.org/works/W4416789512.pdf"},"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"This":[0],"paper":[1],"investigates":[2],"decentralized":[3],"shepherding":[4,120],"in":[5,27,73,121],"cluttered":[6],"environments,":[7],"where":[8,45],"a":[9,16,24,40,51,55,74,78],"limited":[10],"number":[11],"of":[12,19,30,64,114],"herders":[13],"must":[14],"guide":[15],"larger":[17],"group":[18],"non-cohesive,":[20],"diffusive":[21],"targets":[22],"toward":[23],"goal":[25,109],"region":[26],"the":[28,65,108,112],"presence":[29],"static":[31],"obstacles.":[32],"A":[33],"hierarchical":[34],"control":[35],"architecture":[36],"is":[37,48,71],"proposed,":[38],"integrating":[39],"high-level":[41],"target":[42],"assignment":[43],"rule,":[44],"each":[46],"herder":[47],"paired":[49],"with":[50,54,77,92],"selected":[52],"target,":[53],"learning-based":[56],"low-level":[57,69],"driving":[58],"module":[59],"that":[60],"enables":[61],"effective":[62],"steering":[63],"assigned":[66],"target.":[67],"The":[68],"policy":[70],"trained":[72],"one-herder-one-target":[75],"scenario":[76],"rectangular":[79],"obstacle":[80],"using":[81],"Proximal":[82],"Policy":[83],"Optimization":[84],"and":[85,104],"then":[86],"directly":[87],"extended":[88],"to":[89,107],"multi-agent":[90],"settings":[91],"multiple":[93],"obstacles":[94],"without":[95],"requiring":[96],"retraining.":[97],"Numerical":[98],"simulations":[99],"demonstrate":[100],"smooth,":[101],"collision-free":[102],"trajectories":[103],"consistent":[105],"convergence":[106],"region,":[110],"highlighting":[111],"potential":[113],"reinforcement":[115],"learning":[116],"for":[117],"scalable,":[118],"model-free":[119],"complex":[122],"environments.":[123]},"counts_by_year":[],"updated_date":"2026-03-11T14:59:36.786465","created_date":"2025-11-28T00:00:00"}