{"id":"https://openalex.org/W7140189220","doi":"https://doi.org/10.48550/arxiv.2603.21123","title":"VisFly-Lab: Unified Differentiable Framework for First-Order Reinforcement Learning of Quadrotor Control","display_name":"VisFly-Lab: Unified Differentiable Framework for First-Order Reinforcement Learning of Quadrotor Control","publication_year":2026,"publication_date":"2026-03-22","ids":{"openalex":"https://openalex.org/W7140189220","doi":"https://doi.org/10.48550/arxiv.2603.21123"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2603.21123","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.21123","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2603.21123","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":null,"display_name":"Li, Fanxing","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Li, Fanxing","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":null,"display_name":"Sun, Fangyu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Sun, Fangyu","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":null,"display_name":"Zhang, Tianbao","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhang, Tianbao","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":null,"display_name":"Wu, Shuyu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Wu, Shuyu","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":null,"display_name":"Zuo, Dexin","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zuo, Dexin","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":null,"display_name":"Yan, yufei","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Yan, yufei","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":null,"display_name":"Yu, Wenxian","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Yu, Wenxian","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":null,"display_name":"Zou, Danping","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zou, Danping","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":8,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.19300000369548798,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.19300000369548798,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10040","display_name":"Adaptive Control of Nonlinear Systems","score":0.13189999759197235,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12125","display_name":"Aerospace and Aviation Technology","score":0.12280000001192093,"subfield":{"id":"https://openalex.org/subfields/2202","display_name":"Aerospace Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/differentiable-function","display_name":"Differentiable function","score":0.8575000166893005},{"id":"https://openalex.org/keywords/initialization","display_name":"Initialization","score":0.79830002784729},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7498999834060669},{"id":"https://openalex.org/keywords/suite","display_name":"Suite","score":0.5432000160217285},{"id":"https://openalex.org/keywords/trajectory","display_name":"Trajectory","score":0.4348999857902527},{"id":"https://openalex.org/keywords/transferability","display_name":"Transferability","score":0.3928000032901764},{"id":"https://openalex.org/keywords/horizon","display_name":"Horizon","score":0.3815000057220459},{"id":"https://openalex.org/keywords/control","display_name":"Control (management)","score":0.3634999990463257},{"id":"https://openalex.org/keywords/point","display_name":"Point (geometry)","score":0.3634999990463257}],"concepts":[{"id":"https://openalex.org/C202615002","wikidata":"https://www.wikidata.org/wiki/Q783507","display_name":"Differentiable function","level":2,"score":0.8575000166893005},{"id":"https://openalex.org/C114466953","wikidata":"https://www.wikidata.org/wiki/Q6034165","display_name":"Initialization","level":2,"score":0.79830002784729},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7498999834060669},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.692799985408783},{"id":"https://openalex.org/C79581498","wikidata":"https://www.wikidata.org/wiki/Q1367530","display_name":"Suite","level":2,"score":0.5432000160217285},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.47209998965263367},{"id":"https://openalex.org/C13662910","wikidata":"https://www.wikidata.org/wiki/Q193139","display_name":"Trajectory","level":2,"score":0.4348999857902527},{"id":"https://openalex.org/C61272859","wikidata":"https://www.wikidata.org/wiki/Q7834031","display_name":"Transferability","level":3,"score":0.3928000032901764},{"id":"https://openalex.org/C159176650","wikidata":"https://www.wikidata.org/wiki/Q43261","display_name":"Horizon","level":2,"score":0.3815000057220459},{"id":"https://openalex.org/C28719098","wikidata":"https://www.wikidata.org/wiki/Q44946","display_name":"Point (geometry)","level":2,"score":0.3634999990463257},{"id":"https://openalex.org/C2775924081","wikidata":"https://www.wikidata.org/wiki/Q55608371","display_name":"Control (management)","level":2,"score":0.3634999990463257},{"id":"https://openalex.org/C47446073","wikidata":"https://www.wikidata.org/wiki/Q5165890","display_name":"Control theory (sociology)","level":3,"score":0.35929998755455017},{"id":"https://openalex.org/C48103436","wikidata":"https://www.wikidata.org/wiki/Q599031","display_name":"State (computer science)","level":2,"score":0.351500004529953},{"id":"https://openalex.org/C113843644","wikidata":"https://www.wikidata.org/wiki/Q901882","display_name":"Interface (matter)","level":4,"score":0.3409000039100647},{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.3249000012874603},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.3172999918460846},{"id":"https://openalex.org/C46814582","wikidata":"https://www.wikidata.org/wiki/Q23389","display_name":"Nash equilibrium","level":2,"score":0.3158999979496002},{"id":"https://openalex.org/C36299963","wikidata":"https://www.wikidata.org/wiki/Q1369844","display_name":"Observability","level":2,"score":0.3156999945640564},{"id":"https://openalex.org/C136197465","wikidata":"https://www.wikidata.org/wiki/Q1729295","display_name":"Variety (cybernetics)","level":2,"score":0.3021000027656555},{"id":"https://openalex.org/C2777904410","wikidata":"https://www.wikidata.org/wiki/Q7397","display_name":"Software","level":2,"score":0.2994000017642975},{"id":"https://openalex.org/C2776459999","wikidata":"https://www.wikidata.org/wiki/Q2119376","display_name":"Fidelity","level":2,"score":0.29760000109672546},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.2921999990940094},{"id":"https://openalex.org/C155032097","wikidata":"https://www.wikidata.org/wiki/Q798503","display_name":"Backpropagation","level":3,"score":0.28540000319480896},{"id":"https://openalex.org/C77618280","wikidata":"https://www.wikidata.org/wiki/Q1155772","display_name":"Scheme (mathematics)","level":2,"score":0.2793999910354614},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.26739999651908875},{"id":"https://openalex.org/C108583219","wikidata":"https://www.wikidata.org/wiki/Q197536","display_name":"Deep learning","level":2,"score":0.2612999975681305},{"id":"https://openalex.org/C28761237","wikidata":"https://www.wikidata.org/wiki/Q7805321","display_name":"Time horizon","level":2,"score":0.25429999828338623},{"id":"https://openalex.org/C168167062","wikidata":"https://www.wikidata.org/wiki/Q1117970","display_name":"Component (thermodynamics)","level":2,"score":0.25270000100135803}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2603.21123","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.21123","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2603.21123","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.21123","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"First-order":[0],"reinforcement":[1],"learning":[2,66],"with":[3,43,131],"differentiable":[4,30,106,140],"simulation":[5],"is":[6,38],"promising":[7],"for":[8,32],"quadrotor":[9,34],"control,":[10],"but":[11],"practical":[12,72],"progress":[13],"remains":[14],"fragmented":[15],"across":[16,50],"task-specific":[17],"settings.":[18,141],"To":[19,93],"support":[20],"more":[21],"systematic":[22],"development":[23],"and":[24,41,57,85,113],"evaluation,":[25],"we":[26,69,97],"present":[27,61],"a":[28,47,109],"unified":[29],"framework":[31,37,157],"multi-task":[33],"control.":[35],"The":[36],"wrapped,":[39],"extensible,":[40],"equipped":[42],"deployment-oriented":[44],"dynamics,":[45],"providing":[46],"common":[48],"interface":[49],"four":[51],"representative":[52],"tasks:":[53],"hovering,":[54],"tracking,":[55],"landing,":[56],"racing.":[58],"We":[59,142],"also":[60],"the":[62,126,155],"suite":[63],"of":[64,74,151],"first-order":[65,76],"algorithms,":[67],"where":[68],"identify":[70],"two":[71],"bottlenecks":[73],"standard":[75],"training:":[77],"limited":[78],"state":[79],"coverage":[80],"caused":[81,88],"by":[82,89],"horizon":[83],"initialization":[84,115],"gradient":[86],"bias":[87],"partially":[90,132],"non-differentiable":[91,133],"rewards.":[92],"address":[94],"these":[95],"issues,":[96],"propose":[98],"Amended":[99],"Backpropagation":[100],"Through":[101],"Time":[102],"(ABPT),":[103],"which":[104],"combines":[105],"rollout":[107],"optimization,":[108],"value-based":[110],"auxiliary":[111],"objective,":[112],"visited-state":[114],"to":[116],"improve":[117],"training":[118],"robustness.":[119],"Experimental":[120],"results":[121],"show":[122],"that":[123],"ABPT":[124],"yields":[125],"clearest":[127],"gains":[128],"in":[129,138,154],"tasks":[130],"rewards,":[134],"while":[135],"remaining":[136],"competitive":[137],"fully":[139],"further":[143],"provide":[144],"proof-of-concept":[145],"real-world":[146],"deployments":[147],"showing":[148],"initial":[149],"transferability":[150],"policies":[152],"learned":[153],"proposed":[156],"beyond":[158],"simulation.":[159]},"counts_by_year":[],"updated_date":"2026-04-25T08:17:42.794288","created_date":"2026-03-25T00:00:00"}