{"id":"https://openalex.org/W7134841638","doi":"https://doi.org/10.48550/arxiv.2603.07404","title":"Adaptive Capacity Allocation for Vision Language Action Fine-tuning","display_name":"Adaptive Capacity Allocation for Vision Language Action Fine-tuning","publication_year":2026,"publication_date":"2026-03-08","ids":{"openalex":"https://openalex.org/W7134841638","doi":"https://doi.org/10.48550/arxiv.2603.07404"},"language":null,"primary_location":{"id":"pmh:doi:10.48550/arxiv.2603.07404","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":null,"any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5128634563","display_name":"Donghoon Kim","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Kim, Donghoon","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5128632664","display_name":"Minji Bae","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Bae, Minji","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5128662382","display_name":"Unghui Nam","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Nam, Unghui","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5077582267","display_name":"Gyeonghun Kim","orcid":"https://orcid.org/0000-0003-2924-8387"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Kim, Gyeonghun","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5128679095","display_name":"Suyun Lee","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Lee, Suyun","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5128664468","display_name":"Kyuhong Shim","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Shim, Kyuhong","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5076075267","display_name":"Byonghyo Shim","orcid":"https://orcid.org/0000-0001-5051-1763"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Shim, Byonghyo","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":0,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.7903000116348267,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.7903000116348267,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10181","display_name":"Natural Language Processing Techniques","score":0.030899999663233757,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11307","display_name":"Domain Adaptation and Few-Shot Learning","score":0.028999999165534973,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/rank","display_name":"Rank (graph theory)","score":0.6100999712944031},{"id":"https://openalex.org/keywords/router","display_name":"Router","score":0.5817999839782715},{"id":"https://openalex.org/keywords/set","display_name":"Set (abstract data type)","score":0.5397999882698059},{"id":"https://openalex.org/keywords/action","display_name":"Action (physics)","score":0.49559998512268066},{"id":"https://openalex.org/keywords/robotics","display_name":"Robotics","score":0.44040000438690186},{"id":"https://openalex.org/keywords/transfer","display_name":"Transfer (computing)","score":0.4156000018119812},{"id":"https://openalex.org/keywords/energy","display_name":"Energy (signal processing)","score":0.40470001101493835},{"id":"https://openalex.org/keywords/language-model","display_name":"Language model","score":0.3978999853134155}],"concepts":[{"id":"https://openalex.org/C164226766","wikidata":"https://www.wikidata.org/wiki/Q7293202","display_name":"Rank (graph theory)","level":2,"score":0.6100999712944031},{"id":"https://openalex.org/C2775896111","wikidata":"https://www.wikidata.org/wiki/Q642560","display_name":"Router","level":2,"score":0.5817999839782715},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5781000256538391},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.5712000131607056},{"id":"https://openalex.org/C177264268","wikidata":"https://www.wikidata.org/wiki/Q1514741","display_name":"Set (abstract data type)","level":2,"score":0.5397999882698059},{"id":"https://openalex.org/C2780791683","wikidata":"https://www.wikidata.org/wiki/Q846785","display_name":"Action (physics)","level":2,"score":0.49559998512268066},{"id":"https://openalex.org/C34413123","wikidata":"https://www.wikidata.org/wiki/Q170978","display_name":"Robotics","level":3,"score":0.44040000438690186},{"id":"https://openalex.org/C2776175482","wikidata":"https://www.wikidata.org/wiki/Q1195816","display_name":"Transfer (computing)","level":2,"score":0.4156000018119812},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.41290000081062317},{"id":"https://openalex.org/C186370098","wikidata":"https://www.wikidata.org/wiki/Q442787","display_name":"Energy (signal processing)","level":2,"score":0.40470001101493835},{"id":"https://openalex.org/C137293760","wikidata":"https://www.wikidata.org/wiki/Q3621696","display_name":"Language model","level":2,"score":0.3978999853134155},{"id":"https://openalex.org/C125411270","wikidata":"https://www.wikidata.org/wiki/Q18653","display_name":"Encoding (memory)","level":2,"score":0.3587000072002411},{"id":"https://openalex.org/C101738243","wikidata":"https://www.wikidata.org/wiki/Q786435","display_name":"Autoencoder","level":3,"score":0.3221000134944916},{"id":"https://openalex.org/C2777894999","wikidata":"https://www.wikidata.org/wiki/Q4781758","display_name":"Approx","level":2,"score":0.3156000077724457},{"id":"https://openalex.org/C2987834672","wikidata":"https://www.wikidata.org/wiki/Q4677630","display_name":"Action recognition","level":3,"score":0.3009999990463257},{"id":"https://openalex.org/C80444323","wikidata":"https://www.wikidata.org/wiki/Q2878974","display_name":"Theoretical computer science","level":1,"score":0.29350000619888306},{"id":"https://openalex.org/C90509273","wikidata":"https://www.wikidata.org/wiki/Q11012","display_name":"Robot","level":2,"score":0.28630000352859497},{"id":"https://openalex.org/C150899416","wikidata":"https://www.wikidata.org/wiki/Q1820378","display_name":"Transfer of learning","level":2,"score":0.27469998598098755},{"id":"https://openalex.org/C204321447","wikidata":"https://www.wikidata.org/wiki/Q30642","display_name":"Natural language processing","level":1,"score":0.2732999920845032},{"id":"https://openalex.org/C139945424","wikidata":"https://www.wikidata.org/wiki/Q1940696","display_name":"Mean squared error","level":2,"score":0.2720000147819519},{"id":"https://openalex.org/C32022120","wikidata":"https://www.wikidata.org/wiki/Q797225","display_name":"Interference (communication)","level":3,"score":0.267300009727478},{"id":"https://openalex.org/C195324797","wikidata":"https://www.wikidata.org/wiki/Q33742","display_name":"Natural language","level":2,"score":0.25870001316070557},{"id":"https://openalex.org/C2780695315","wikidata":"https://www.wikidata.org/wiki/Q3799040","display_name":"Unobservable","level":2,"score":0.2531000077724457},{"id":"https://openalex.org/C2778949103","wikidata":"https://www.wikidata.org/wiki/Q600717","display_name":"Staring","level":2,"score":0.25290000438690186},{"id":"https://openalex.org/C51632099","wikidata":"https://www.wikidata.org/wiki/Q3985153","display_name":"Training set","level":2,"score":0.2513999938964844}],"mesh":[],"locations_count":2,"locations":[{"id":"pmh:doi:10.48550/arxiv.2603.07404","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},{"id":"doi:10.48550/arxiv.2603.07404","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.07404","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"Preprint"}],"best_oa_location":{"id":"pmh:doi:10.48550/arxiv.2603.07404","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},"sustainable_development_goals":[{"display_name":"Quality Education","id":"https://metadata.un.org/sdg/4","score":0.5442734360694885}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Vision":[0],"language":[1,57],"action":[2],"models":[3],"(VLAs)":[4],"are":[5],"increasingly":[6],"used":[7],"for":[8,33,62],"Physical":[9],"AI,":[10],"but":[11],"deploying":[12],"a":[13,50,86,97,116,127,149,165],"pre-trained":[14],"VLA":[15,34,205],"model":[16],"to":[17,152,172,227,235],"unseen":[18,199],"environments,":[19],"embodiments,":[20],"or":[21,83,212],"tasks":[22,195],"still":[23],"requires":[24],"adaptation.":[25],"Parameter-efficient":[26],"fine-tuning":[27,99,215],"(PEFT),":[28],"especially":[29],"LoRA,":[30],"is":[31,134],"common":[32],"policies,":[35],"yet":[36],"the":[37,41,141,170],"exposed":[38],"capacity":[39],"knob,":[40],"rank,":[42,85],"does":[43],"not":[44],"transfer":[45,48],"uniformly:":[46],"robotics":[47],"exhibits":[49],"higher":[51],"and":[52,107,168,188,208,221],"task-varying":[53],"intrinsic":[54],"rank":[55,236],"than":[56],"fine-tuning.":[58],"Small":[59],"ranks":[60,78],"suffice":[61],"LLMs":[63],"(e.g.,":[64,79],"$r":[65,80],"\\in":[66],"\\{4,":[67],"8\\}$),":[68],"while":[69,177,232],"spectral":[70,157],"analyses":[71],"indicate":[72],"VLAs":[73],"may":[74],"require":[75],"much":[76],"larger":[77],"\\approx":[81],"128$)":[82],"near-full":[84],"mismatch":[87],"that":[88,101,184],"worsens":[89],"in":[90],"multi-task":[91,223],"settings.":[92],"We":[93],"present":[94],"LoRA-SP":[95,110,210],"(Select-Prune),":[96],"rank-adaptive":[98],"method":[100],"replaces":[102],"fixed-rank":[103],"updates":[104],"with":[105,115,216],"input-":[106],"layer-wise":[108],"capacity.":[109],"uses":[111],"an":[112,137,198],"SVD-style":[113],"parameterization":[114],"small":[117],"router":[118,171],"whose":[119],"nonnegative":[120],"scores":[121,144],"act":[122],"as":[123],"singular":[124],"values":[125],"over":[126,229],"shared":[128],"vector":[129],"bank.":[130],"The":[131],"active":[132],"set":[133],"chosen":[135],"by":[136,225],"energy":[138,163],"target":[139],"on":[140,164,174,197],"cumulative":[142],"squared":[143],"$E(k)":[145],"\\ge":[146],"\u03b7$,":[147],"providing":[148],"direct":[150],"link":[151],"approximation":[153],"error":[154],"via":[155],"our":[156],"analysis.":[158],"During":[159],"training,":[160],"$\u03b7$":[161],"concentrates":[162],"few":[166],"directions":[167],"teaches":[169],"rely":[173],"fewer":[175,218],"vectors":[176],"preserving":[178],"accuracy.":[179],"This":[180],"yields":[181],"compact":[182],"adapters":[183],"reduce":[185],"cross-task":[186],"interference":[187],"improve":[189],"generalization.":[190],"On":[191],"four":[192],"real-robot":[193],"manipulation":[194],"collected":[196],"AgileX":[200],"PiPER":[201],"arm,":[202],"across":[203],"two":[204],"backbones":[206],"($\u03c0_0$":[207],"SmolVLA),":[209],"matches":[211],"exceeds":[213],"full":[214],"far":[217],"trainable":[219],"parameters,":[220],"improves":[222],"success":[224],"up":[226],"31.6%":[228],"standard":[230],"LoRA":[231],"remaining":[233],"robust":[234],"choice.":[237]},"counts_by_year":[],"updated_date":"2026-07-01T06:00:48.157686","created_date":"2026-03-11T00:00:00"}