{"id":"https://openalex.org/W7159648611","doi":"https://doi.org/10.48550/arxiv.2604.28192","title":"LaST-R1: Reinforcing Robotic Manipulation via Adaptive Physical Latent Reasoning","display_name":"LaST-R1: Reinforcing Robotic Manipulation via Adaptive Physical Latent Reasoning","publication_year":2026,"publication_date":"2026-04-30","ids":{"openalex":"https://openalex.org/W7159648611","doi":"https://doi.org/10.48550/arxiv.2604.28192"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2604.28192","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.28192","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2604.28192","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5134948225","display_name":"Hao Chen (5190)","orcid":"https://orcid.org/0000-0002-4021-0876"},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Chen, Hao","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5134971167","display_name":"Jiaming Liu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Liu, Jiaming","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5100312997","display_name":"Zhonghao Yan","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Yan, Zhonghao","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5103392540","display_name":"Nuowei Han","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Han, Nuowei","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5134964619","display_name":"Renrui Zhang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhang, Renrui","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5134988870","display_name":"Chenyang Gu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Gu, Chenyang","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5134929280","display_name":"Jialin Gao","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Gao, Jialin","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5134979502","display_name":"Ziyu Guo","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Guo, Ziyu","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5028696491","display_name":"Siyuan Qian","orcid":"https://orcid.org/0000-0002-7562-3689"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Qian, Siyuan","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5047152154","display_name":"Yinxi Wang","orcid":"https://orcid.org/0000-0002-1651-7763"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Wang, Yinxi","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5134961767","display_name":"Peng Jia","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Jia, Peng","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5134957834","display_name":"Chi-Wing Fu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhang, Shanghang","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5134984523","display_name":"Shanghang Zhang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Heng, Pheng-Ann","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":13,"corresponding_author_ids":["https://openalex.org/A5134948225"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.5188000202178955,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.5188000202178955,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.27219998836517334,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10653","display_name":"Robot Manipulation and Learning","score":0.06800000369548798,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/adaptability","display_name":"Adaptability","score":0.657800018787384},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.6021999716758728},{"id":"https://openalex.org/keywords/robustness","display_name":"Robustness (evolution)","score":0.5745000243186951},{"id":"https://openalex.org/keywords/action","display_name":"Action (physics)","score":0.45820000767707825},{"id":"https://openalex.org/keywords/generalization","display_name":"Generalization","score":0.41850000619888306},{"id":"https://openalex.org/keywords/benchmark","display_name":"Benchmark (surveying)","score":0.40639999508857727},{"id":"https://openalex.org/keywords/bridging","display_name":"Bridging (networking)","score":0.3707999885082245},{"id":"https://openalex.org/keywords/representation","display_name":"Representation (politics)","score":0.3650999963283539}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7265999913215637},{"id":"https://openalex.org/C177606310","wikidata":"https://www.wikidata.org/wiki/Q5674297","display_name":"Adaptability","level":2,"score":0.657800018787384},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6431999802589417},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.6021999716758728},{"id":"https://openalex.org/C63479239","wikidata":"https://www.wikidata.org/wiki/Q7353546","display_name":"Robustness (evolution)","level":3,"score":0.5745000243186951},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.517799973487854},{"id":"https://openalex.org/C2780791683","wikidata":"https://www.wikidata.org/wiki/Q846785","display_name":"Action (physics)","level":2,"score":0.45820000767707825},{"id":"https://openalex.org/C177148314","wikidata":"https://www.wikidata.org/wiki/Q170084","display_name":"Generalization","level":2,"score":0.41850000619888306},{"id":"https://openalex.org/C185798385","wikidata":"https://www.wikidata.org/wiki/Q1161707","display_name":"Benchmark (surveying)","level":2,"score":0.40639999508857727},{"id":"https://openalex.org/C174348530","wikidata":"https://www.wikidata.org/wiki/Q188635","display_name":"Bridging (networking)","level":2,"score":0.3707999885082245},{"id":"https://openalex.org/C2776359362","wikidata":"https://www.wikidata.org/wiki/Q2145286","display_name":"Representation (politics)","level":3,"score":0.3650999963283539},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.36390000581741333},{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.3479999899864197},{"id":"https://openalex.org/C166109690","wikidata":"https://www.wikidata.org/wiki/Q4677422","display_name":"Action selection","level":3,"score":0.34299999475479126},{"id":"https://openalex.org/C2776135515","wikidata":"https://www.wikidata.org/wiki/Q17143721","display_name":"Regularization (linguistics)","level":2,"score":0.2761000096797943},{"id":"https://openalex.org/C59404180","wikidata":"https://www.wikidata.org/wiki/Q17013334","display_name":"Feature learning","level":2,"score":0.26739999651908875},{"id":"https://openalex.org/C143587482","wikidata":"https://www.wikidata.org/wiki/Q1543216","display_name":"Iterative and incremental development","level":2,"score":0.26409998536109924},{"id":"https://openalex.org/C100776233","wikidata":"https://www.wikidata.org/wiki/Q2532492","display_name":"Bridge (graph theory)","level":2,"score":0.26080000400543213},{"id":"https://openalex.org/C139807058","wikidata":"https://www.wikidata.org/wiki/Q352374","display_name":"Adaptation (eye)","level":2,"score":0.2572999894618988},{"id":"https://openalex.org/C82876162","wikidata":"https://www.wikidata.org/wiki/Q17096504","display_name":"Latency (audio)","level":2,"score":0.25049999356269836}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2604.28192","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.28192","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2604.28192","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.28192","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[{"score":0.40639448165893555,"id":"https://metadata.un.org/sdg/16","display_name":"Peace, Justice and strong institutions"}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Robotic":[0],"foundation":[1],"models":[2,23],"require":[3],"reasoning":[4,83,95,132],"over":[5,165,181],"complex":[6,188],"visual":[7],"scenes":[8],"to":[9,28,37,61,128,176],"execute":[10],"adaptive":[11,119],"actions":[12],"in":[13,109,114],"dynamic":[14],"environments.":[15,116,205],"While":[16],"recent":[17],"studies":[18],"on":[19,135,150],"latent-reasoning":[20],"Vision-Language-Action":[21],"(VLA)":[22],"have":[24],"demonstrated":[25],"the":[26,81,86,98,126,151],"capability":[27],"capture":[29],"fine-grained":[30],"physical":[31,105],"dynamics,":[32],"they":[33],"remain":[34],"predominantly":[35],"confined":[36],"static":[38],"imitation":[39],"learning,":[40],"severely":[41],"limiting":[42],"their":[43],"adaptability":[44],"and":[45,85,163,193,203],"generalization.":[46],"In":[47,170],"this":[48],"paper,":[49],"we":[50,68],"present":[51],"LaST-R1,":[52],"a":[53,74,144,177],"novel":[54],"reinforcement":[55],"learning":[56],"(RL)":[57],"post-training":[58],"framework":[59],"designed":[60],"effectively":[62],"harness":[63],"\"latent":[64],"reasoning-before-acting\"":[65],"policies.":[66],"Specifically,":[67],"propose":[69],"Latent-to-Action":[70],"Policy":[71],"Optimization":[72],"(LAPO),":[73],"core":[75],"RL":[76,99],"algorithm":[77],"that":[78,141],"jointly":[79],"optimizes":[80],"latent":[82,92,120],"process":[84],"action":[87],"generation.":[88],"By":[89],"explicitly":[90],"embedding":[91],"Chain-of-Thought":[93],"(CoT)":[94],"directly":[96],"within":[97],"optimization":[100],"loop,":[101],"LAPO":[102],"stimulates":[103],"profound":[104],"world":[106],"modeling,":[107],"which":[108],"turn":[110],"drives":[111],"robust":[112],"execution":[113],"interactive":[115],"Furthermore,":[117],"an":[118],"CoT":[121],"mechanism":[122],"is":[123],"introduced,":[124],"allowing":[125],"policy":[127],"dynamically":[129],"modulate":[130],"its":[131],"horizon":[133],"based":[134],"diverse":[136],"environment":[137],"states.":[138],"Experiments":[139],"show":[140],"LaST-R1":[142,173,197],"achieves":[143],"near-perfect":[145],"99.9%":[146],"average":[147,179],"success":[148],"rate":[149],"LIBERO":[152],"benchmark":[153],"with":[154],"only":[155],"one-shot":[156],"supervised":[157,183],"warm-up,":[158],"significantly":[159],"improving":[160],"convergence":[161],"speed":[162],"performance":[164],"prior":[166],"state-of-the-art":[167],"(SOTA)":[168],"methods.":[169],"real-world":[171,204],"deployments,":[172],"yields":[174],"up":[175],"22.5%":[178],"improvement":[180],"SOTA":[182],"fine-tuning":[184],"approach":[185],"across":[186,201],"four":[187],"tasks,":[189],"including":[190],"both":[191],"single-arm":[192],"dual-arm":[194],"settings.":[195],"Finally,":[196],"demonstrates":[198],"strong":[199],"generalization":[200],"simulated":[202]},"counts_by_year":[],"updated_date":"2026-05-08T13:12:06.581006","created_date":"2026-05-02T00:00:00"}