{"id":"https://openalex.org/W7133297950","doi":"https://doi.org/10.48550/arxiv.2603.00719","title":"Keyframe-Guided Structured Rewards for Reinforcement Learning in Long-Horizon Laboratory Robotics","display_name":"Keyframe-Guided Structured Rewards for Reinforcement Learning in Long-Horizon Laboratory Robotics","publication_year":2026,"publication_date":"2026-02-28","ids":{"openalex":"https://openalex.org/W7133297950","doi":"https://doi.org/10.48550/arxiv.2603.00719"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2603.00719","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.00719","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2603.00719","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5127988825","display_name":"Yibo Qiu","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Qiu, Yibo","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5127994734","display_name":"Shu'ang Sun","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Sun, Shu'ang","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5106483192","display_name":"Hanghui Ye","orcid":"https://orcid.org/0009-0007-5891-1754"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Ye, Haoliang","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5057386168","display_name":"Ronald X. Xu","orcid":"https://orcid.org/0000-0003-2486-5677"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Xu, Ronald X","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5128027149","display_name":"Mingzhai Sun","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Sun, Mingzhai","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":5,"corresponding_author_ids":["https://openalex.org/A5127988825"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10653","display_name":"Robot Manipulation and Learning","score":0.8476999998092651,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10653","display_name":"Robot Manipulation and Learning","score":0.8476999998092651,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.04259999841451645,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10868","display_name":"Soft Robotics and Applications","score":0.011099999770522118,"subfield":{"id":"https://openalex.org/subfields/2204","display_name":"Biomedical Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7494999766349792},{"id":"https://openalex.org/keywords/robotics","display_name":"Robotics","score":0.5577999949455261},{"id":"https://openalex.org/keywords/scalability","display_name":"Scalability","score":0.46619999408721924},{"id":"https://openalex.org/keywords/imperfect","display_name":"Imperfect","score":0.42410001158714294},{"id":"https://openalex.org/keywords/reinforcement","display_name":"Reinforcement","score":0.37869998812675476},{"id":"https://openalex.org/keywords/robot","display_name":"Robot","score":0.3749000132083893},{"id":"https://openalex.org/keywords/state","display_name":"State (computer science)","score":0.3707999885082245}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7494999766349792},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6967999935150146},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6722999811172485},{"id":"https://openalex.org/C34413123","wikidata":"https://www.wikidata.org/wiki/Q170978","display_name":"Robotics","level":3,"score":0.5577999949455261},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.5051000118255615},{"id":"https://openalex.org/C48044578","wikidata":"https://www.wikidata.org/wiki/Q727490","display_name":"Scalability","level":2,"score":0.46619999408721924},{"id":"https://openalex.org/C2780310539","wikidata":"https://www.wikidata.org/wiki/Q12547192","display_name":"Imperfect","level":2,"score":0.42410001158714294},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.37869998812675476},{"id":"https://openalex.org/C90509273","wikidata":"https://www.wikidata.org/wiki/Q11012","display_name":"Robot","level":2,"score":0.3749000132083893},{"id":"https://openalex.org/C48103436","wikidata":"https://www.wikidata.org/wiki/Q599031","display_name":"State (computer science)","level":2,"score":0.3707999885082245},{"id":"https://openalex.org/C2775960376","wikidata":"https://www.wikidata.org/wiki/Q1435859","display_name":"Grippers","level":2,"score":0.3619000017642975},{"id":"https://openalex.org/C36464697","wikidata":"https://www.wikidata.org/wiki/Q451553","display_name":"Visualization","level":2,"score":0.3352999985218048},{"id":"https://openalex.org/C107457646","wikidata":"https://www.wikidata.org/wiki/Q207434","display_name":"Human\u2013computer interaction","level":1,"score":0.3084000051021576},{"id":"https://openalex.org/C2985527887","wikidata":"https://www.wikidata.org/wiki/Q1587588","display_name":"Robot manipulator","level":3,"score":0.30820000171661377},{"id":"https://openalex.org/C2992566924","wikidata":"https://www.wikidata.org/wiki/Q499210","display_name":"Animal learning","level":2,"score":0.28279998898506165},{"id":"https://openalex.org/C37404715","wikidata":"https://www.wikidata.org/wiki/Q380679","display_name":"Dynamic programming","level":2,"score":0.2565000057220459},{"id":"https://openalex.org/C165064840","wikidata":"https://www.wikidata.org/wiki/Q1321061","display_name":"Matching (statistics)","level":2,"score":0.2558000087738037}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2603.00719","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.00719","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2603.00719","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.00719","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[{"score":0.6255150437355042,"display_name":"Peace, Justice and strong institutions","id":"https://metadata.un.org/sdg/16"}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Long-horizon":[0],"precision":[1],"manipulation":[2],"in":[3,23,71,159],"laboratory":[4,118,172],"automation,":[5],"such":[6],"as":[7],"pipette":[8,122],"tip":[9],"attachment":[10,123],"and":[11,38,47,74,95,124,147,163],"liquid":[12,126],"transfer,":[13,127],"requires":[14],"policies":[15],"that":[16,57],"respect":[17],"strict":[18],"procedural":[19],"logic":[20,111],"while":[21],"operating":[22],"continuous,":[24],"high-dimensional":[25],"state":[26],"spaces.":[27],"However,":[28],"existing":[29],"approaches":[30],"struggle":[31],"with":[32,107,144],"reward":[33,79],"sparsity,":[34],"multi-stage":[35],"structural":[36],"constraints,":[37],"noisy":[39],"or":[40],"imperfect":[41],"demonstrations,":[42,63],"leading":[43],"to":[44,80,103],"inefficient":[45],"exploration":[46,161],"unstable":[48],"convergence.":[49],"We":[50],"propose":[51],"a":[52,68,76,100,165],"Keyframe-Guided":[53],"Reward":[54],"Generation":[55],"Framework":[56],"automatically":[58],"extracts":[59],"kinematics-aware":[60],"keyframes":[61],"from":[62],"generates":[64],"stage-wise":[65],"targets":[66],"via":[67],"diffusion-based":[69],"predictor":[70],"latent":[72,91],"space,":[73],"constructs":[75],"geometric":[77],"progress-based":[78],"guide":[81],"online":[82,141],"reinforcement":[83,97],"learning.":[84],"The":[85],"framework":[86],"integrates":[87],"multi-view":[88],"visual":[89],"encoding,":[90],"similarity-based":[92],"progress":[93],"tracking,":[94],"human-in-the-loop":[96],"fine-tuning":[98],"on":[99],"Vision-Language-Action":[101],"backbone":[102],"align":[104],"policy":[105],"optimization":[106],"the":[108,153],"intrinsic":[109],"stepwise":[110],"of":[112,135,140,155],"biological":[113],"protocols.":[114],"Across":[115],"four":[116],"real-world":[117],"tasks,":[119],"including":[120],"high-precision":[121],"dynamic":[125],"our":[128,150],"method":[129],"achieves":[130],"an":[131],"average":[132],"success":[133],"rate":[134],"82%":[136],"after":[137],"40--60":[138],"minutes":[139],"fine-tuning.":[142],"Compared":[143],"HG-DAgger":[145],"(42%)":[146],"Hil-ConRFT":[148],"(47%),":[149],"approach":[151],"demonstrates":[152],"effectiveness":[154],"structured":[156],"keyframe-guided":[157],"rewards":[158],"overcoming":[160],"bottlenecks":[162],"providing":[164],"scalable":[166],"solution":[167],"for":[168],"high-precision,":[169],"long-horizon":[170],"robotic":[171],"automation.":[173]},"counts_by_year":[],"updated_date":"2026-03-04T07:09:34.246503","created_date":"2026-03-04T00:00:00"}