{"id":"https://openalex.org/W7131376722","doi":"https://doi.org/10.48550/arxiv.2602.19313","title":"TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics","display_name":"TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics","publication_year":2026,"publication_date":"2026-02-22","ids":{"openalex":"https://openalex.org/W7131376722","doi":"https://doi.org/10.48550/arxiv.2602.19313"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2602.19313","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2602.19313","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2602.19313","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5121538366","display_name":"Shirui Chen","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Chen, Shirui","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5126671977","display_name":"Cole Harrison","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Harrison, Cole","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5125941368","display_name":"Ying-Chun Lee","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Lee, Ying-Chun","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5126728909","display_name":"Angela Jin Yang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Yang, Angela Jin","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5024951066","display_name":"Zhongzheng Ren","orcid":"https://orcid.org/0000-0003-1033-5341"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Ren, Zhongzheng","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5008161296","display_name":"Lillian J. Ratliff","orcid":"https://orcid.org/0000-0001-8936-0229"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Ratliff, Lillian J.","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5027184297","display_name":"Jiafei Duan","orcid":"https://orcid.org/0000-0003-4551-2424"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Duan, Jiafei","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5031489518","display_name":"Dieter Fox","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Fox, Dieter","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5126780069","display_name":"Ranjay Krishna","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Krishna, Ranjay","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":9,"corresponding_author_ids":["https://openalex.org/A5121538366"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.3837999999523163,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.3837999999523163,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11307","display_name":"Domain Adaptation and Few-Shot Learning","score":0.14429999887943268,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10709","display_name":"Social Robot Interaction and HRI","score":0.13009999692440033,"subfield":{"id":"https://openalex.org/subfields/3207","display_name":"Social Psychology"},"field":{"id":"https://openalex.org/fields/32","display_name":"Psychology"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.6628999710083008},{"id":"https://openalex.org/keywords/task","display_name":"Task (project management)","score":0.6413999795913696},{"id":"https://openalex.org/keywords/security-token","display_name":"Security token","score":0.5748000144958496},{"id":"https://openalex.org/keywords/robotics","display_name":"Robotics","score":0.5698000192642212},{"id":"https://openalex.org/keywords/process","display_name":"Process (computing)","score":0.4884999990463257},{"id":"https://openalex.org/keywords/function","display_name":"Function (biology)","score":0.4603999853134155},{"id":"https://openalex.org/keywords/baseline","display_name":"Baseline (sea)","score":0.41850000619888306},{"id":"https://openalex.org/keywords/robot","display_name":"Robot","score":0.40220001339912415},{"id":"https://openalex.org/keywords/dependency","display_name":"Dependency (UML)","score":0.3785000145435333}],"concepts":[{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.7598999738693237},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6865000128746033},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.6628999710083008},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.6413999795913696},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.6074000000953674},{"id":"https://openalex.org/C48145219","wikidata":"https://www.wikidata.org/wiki/Q1335365","display_name":"Security token","level":2,"score":0.5748000144958496},{"id":"https://openalex.org/C34413123","wikidata":"https://www.wikidata.org/wiki/Q170978","display_name":"Robotics","level":3,"score":0.5698000192642212},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.4884999990463257},{"id":"https://openalex.org/C14036430","wikidata":"https://www.wikidata.org/wiki/Q3736076","display_name":"Function (biology)","level":2,"score":0.4603999853134155},{"id":"https://openalex.org/C12725497","wikidata":"https://www.wikidata.org/wiki/Q810247","display_name":"Baseline (sea)","level":2,"score":0.41850000619888306},{"id":"https://openalex.org/C90509273","wikidata":"https://www.wikidata.org/wiki/Q11012","display_name":"Robot","level":2,"score":0.40220001339912415},{"id":"https://openalex.org/C19768560","wikidata":"https://www.wikidata.org/wiki/Q320727","display_name":"Dependency (UML)","level":2,"score":0.3785000145435333},{"id":"https://openalex.org/C198531522","wikidata":"https://www.wikidata.org/wiki/Q485146","display_name":"Sample (material)","level":2,"score":0.37389999628067017},{"id":"https://openalex.org/C100776233","wikidata":"https://www.wikidata.org/wiki/Q2532492","display_name":"Bridge (graph theory)","level":2,"score":0.35989999771118164},{"id":"https://openalex.org/C175154964","wikidata":"https://www.wikidata.org/wiki/Q380077","display_name":"Task analysis","level":3,"score":0.35260000824928284},{"id":"https://openalex.org/C2776291640","wikidata":"https://www.wikidata.org/wiki/Q2912517","display_name":"Value (mathematics)","level":2,"score":0.34310001134872437},{"id":"https://openalex.org/C117220453","wikidata":"https://www.wikidata.org/wiki/Q5172842","display_name":"Correlation","level":2,"score":0.32330000400543213},{"id":"https://openalex.org/C14646407","wikidata":"https://www.wikidata.org/wiki/Q1430750","display_name":"Bellman equation","level":2,"score":0.30219998955726624},{"id":"https://openalex.org/C111335779","wikidata":"https://www.wikidata.org/wiki/Q3454686","display_name":"Reduction (mathematics)","level":2,"score":0.28439998626708984},{"id":"https://openalex.org/C4661277","wikidata":"https://www.wikidata.org/wiki/Q1054157","display_name":"Cog","level":2,"score":0.2786000072956085},{"id":"https://openalex.org/C94361409","wikidata":"https://www.wikidata.org/wiki/Q7882500","display_name":"Uncertainty reduction theory","level":2,"score":0.27230000495910645},{"id":"https://openalex.org/C196340769","wikidata":"https://www.wikidata.org/wiki/Q7698910","display_name":"Temporal difference learning","level":3,"score":0.2623000144958496},{"id":"https://openalex.org/C204323151","wikidata":"https://www.wikidata.org/wiki/Q905424","display_name":"Range (aeronautics)","level":2,"score":0.2596000134944916},{"id":"https://openalex.org/C2776401178","wikidata":"https://www.wikidata.org/wiki/Q12050496","display_name":"Feature (linguistics)","level":2,"score":0.25609999895095825}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2602.19313","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2602.19313","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2602.19313","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2602.19313","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"While":[0],"Vision-Language-Action":[1],"(VLA)":[2],"models":[3,32],"have":[4],"seen":[5],"rapid":[6],"progress":[7,94,105],"in":[8,12,25],"pretraining,":[9],"their":[10,55],"advancement":[11],"Reinforcement":[13],"Learning":[14],"(RL)":[15],"remains":[16],"hampered":[17],"by":[18],"low":[19],"sample":[20],"efficiency":[21],"and":[22,121,169],"sparse":[23],"rewards":[24],"real-world":[26,119],"settings.":[27],"Developing":[28],"generalizable":[29],"process":[30],"reward":[31],"is":[33],"essential":[34],"for":[35,163],"providing":[36],"the":[37,70,108,140,149],"fine-grained":[38],"feedback":[39],"necessary":[40],"to":[41,52,80,91,99],"bridge":[42],"this":[43],"gap,":[44],"yet":[45],"existing":[46],"temporal":[47,65],"value":[48,66],"functions":[49],"often":[50],"fail":[51],"generalize":[53],"beyond":[54],"training":[56],"domains.":[57],"We":[58,153],"introduce":[59],"TOPReward,":[60],"a":[61,160],"novel,":[62],"probabilistically":[63],"grounded":[64],"function":[67],"that":[68,88,156],"leverages":[69],"latent":[71],"world":[72],"knowledge":[73],"of":[74],"pretrained":[75],"video":[76],"Vision-Language":[77],"Models":[78],"(VLMs)":[79],"estimate":[81],"robotic":[82],"task":[83,104],"progress.":[84],"Unlike":[85],"prior":[86],"methods":[87],"prompt":[89],"VLMs":[90],"directly":[92,106],"output":[93],"values,":[95],"which":[96,144],"are":[97],"prone":[98],"numerical":[100],"misrepresentation,":[101],"TOPReward":[102,129,157],"extracts":[103],"from":[107],"VLM's":[109],"internal":[110],"token":[111],"logits.":[112],"In":[113],"zero-shot":[114],"evaluations":[115],"across":[116],"130+":[117],"distinct":[118],"tasks":[120],"multiple":[122],"robot":[123],"platforms":[124],"(e.g.,":[125],"Franka,":[126],"YAM,":[127],"SO-100/101),":[128],"achieves":[130,145],"0.947":[131],"mean":[132],"Value-Order":[133],"Correlation":[134],"(VOC)":[135],"on":[136,148],"Qwen3-VL,":[137],"dramatically":[138],"outperforming":[139],"state-of-the-art":[141],"GVL":[142],"baseline":[143],"near-zero":[146],"correlation":[147],"same":[150],"open-source":[151],"model.":[152],"further":[154],"demonstrate":[155],"serves":[158],"as":[159],"versatile":[161],"tool":[162],"downstream":[164],"applications,":[165],"including":[166],"success":[167],"detection":[168],"reward-aligned":[170],"behavior":[171],"cloning.":[172]},"counts_by_year":[],"updated_date":"2026-02-26T06:34:08.959763","created_date":"2026-02-26T00:00:00"}