{"id":"https://openalex.org/W7133334336","doi":"https://doi.org/10.48550/arxiv.2603.01694","title":"MVR: Multi-view Video Reward Shaping for Reinforcement Learning","display_name":"MVR: Multi-view Video Reward Shaping for Reinforcement Learning","publication_year":2026,"publication_date":"2026-03-02","ids":{"openalex":"https://openalex.org/W7133334336","doi":"https://doi.org/10.48550/arxiv.2603.01694"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2603.01694","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.01694","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2603.01694","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5127962369","display_name":"Lirui Luo","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Luo, Lirui","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5127916793","display_name":"Guoxi Zhang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhang, Guoxi","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5127968880","display_name":"Hongming Xu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Xu, Hongming","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5127905132","display_name":"Yaodong Yang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Yang, Yaodong","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5128012948","display_name":"Cong Fang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Fang, Cong","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5127905648","display_name":"Qing Li (84975)","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Li, Qing","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":6,"corresponding_author_ids":["https://openalex.org/A5127962369"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.23569999635219574,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.23569999635219574,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10709","display_name":"Social Robot Interaction and HRI","score":0.23070000112056732,"subfield":{"id":"https://openalex.org/subfields/3207","display_name":"Social Psychology"},"field":{"id":"https://openalex.org/fields/32","display_name":"Psychology"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.13179999589920044,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/task","display_name":"Task (project management)","score":0.7423999905586243},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7167999744415283},{"id":"https://openalex.org/keywords/relevance","display_name":"Relevance (law)","score":0.6460000276565552},{"id":"https://openalex.org/keywords/function","display_name":"Function (biology)","score":0.5289999842643738},{"id":"https://openalex.org/keywords/motion","display_name":"Motion (physics)","score":0.51419997215271},{"id":"https://openalex.org/keywords/humanoid-robot","display_name":"Humanoid robot","score":0.4999000132083893},{"id":"https://openalex.org/keywords/viewpoints","display_name":"Viewpoints","score":0.4959000051021576}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7445999979972839},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.7423999905586243},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7167999744415283},{"id":"https://openalex.org/C158154518","wikidata":"https://www.wikidata.org/wiki/Q7310970","display_name":"Relevance (law)","level":2,"score":0.6460000276565552},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5587000250816345},{"id":"https://openalex.org/C14036430","wikidata":"https://www.wikidata.org/wiki/Q3736076","display_name":"Function (biology)","level":2,"score":0.5289999842643738},{"id":"https://openalex.org/C104114177","wikidata":"https://www.wikidata.org/wiki/Q79782","display_name":"Motion (physics)","level":2,"score":0.51419997215271},{"id":"https://openalex.org/C60692881","wikidata":"https://www.wikidata.org/wiki/Q584529","display_name":"Humanoid robot","level":3,"score":0.4999000132083893},{"id":"https://openalex.org/C2776035091","wikidata":"https://www.wikidata.org/wiki/Q7928819","display_name":"Viewpoints","level":2,"score":0.4959000051021576},{"id":"https://openalex.org/C103278499","wikidata":"https://www.wikidata.org/wiki/Q254465","display_name":"Similarity (geometry)","level":3,"score":0.46389999985694885},{"id":"https://openalex.org/C107457646","wikidata":"https://www.wikidata.org/wiki/Q207434","display_name":"Human\u2013computer interaction","level":1,"score":0.4438000023365021},{"id":"https://openalex.org/C48103436","wikidata":"https://www.wikidata.org/wiki/Q599031","display_name":"State (computer science)","level":2,"score":0.41600000858306885},{"id":"https://openalex.org/C175154964","wikidata":"https://www.wikidata.org/wiki/Q380077","display_name":"Task analysis","level":3,"score":0.392300009727478},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.3578000068664551},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.3571000099182129},{"id":"https://openalex.org/C111151474","wikidata":"https://www.wikidata.org/wiki/Q1653368","display_name":"iCub","level":4,"score":0.3490999937057495},{"id":"https://openalex.org/C2780598303","wikidata":"https://www.wikidata.org/wiki/Q65921492","display_name":"Flexibility (engineering)","level":2,"score":0.28780001401901245},{"id":"https://openalex.org/C2781249084","wikidata":"https://www.wikidata.org/wiki/Q908656","display_name":"Preference","level":2,"score":0.2515999972820282},{"id":"https://openalex.org/C2779038628","wikidata":"https://www.wikidata.org/wiki/Q7248497","display_name":"Programming by demonstration","level":3,"score":0.25110000371932983}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2603.01694","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.01694","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2603.01694","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.01694","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Reward":[0,98],"design":[1,200],"is":[2,173],"of":[3,28,85,107,165,179],"great":[4],"importance":[5],"for":[6],"solving":[7],"complex":[8],"tasks":[9,65,190,195],"with":[10,31,64,183],"reinforcement":[11],"learning.":[12],"Recent":[13],"studies":[14],"have":[15],"explored":[16],"using":[17,113],"image-text":[18],"similarity":[19,122],"produced":[20],"by":[21],"vision-language":[22],"models":[23,104],"(VLMs)":[24],"to":[25,41,128],"augment":[26],"rewards":[27,45,157],"a":[29,101,124,130,149],"task":[30,42,112],"visual":[32],"feedback.":[33],"A":[34],"common":[35],"practice":[36],"linearly":[37],"adds":[38],"VLM":[39,127,166],"scores":[40],"or":[43],"success":[44],"without":[46],"explicit":[47],"shaping,":[48],"potentially":[49],"altering":[50],"the":[51,105,110,136,163,169,177,180,199],"optimal":[52],"policy.":[53],"Moreover,":[54],"such":[55],"approaches,":[56],"often":[57],"relying":[58],"on":[59,186],"single":[60,79],"static":[61,140],"images,":[62],"struggle":[63],"whose":[66],"desired":[67,170],"behavior":[68],"involves":[69],"complex,":[70],"dynamic":[71],"motions":[72],"spanning":[73],"multiple":[74,117],"visually":[75],"different":[76],"states.":[77],"Furthermore,":[78],"viewpoints":[80],"can":[81],"occlude":[82],"critical":[83],"aspects":[84],"an":[86],"agent's":[87],"behavior.":[88],"To":[89],"address":[90],"these":[91],"issues,":[92],"this":[93],"paper":[94],"presents":[95],"Multi-View":[96],"Video":[97],"Shaping":[99],"(MVR),":[100],"framework":[102,182],"that":[103,134,154],"relevance":[106,132],"states":[108],"regarding":[109],"target":[111],"videos":[114],"captured":[115],"from":[116,123,191,196],"viewpoints.":[118],"MVR":[119],"leverages":[120],"video-text":[121],"frozen":[125],"pre-trained":[126],"learn":[129],"state":[131],"function":[133],"mitigates":[135],"bias":[137],"towards":[138],"specific":[139],"poses":[141],"inherent":[142],"in":[143],"image-based":[144],"methods.":[145],"Additionally,":[146],"we":[147],"introduce":[148],"state-dependent":[150],"reward":[151],"shaping":[152],"formulation":[153],"integrates":[155],"task-specific":[156],"and":[158,193],"VLM-based":[159],"guidance,":[160],"automatically":[161],"reducing":[162],"influence":[164],"guidance":[167],"once":[168],"motion":[171],"pattern":[172],"achieved.":[174],"We":[175],"confirm":[176],"efficacy":[178],"proposed":[181],"extensive":[184],"experiments":[185],"challenging":[187],"humanoid":[188],"locomotion":[189],"HumanoidBench":[192],"manipulation":[194],"MetaWorld,":[197],"verifying":[198],"choices":[201],"through":[202],"ablation":[203],"studies.":[204]},"counts_by_year":[],"updated_date":"2026-03-04T07:09:34.246503","created_date":"2026-03-04T00:00:00"}