{"id":"https://openalex.org/W7134856436","doi":"https://doi.org/10.48550/arxiv.2603.06656","title":"GameVerse: Can Vision-Language Models Learn from Video-based Reflection?","display_name":"GameVerse: Can Vision-Language Models Learn from Video-based Reflection?","publication_year":2026,"publication_date":"2026-03-01","ids":{"openalex":"https://openalex.org/W7134856436","doi":"https://doi.org/10.48550/arxiv.2603.06656"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2603.06656","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.06656","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2603.06656","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5128629840","display_name":"Kuan Zhang","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Zhang, Kuan","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5128661602","display_name":"Dongchen Liu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Liu, Dongchen","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5128650936","display_name":"Qiyue Zhao","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhao, Qiyue","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5128642042","display_name":"Jinkun Hou","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Hou, Jinkun","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5128666548","display_name":"Xinran Zhang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhang, Xinran","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5128667463","display_name":"Qinlei Xie","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Xie, Qinlei","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5128632606","display_name":"Miao Liu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Liu, Miao","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5128669165","display_name":"Yiming Li","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Li, Yiming","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":8,"corresponding_author_ids":["https://openalex.org/A5128629840"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.4724000096321106,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.4724000096321106,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11574","display_name":"Artificial Intelligence in Games","score":0.16509999334812164,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.06930000334978104,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.5968999862670898},{"id":"https://openalex.org/keywords/benchmark","display_name":"Benchmark (surveying)","score":0.4343999922275543},{"id":"https://openalex.org/keywords/scalability","display_name":"Scalability","score":0.4291999936103821},{"id":"https://openalex.org/keywords/action","display_name":"Action (physics)","score":0.4147999882698059},{"id":"https://openalex.org/keywords/visualization","display_name":"Visualization","score":0.41350001096725464},{"id":"https://openalex.org/keywords/reflection","display_name":"Reflection (computer programming)","score":0.4049000144004822},{"id":"https://openalex.org/keywords/milestone","display_name":"Milestone","score":0.38769999146461487},{"id":"https://openalex.org/keywords/visual-reasoning","display_name":"Visual reasoning","score":0.3691999912261963}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7184000015258789},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.5968999862670898},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5410000085830688},{"id":"https://openalex.org/C107457646","wikidata":"https://www.wikidata.org/wiki/Q207434","display_name":"Human\u2013computer interaction","level":1,"score":0.47600001096725464},{"id":"https://openalex.org/C185798385","wikidata":"https://www.wikidata.org/wiki/Q1161707","display_name":"Benchmark (surveying)","level":2,"score":0.4343999922275543},{"id":"https://openalex.org/C48044578","wikidata":"https://www.wikidata.org/wiki/Q727490","display_name":"Scalability","level":2,"score":0.4291999936103821},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.42590001225471497},{"id":"https://openalex.org/C2780791683","wikidata":"https://www.wikidata.org/wiki/Q846785","display_name":"Action (physics)","level":2,"score":0.4147999882698059},{"id":"https://openalex.org/C36464697","wikidata":"https://www.wikidata.org/wiki/Q451553","display_name":"Visualization","level":2,"score":0.41350001096725464},{"id":"https://openalex.org/C65682993","wikidata":"https://www.wikidata.org/wiki/Q1056451","display_name":"Reflection (computer programming)","level":2,"score":0.4049000144004822},{"id":"https://openalex.org/C120060458","wikidata":"https://www.wikidata.org/wiki/Q10145","display_name":"Milestone","level":2,"score":0.38769999146461487},{"id":"https://openalex.org/C2777508537","wikidata":"https://www.wikidata.org/wiki/Q7936620","display_name":"Visual reasoning","level":2,"score":0.3691999912261963},{"id":"https://openalex.org/C2778572836","wikidata":"https://www.wikidata.org/wiki/Q380933","display_name":"Space (punctuation)","level":2,"score":0.31779998540878296},{"id":"https://openalex.org/C175154964","wikidata":"https://www.wikidata.org/wiki/Q380077","display_name":"Task analysis","level":3,"score":0.30570000410079956},{"id":"https://openalex.org/C2780626000","wikidata":"https://www.wikidata.org/wiki/Q5936775","display_name":"Human-in-the-loop","level":2,"score":0.2858000099658966},{"id":"https://openalex.org/C155846161","wikidata":"https://www.wikidata.org/wiki/Q1143367","display_name":"Graphical model","level":2,"score":0.28299999237060547},{"id":"https://openalex.org/C2777655017","wikidata":"https://www.wikidata.org/wiki/Q1501161","display_name":"Toolbox","level":2,"score":0.27160000801086426},{"id":"https://openalex.org/C169900460","wikidata":"https://www.wikidata.org/wiki/Q2200417","display_name":"Cognition","level":2,"score":0.26989999413490295},{"id":"https://openalex.org/C2987834672","wikidata":"https://www.wikidata.org/wiki/Q4677630","display_name":"Action recognition","level":3,"score":0.26339998841285706},{"id":"https://openalex.org/C184337299","wikidata":"https://www.wikidata.org/wiki/Q1437428","display_name":"Semantics (computer science)","level":2,"score":0.2630000114440918},{"id":"https://openalex.org/C136197465","wikidata":"https://www.wikidata.org/wiki/Q1729295","display_name":"Variety (cybernetics)","level":2,"score":0.25440001487731934},{"id":"https://openalex.org/C66024118","wikidata":"https://www.wikidata.org/wiki/Q1122506","display_name":"Computational model","level":2,"score":0.25429999828338623},{"id":"https://openalex.org/C34413123","wikidata":"https://www.wikidata.org/wiki/Q170978","display_name":"Robotics","level":3,"score":0.2529999911785126},{"id":"https://openalex.org/C58642233","wikidata":"https://www.wikidata.org/wiki/Q8269924","display_name":"Taxonomy (biology)","level":2,"score":0.2524999976158142}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2603.06656","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.06656","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2603.06656","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.06656","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[{"display_name":"Peace, Justice and strong institutions","id":"https://metadata.un.org/sdg/16","score":0.5392076969146729}],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Human":[0],"gameplay":[1],"is":[2,136,143],"a":[3,33,40,52,75],"visually":[4],"grounded":[5],"interaction":[6,43],"loop":[7],"in":[8,111],"which":[9],"players":[10],"act,":[11],"reflect":[12],"on":[13],"failures,":[14],"and":[15,63,69,90,93,114,121],"watch":[16],"tutorials":[17],"to":[18,56,99,126],"refine":[19],"strategies.":[20],"Can":[21],"Vision-Language":[22],"Models":[23],"(VLMs)":[24],"also":[25,73],"learn":[26],"from":[27,108],"video-based":[28,109],"reflection?":[29],"We":[30],"present":[31],"GameVerse,":[32],"comprehensive":[34],"video":[35],"game":[36],"benchmark":[37],"that":[38,105],"enables":[39],"reflective":[41],"visual":[42,61],"loop.":[44],"Moving":[45],"beyond":[46],"traditional":[47],"fire-and-forget":[48],"evaluations,":[49],"it":[50],"uses":[51],"novel":[53],"reflect-and-retry":[54],"paradigm":[55],"assess":[57],"how":[58],"VLMs":[59,98,106],"internalize":[60],"experience":[62],"improve":[64],"policies.":[65],"To":[66],"facilitate":[67],"systematic":[68],"scalable":[70],"evaluation,":[71],"we":[72],"introduce":[74],"cognitive":[76],"hierarchical":[77],"taxonomy":[78],"spanning":[79],"15":[80],"globally":[81],"popular":[82],"games,":[83],"dual":[84],"action":[85],"space":[86],"for":[87],"both":[88],"semantic":[89],"GUI":[91],"control,":[92],"milestone":[94],"evaluation":[95],"using":[96],"advanced":[97],"quantify":[100],"progress.":[101],"Our":[102,141],"experiments":[103],"show":[104],"benefit":[107],"reflection":[110],"varied":[112],"settings,":[113],"perform":[115],"best":[116],"by":[117],"combining":[118],"failure":[119],"trajectories":[120],"expert":[122],"tutorials-a":[123],"training-free":[124],"analogue":[125],"reinforcement":[127],"learning":[128],"(RL)":[129],"plus":[130],"supervised":[131],"fine-tuning":[132],"(SFT).Our":[133],"project":[134],"page":[135],"available":[137,144],"at":[138,145],"https://gameverse-bench.github.io/":[139],".":[140,147],"code":[142],"https://github.com/THUSI-Lab/GameVerse":[146]},"counts_by_year":[],"updated_date":"2026-03-12T06:13:28.667946","created_date":"2026-03-11T00:00:00"}