{"id":"https://openalex.org/W7162811713","doi":"https://doi.org/10.48550/arxiv.2605.30100","title":"Chess-World-Model: A 10M-Game Benchmark for Exact State Tracking from Chess Move Sequences","display_name":"Chess-World-Model: A 10M-Game Benchmark for Exact State Tracking from Chess Move Sequences","publication_year":2026,"publication_date":"2026-05-28","ids":{"openalex":"https://openalex.org/W7162811713","doi":"https://doi.org/10.48550/arxiv.2605.30100"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2605.30100","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.30100","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2605.30100","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5137393631","display_name":"Benjamin Walker","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Walker, Benjamin","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5137352627","display_name":"Terry Lyons","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Lyons, Terry","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":2,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11574","display_name":"Artificial Intelligence in Games","score":0.6007000207901001,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11574","display_name":"Artificial Intelligence in Games","score":0.6007000207901001,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.09759999811649323,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10812","display_name":"Human Pose and Action Recognition","score":0.029600000008940697,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/benchmark","display_name":"Benchmark (surveying)","score":0.7670000195503235},{"id":"https://openalex.org/keywords/discriminative-model","display_name":"Discriminative model","score":0.6244000196456909},{"id":"https://openalex.org/keywords/transformer","display_name":"Transformer","score":0.43220001459121704},{"id":"https://openalex.org/keywords/limiting","display_name":"Limiting","score":0.41449999809265137},{"id":"https://openalex.org/keywords/leverage","display_name":"Leverage (statistics)","score":0.40610000491142273},{"id":"https://openalex.org/keywords/sequence","display_name":"Sequence (biology)","score":0.38940000534057617}],"concepts":[{"id":"https://openalex.org/C185798385","wikidata":"https://www.wikidata.org/wiki/Q1161707","display_name":"Benchmark (surveying)","level":2,"score":0.7670000195503235},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6330999732017517},{"id":"https://openalex.org/C97931131","wikidata":"https://www.wikidata.org/wiki/Q5282087","display_name":"Discriminative model","level":2,"score":0.6244000196456909},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5192000269889832},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.45339998602867126},{"id":"https://openalex.org/C66322947","wikidata":"https://www.wikidata.org/wiki/Q11658","display_name":"Transformer","level":3,"score":0.43220001459121704},{"id":"https://openalex.org/C188198153","wikidata":"https://www.wikidata.org/wiki/Q1613840","display_name":"Limiting","level":2,"score":0.41449999809265137},{"id":"https://openalex.org/C153083717","wikidata":"https://www.wikidata.org/wiki/Q6535263","display_name":"Leverage (statistics)","level":2,"score":0.40610000491142273},{"id":"https://openalex.org/C2778112365","wikidata":"https://www.wikidata.org/wiki/Q3511065","display_name":"Sequence (biology)","level":2,"score":0.38940000534057617},{"id":"https://openalex.org/C48103436","wikidata":"https://www.wikidata.org/wiki/Q599031","display_name":"State (computer science)","level":2,"score":0.38109999895095825},{"id":"https://openalex.org/C63479239","wikidata":"https://www.wikidata.org/wiki/Q7353546","display_name":"Robustness (evolution)","level":3,"score":0.37439998984336853},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.35499998927116394},{"id":"https://openalex.org/C27158222","wikidata":"https://www.wikidata.org/wiki/Q5532422","display_name":"Generalizability theory","level":2,"score":0.28299999237060547},{"id":"https://openalex.org/C2778755073","wikidata":"https://www.wikidata.org/wiki/Q10858537","display_name":"Scale (ratio)","level":2,"score":0.2574999928474426},{"id":"https://openalex.org/C51632099","wikidata":"https://www.wikidata.org/wiki/Q3985153","display_name":"Training set","level":2,"score":0.2533000111579895}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2605.30100","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.30100","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2605.30100","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.30100","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[{"id":"https://metadata.un.org/sdg/10","display_name":"Reduced inequalities","score":0.6161590814590454}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"World":[0],"models":[1,52,83,142],"require":[2,111],"state":[3,14,32,57,206],"tracking,":[4],"which":[5,80],"is":[6],"the":[7,54,85,145,161,187],"ability":[8],"to":[9,105,115,167],"maintain":[10],"a":[11,40,60,66,121,134,201],"correct":[12],"latent":[13],"across":[15],"action":[16],"sequences.":[17],"Existing":[18],"benchmarks":[19],"are":[20],"often":[21],"synthetic":[22],"or":[23],"language-based,":[24],"limiting":[25],"their":[26],"value":[27],"as":[28,200],"tests":[29,81],"of":[30,62],"structured":[31],"updates":[33],"in":[34],"realistic":[35],"domains.":[36],"We":[37,118],"introduce":[38],"Chess-World-Model,":[39],"large-scale":[41,203],"state-tracking":[42],"benchmark":[43,120,204],"built":[44],"from":[45,75,91],"10":[46],"million":[47,151,158],"real":[48],"chess":[49],"games,":[50],"where":[51],"predict":[53],"exact":[55],"board":[56],"reached":[58],"after":[59],"sequence":[61],"legal":[63,78],"moves.":[64],"Alongside":[65],"held-out":[67],"real-game":[68],"split,":[69],"we":[70],"include":[71],"an":[72],"out-of-distribution":[73,188],"split":[74,163,189],"uniformly":[76],"random":[77],"play,":[79],"whether":[82],"learn":[84],"transition":[86],"rules":[87],"rather":[88],"than":[89],"shortcuts":[90],"common":[92],"human":[93],"positions.":[94],"Prior":[95],"theoretical":[96],"and":[97,127,137,149],"empirical":[98],"work":[99],"has":[100],"shown":[101],"that":[102,179,208],"Transformers":[103],"struggle":[104],"state-track,":[106],"while":[107],"input-dependent":[108],"linear":[109],"RNNs":[110],"expressive":[112,181],"state-transition":[113,182],"matrices":[114],"do":[116],"so.":[117],"therefore":[119],"causal":[122],"Transformer,":[123],"block-diagonal":[124],"SLiCE,":[125],"Mamba-3,":[126],"Gated":[128],"DeltaNet":[129],"with":[130],"negative":[131],"eigenvalues":[132],"under":[133],"matched":[135],"interface":[136],"training":[138],"protocol.":[139],"The":[140],"recurrent":[141,193],"strongly":[143],"outperform":[144],"Transformer":[146],"at":[147],"3":[148],"8":[150],"parameters.":[152],"Real-game":[153],"performance":[154,185],"saturates":[155],"above":[156],"18":[157],"parameters,":[159],"but":[160],"random-uniform":[162],"remains":[164],"discriminative":[165],"up":[166],"40":[168],"million,":[169],"exposing":[170],"failures":[171,210],"otherwise":[172,214],"hidden":[173],"by":[174],"scale.":[175],"Additionally,":[176],"ablations":[177],"show":[178],"less":[180],"mechanisms":[183],"reduce":[184],"on":[186],"for":[190,205],"all":[191],"three":[192],"models.":[194],"Together,":[195],"these":[196],"results":[197],"establish":[198],"Chess-World-Model":[199],"practical":[202],"tracking":[207],"exposes":[209],"model":[211],"scale":[212],"would":[213],"conceal.":[215]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2026-05-30T00:00:00"}