{"id":"https://openalex.org/W7130721763","doi":"https://doi.org/10.48550/arxiv.2602.16833","title":"VAM: Verbalized Action Masking for Controllable Exploration in RL Post-Training -- A Chess Case Study","display_name":"VAM: Verbalized Action Masking for Controllable Exploration in RL Post-Training -- A Chess Case Study","publication_year":2026,"publication_date":"2026-02-18","ids":{"openalex":"https://openalex.org/W7130721763","doi":"https://doi.org/10.48550/arxiv.2602.16833"},"language":null,"primary_location":{"id":"pmh:doi:10.48550/arxiv.2602.16833","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":null,"any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5126471113","display_name":"Zhicheng Zhang","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Zhang, Zhicheng","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5126459012","display_name":"Ziyan Wang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Wang, Ziyan","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5126481729","display_name":"Yali Du","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Du, Yali","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5126476110","display_name":"Fei Fang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Fang, Fei","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":4,"corresponding_author_ids":["https://openalex.org/A5126471113"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11574","display_name":"Artificial Intelligence in Games","score":0.38589999079704285,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11574","display_name":"Artificial Intelligence in Games","score":0.38589999079704285,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.38449999690055847,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10653","display_name":"Robot Manipulation and Learning","score":0.03020000085234642,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/bottleneck","display_name":"Bottleneck","score":0.6571000218391418},{"id":"https://openalex.org/keywords/action","display_name":"Action (physics)","score":0.652999997138977},{"id":"https://openalex.org/keywords/masking","display_name":"Masking (illustration)","score":0.6401000022888184},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.5891000032424927},{"id":"https://openalex.org/keywords/key","display_name":"Key (lock)","score":0.5412999987602234},{"id":"https://openalex.org/keywords/adversary","display_name":"Adversary","score":0.36239999532699585},{"id":"https://openalex.org/keywords/mechanism","display_name":"Mechanism (biology)","score":0.3296999931335449}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7677000164985657},{"id":"https://openalex.org/C2780513914","wikidata":"https://www.wikidata.org/wiki/Q18210350","display_name":"Bottleneck","level":2,"score":0.6571000218391418},{"id":"https://openalex.org/C2780791683","wikidata":"https://www.wikidata.org/wiki/Q846785","display_name":"Action (physics)","level":2,"score":0.652999997138977},{"id":"https://openalex.org/C2777402240","wikidata":"https://www.wikidata.org/wiki/Q6783436","display_name":"Masking (illustration)","level":2,"score":0.6401000022888184},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.5891000032424927},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5740000009536743},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.5412999987602234},{"id":"https://openalex.org/C41065033","wikidata":"https://www.wikidata.org/wiki/Q2825412","display_name":"Adversary","level":2,"score":0.36239999532699585},{"id":"https://openalex.org/C89611455","wikidata":"https://www.wikidata.org/wiki/Q6804646","display_name":"Mechanism (biology)","level":2,"score":0.3296999931335449},{"id":"https://openalex.org/C112972136","wikidata":"https://www.wikidata.org/wiki/Q7595718","display_name":"Stability (learning theory)","level":2,"score":0.31310001015663147},{"id":"https://openalex.org/C63479239","wikidata":"https://www.wikidata.org/wiki/Q7353546","display_name":"Robustness (evolution)","level":3,"score":0.28220000863075256},{"id":"https://openalex.org/C77618280","wikidata":"https://www.wikidata.org/wiki/Q1155772","display_name":"Scheme (mathematics)","level":2,"score":0.28040000796318054},{"id":"https://openalex.org/C28490314","wikidata":"https://www.wikidata.org/wiki/Q189436","display_name":"Speech recognition","level":1,"score":0.2741999924182892},{"id":"https://openalex.org/C13662910","wikidata":"https://www.wikidata.org/wiki/Q193139","display_name":"Trajectory","level":2,"score":0.265500009059906},{"id":"https://openalex.org/C190839683","wikidata":"https://www.wikidata.org/wiki/Q2448197","display_name":"Train","level":2,"score":0.26460000872612},{"id":"https://openalex.org/C31972630","wikidata":"https://www.wikidata.org/wiki/Q844240","display_name":"Computer vision","level":1,"score":0.2621000111103058},{"id":"https://openalex.org/C137293760","wikidata":"https://www.wikidata.org/wiki/Q3621696","display_name":"Language model","level":2,"score":0.2558000087738037}],"mesh":[],"locations_count":2,"locations":[{"id":"pmh:doi:10.48550/arxiv.2602.16833","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},{"id":"doi:10.48550/arxiv.2602.16833","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2602.16833","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"pmh:doi:10.48550/arxiv.2602.16833","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Exploration":[0],"remains":[1],"a":[2,94,124,130,165],"key":[3],"bottleneck":[4],"for":[5,168],"reinforcement":[6],"learning":[7,153],"(RL)":[8],"post-training":[9],"of":[10,133],"large":[11,19],"language":[12],"models":[13],"(LLMs),":[14],"where":[15],"sparse":[16],"feedback":[17],"and":[18,44,80,104,123,142,155],"action":[20,39,51,68],"spaces":[21],"can":[22],"lead":[23],"to":[24],"premature":[25],"collapse":[26],"into":[27],"repetitive":[28],"behaviors.":[29],"We":[30,99],"propose":[31],"Verbalized":[32],"Action":[33],"Masking":[34],"(VAM),":[35],"which":[36],"verbalizes":[37],"an":[38,50,111,120],"mask":[40,79],"in":[41,102,171],"the":[42,47,53,66,78,83,89],"prompt":[43],"enforces":[45],"that":[46,114,127],"model":[48],"outputs":[49],"from":[52,77,129],"masked":[54],"set.":[55],"Building":[56],"on":[57],"this":[58],"interface,":[59],"we":[60,72],"introduce":[61],"iterative":[62],"action-space":[63],"pruning:":[64],"if":[65],"target":[67,90],"is":[69,91,97],"not":[70],"sampled,":[71],"remove":[73],"valid":[74],"sampled":[75,92],"actions":[76],"resample":[81],"under":[82,107],"reduced":[84],"candidate":[85],"set,":[86],"repeating":[87],"until":[88],"or":[93],"fixed":[95,131],"budget":[96],"exhausted.":[98],"study":[100],"VAM":[101,151],"chess":[103,140],"evaluate":[105],"it":[106],"two":[108],"training":[109],"regimes:":[110],"engine-play":[112],"regime":[113,126],"generates":[115],"states":[116],"via":[117],"play":[118,144],"against":[119],"engine":[121],"opponent":[122],"fixed-dataset":[125],"trains":[128],"dataset":[132],"positions":[134],"with":[135],"verifier":[136],"scores.":[137],"Across":[138],"held-out":[139],"puzzles":[141],"full-game":[143],"measured":[145],"by":[146],"average":[147],"centipawn":[148],"loss":[149],"(ACPL),":[150],"improves":[152],"efficiency":[154],"final":[156],"performance":[157],"over":[158],"strong":[159],"baselines,":[160],"highlighting":[161],"verbalized":[162],"masking":[163],"as":[164],"practical":[166],"mechanism":[167],"controllable":[169],"exploration":[170],"LLM":[172],"RL":[173],"post-training.":[174]},"counts_by_year":[],"updated_date":"2026-04-04T16:13:02.066488","created_date":"2026-02-21T00:00:00"}