{"id":"https://openalex.org/W7118440330","doi":"https://doi.org/10.48550/arxiv.2601.00007","title":"Yahtzee: Reinforcement Learning Techniques for Stochastic Combinatorial Games","display_name":"Yahtzee: Reinforcement Learning Techniques for Stochastic Combinatorial Games","publication_year":2025,"publication_date":"2025-12-18","ids":{"openalex":"https://openalex.org/W7118440330","doi":"https://doi.org/10.48550/arxiv.2601.00007"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2601.00007","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2601.00007","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2601.00007","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5050178698","display_name":"Nicholas Pap\u00e9","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Pape, Nicholas A.","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":1,"corresponding_author_ids":["https://openalex.org/A5050178698"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11574","display_name":"Artificial Intelligence in Games","score":0.7692000269889832,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11574","display_name":"Artificial Intelligence in Games","score":0.7692000269889832,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.1860000044107437,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10731","display_name":"Educational Games and Gamification","score":0.003599999938160181,"subfield":{"id":"https://openalex.org/subfields/3204","display_name":"Developmental and Educational Psychology"},"field":{"id":"https://openalex.org/fields/32","display_name":"Psychology"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/markov-decision-process","display_name":"Markov decision process","score":0.7044000029563904},{"id":"https://openalex.org/keywords/hyperparameter","display_name":"Hyperparameter","score":0.6758000254631042},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.671500027179718},{"id":"https://openalex.org/keywords/dice","display_name":"Dice","score":0.5206000208854675},{"id":"https://openalex.org/keywords/markov-process","display_name":"Markov process","score":0.4277999997138977},{"id":"https://openalex.org/keywords/simultaneous-perturbation-stochastic-approximation","display_name":"Simultaneous perturbation stochastic approximation","score":0.4189999997615814},{"id":"https://openalex.org/keywords/dynamic-programming","display_name":"Dynamic programming","score":0.41359999775886536},{"id":"https://openalex.org/keywords/markov-chain","display_name":"Markov chain","score":0.4072999954223633},{"id":"https://openalex.org/keywords/entropy","display_name":"Entropy (arrow of time)","score":0.3855000138282776}],"concepts":[{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.7044000029563904},{"id":"https://openalex.org/C8642999","wikidata":"https://www.wikidata.org/wiki/Q4171168","display_name":"Hyperparameter","level":2,"score":0.6758000254631042},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.671500027179718},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6464999914169312},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.534500002861023},{"id":"https://openalex.org/C22029948","wikidata":"https://www.wikidata.org/wiki/Q45089","display_name":"Dice","level":2,"score":0.5206000208854675},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5130000114440918},{"id":"https://openalex.org/C159886148","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov process","level":2,"score":0.4277999997138977},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.42719998955726624},{"id":"https://openalex.org/C2779880469","wikidata":"https://www.wikidata.org/wiki/Q17084424","display_name":"Simultaneous perturbation stochastic approximation","level":3,"score":0.4189999997615814},{"id":"https://openalex.org/C37404715","wikidata":"https://www.wikidata.org/wiki/Q380679","display_name":"Dynamic programming","level":2,"score":0.41359999775886536},{"id":"https://openalex.org/C98763669","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov chain","level":2,"score":0.4072999954223633},{"id":"https://openalex.org/C106301342","wikidata":"https://www.wikidata.org/wiki/Q4117933","display_name":"Entropy (arrow of time)","level":2,"score":0.3855000138282776},{"id":"https://openalex.org/C2776401178","wikidata":"https://www.wikidata.org/wiki/Q12050496","display_name":"Feature (linguistics)","level":2,"score":0.3767000138759613},{"id":"https://openalex.org/C2776135515","wikidata":"https://www.wikidata.org/wiki/Q17143721","display_name":"Regularization (linguistics)","level":2,"score":0.3488999903202057},{"id":"https://openalex.org/C148220186","wikidata":"https://www.wikidata.org/wiki/Q7111912","display_name":"Outcome (game theory)","level":2,"score":0.3280999958515167},{"id":"https://openalex.org/C204323151","wikidata":"https://www.wikidata.org/wiki/Q905424","display_name":"Range (aeronautics)","level":2,"score":0.32760000228881836},{"id":"https://openalex.org/C55479107","wikidata":"https://www.wikidata.org/wiki/Q97663916","display_name":"Stochastic approximation","level":3,"score":0.29649999737739563},{"id":"https://openalex.org/C188116033","wikidata":"https://www.wikidata.org/wiki/Q2664563","display_name":"Q-learning","level":3,"score":0.295199990272522},{"id":"https://openalex.org/C137836250","wikidata":"https://www.wikidata.org/wiki/Q984063","display_name":"Optimization problem","level":2,"score":0.2906000018119812},{"id":"https://openalex.org/C77553402","wikidata":"https://www.wikidata.org/wiki/Q13222579","display_name":"Upper and lower bounds","level":2,"score":0.2883000075817108},{"id":"https://openalex.org/C63479239","wikidata":"https://www.wikidata.org/wiki/Q7353546","display_name":"Robustness (evolution)","level":3,"score":0.2822999954223633},{"id":"https://openalex.org/C52692508","wikidata":"https://www.wikidata.org/wiki/Q1333872","display_name":"Combinatorial optimization","level":2,"score":0.2745000123977661},{"id":"https://openalex.org/C164660894","wikidata":"https://www.wikidata.org/wiki/Q2037833","display_name":"Piecewise","level":2,"score":0.267300009727478},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.2648000121116638},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.2590999901294708},{"id":"https://openalex.org/C148764684","wikidata":"https://www.wikidata.org/wiki/Q621751","display_name":"Approximation algorithm","level":2,"score":0.25839999318122864},{"id":"https://openalex.org/C137631369","wikidata":"https://www.wikidata.org/wiki/Q7617831","display_name":"Stochastic programming","level":2,"score":0.2547000050544739},{"id":"https://openalex.org/C80444323","wikidata":"https://www.wikidata.org/wiki/Q2878974","display_name":"Theoretical computer science","level":1,"score":0.2540999948978424}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2601.00007","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2601.00007","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2601.00007","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2601.00007","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Yahtzee":[0,27,43,150],"is":[1,36],"a":[2,7,45,70,74,96,118,125],"classic":[3],"dice":[4],"game":[5],"with":[6,73],"stochastic,":[8],"combinatorial":[9],"structure":[10],"and":[11,50,63,80,86,101,107,149,155,174],"delayed":[12],"rewards,":[13],"making":[14],"it":[15],"an":[16,22],"interesting":[17],"mid-scale":[18],"RL":[19],"benchmark.":[20],"While":[21],"optimal":[23,139],"policy":[24,56],"for":[25],"solitaire":[26],"can":[28],"be":[29],"computed":[30],"using":[31,54,69],"dynamic":[32],"programming":[33],"methods,":[34],"multiplayer":[35],"intractable,":[37],"motivating":[38],"approximation":[39],"methods.":[40],"We":[41,77],"formulate":[42],"as":[44],"Markov":[46],"Decision":[47],"Process":[48],"(MDP),":[49],"train":[51],"self-play":[52],"agents":[53],"various":[55],"gradient":[57],"methods:":[58],"REINFORCE,":[59],"Advantage":[60],"Actor-Critic":[61],"(A2C),":[62],"Proximal":[64],"Policy":[65],"Optimization":[66],"(PPO),":[67],"all":[68],"multi-headed":[71],"network":[72],"shared":[75],"trunk.":[76],"ablate":[78],"feature":[79],"action":[81],"encodings,":[82],"architecture,":[83],"return":[84],"estimators,":[85],"entropy":[87],"regularization":[88],"to":[89,105,109,161],"understand":[90],"their":[91],"impact":[92],"on":[93,168],"learning.":[94],"Under":[95],"fixed":[97],"training":[98],"budget,":[99],"REINFORCE":[100],"PPO":[102],"prove":[103],"sensitive":[104],"hyperparameters":[106],"fail":[108],"reach":[110],"near-optimal":[111],"performance,":[112],"whereas":[113],"A2C":[114],"trains":[115],"robustly":[116],"across":[117],"range":[119],"of":[120,128,137,142,153],"settings.":[121],"Our":[122],"agent":[123],"attains":[124],"median":[126],"score":[127,141],"241.78":[129],"points":[130],"over":[131],"100,000":[132],"evaluation":[133],"games,":[134],"within":[135],"5.0\\%":[136],"the":[138,145,163],"DP":[140],"254.59,":[143],"achieving":[144],"upper":[146,164],"section":[147],"bonus":[148,165],"at":[151],"rates":[152],"24.9\\%":[154],"34.1\\%,":[156],"respectively.":[157],"All":[158],"models":[159],"struggle":[160],"learn":[162],"strategy,":[166],"overindexing":[167],"four-of-a-kind's,":[169],"highlighting":[170],"persistent":[171],"long-horizon":[172],"credit-assignment":[173],"exploration":[175],"challenges.":[176]},"counts_by_year":[],"updated_date":"2026-01-08T20:10:11.968330","created_date":"2026-01-08T00:00:00"}