{"id":"https://openalex.org/W4317792929","doi":"https://doi.org/10.1109/wsc57314.2022.10015374","title":"An Efficient Dynamic Sampling Policy for Monte Carlo Tree Search","display_name":"An Efficient Dynamic Sampling Policy for Monte Carlo Tree Search","publication_year":2022,"publication_date":"2022-12-11","ids":{"openalex":"https://openalex.org/W4317792929","doi":"https://doi.org/10.1109/wsc57314.2022.10015374"},"language":"en","primary_location":{"id":"doi:10.1109/wsc57314.2022.10015374","is_oa":false,"landing_page_url":"https://doi.org/10.1109/wsc57314.2022.10015374","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2022 Winter Simulation Conference (WSC)","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5082836333","display_name":"Gongbo Zhang","orcid":"https://orcid.org/0000-0002-7517-7666"},"institutions":[{"id":"https://openalex.org/I20231570","display_name":"Peking University","ror":"https://ror.org/02v51f717","country_code":"CN","type":"education","lineage":["https://openalex.org/I20231570"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Gongbo Zhang","raw_affiliation_strings":["Guanghua School of Management, Peking University,Beijing,P. R. CHINA,100871"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Guanghua School of Management, Peking University,Beijing,P. R. CHINA,100871","institution_ids":["https://openalex.org/I20231570"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5005503619","display_name":"Yijie Peng","orcid":"https://orcid.org/0000-0003-2584-8131"},"institutions":[{"id":"https://openalex.org/I20231570","display_name":"Peking University","ror":"https://ror.org/02v51f717","country_code":"CN","type":"education","lineage":["https://openalex.org/I20231570"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Yijie Peng","raw_affiliation_strings":["Guanghua School of Management, Peking University,Beijing,P. R. CHINA,100871"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Guanghua School of Management, Peking University,Beijing,P. R. CHINA,100871","institution_ids":["https://openalex.org/I20231570"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5100302092","display_name":"Yilong Xu","orcid":"https://orcid.org/0009-0008-7052-9715"},"institutions":[{"id":"https://openalex.org/I21193070","display_name":"Beijing Jiaotong University","ror":"https://ror.org/01yj56c84","country_code":"CN","type":"education","lineage":["https://openalex.org/I21193070"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Yilong Xu","raw_affiliation_strings":["Beijing Jiaotong University,Department of Computer Science,Beijing,P. R. CHINA,100044"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Beijing Jiaotong University,Department of Computer Science,Beijing,P. R. CHINA,100044","institution_ids":["https://openalex.org/I21193070"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":9,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"2760","last_page":"2771"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9994000196456909,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9994000196456909,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11574","display_name":"Artificial Intelligence in Games","score":0.9990000128746033,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11975","display_name":"Evolutionary Algorithms and Applications","score":0.9898999929428101,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/monte-carlo-tree-search","display_name":"Monte Carlo tree search","score":0.9239101409912109},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7375737428665161},{"id":"https://openalex.org/keywords/tree","display_name":"Tree (set theory)","score":0.6467267274856567},{"id":"https://openalex.org/keywords/markov-decision-process","display_name":"Markov decision process","score":0.6339070200920105},{"id":"https://openalex.org/keywords/node","display_name":"Node (physics)","score":0.5743201375007629},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.5518707036972046},{"id":"https://openalex.org/keywords/search-tree","display_name":"Search tree","score":0.5052040219306946},{"id":"https://openalex.org/keywords/thompson-sampling","display_name":"Thompson sampling","score":0.4867992103099823},{"id":"https://openalex.org/keywords/mathematical-optimization","display_name":"Mathematical optimization","score":0.4850465655326843},{"id":"https://openalex.org/keywords/markov-chain-monte-carlo","display_name":"Markov chain Monte Carlo","score":0.4720291197299957},{"id":"https://openalex.org/keywords/context","display_name":"Context (archaeology)","score":0.4719007909297943},{"id":"https://openalex.org/keywords/monte-carlo-method","display_name":"Monte Carlo method","score":0.4544248878955841},{"id":"https://openalex.org/keywords/markov-process","display_name":"Markov process","score":0.4535676836967468},{"id":"https://openalex.org/keywords/sampling","display_name":"Sampling (signal processing)","score":0.4346780776977539},{"id":"https://openalex.org/keywords/incremental-decision-tree","display_name":"Incremental decision tree","score":0.4292375445365906},{"id":"https://openalex.org/keywords/importance-sampling","display_name":"Importance sampling","score":0.41949141025543213},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.33430200815200806},{"id":"https://openalex.org/keywords/decision-tree","display_name":"Decision tree","score":0.330992192029953},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.2784830331802368},{"id":"https://openalex.org/keywords/algorithm","display_name":"Algorithm","score":0.24721723794937134},{"id":"https://openalex.org/keywords/search-algorithm","display_name":"Search algorithm","score":0.22324705123901367},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.18867772817611694},{"id":"https://openalex.org/keywords/decision-tree-learning","display_name":"Decision tree learning","score":0.1743464469909668},{"id":"https://openalex.org/keywords/statistics","display_name":"Statistics","score":0.08709782361984253},{"id":"https://openalex.org/keywords/bayesian-probability","display_name":"Bayesian probability","score":0.08433359861373901},{"id":"https://openalex.org/keywords/engineering","display_name":"Engineering","score":0.07306918501853943}],"concepts":[{"id":"https://openalex.org/C46149586","wikidata":"https://www.wikidata.org/wiki/Q11785332","display_name":"Monte Carlo tree search","level":3,"score":0.9239101409912109},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7375737428665161},{"id":"https://openalex.org/C113174947","wikidata":"https://www.wikidata.org/wiki/Q2859736","display_name":"Tree (set theory)","level":2,"score":0.6467267274856567},{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.6339070200920105},{"id":"https://openalex.org/C62611344","wikidata":"https://www.wikidata.org/wiki/Q1062658","display_name":"Node (physics)","level":2,"score":0.5743201375007629},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.5518707036972046},{"id":"https://openalex.org/C207024777","wikidata":"https://www.wikidata.org/wiki/Q621673","display_name":"Search tree","level":3,"score":0.5052040219306946},{"id":"https://openalex.org/C73602740","wikidata":"https://www.wikidata.org/wiki/Q7795822","display_name":"Thompson sampling","level":3,"score":0.4867992103099823},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.4850465655326843},{"id":"https://openalex.org/C111350023","wikidata":"https://www.wikidata.org/wiki/Q1191869","display_name":"Markov chain Monte Carlo","level":3,"score":0.4720291197299957},{"id":"https://openalex.org/C2779343474","wikidata":"https://www.wikidata.org/wiki/Q3109175","display_name":"Context (archaeology)","level":2,"score":0.4719007909297943},{"id":"https://openalex.org/C19499675","wikidata":"https://www.wikidata.org/wiki/Q232207","display_name":"Monte Carlo method","level":2,"score":0.4544248878955841},{"id":"https://openalex.org/C159886148","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov process","level":2,"score":0.4535676836967468},{"id":"https://openalex.org/C140779682","wikidata":"https://www.wikidata.org/wiki/Q210868","display_name":"Sampling (signal processing)","level":3,"score":0.4346780776977539},{"id":"https://openalex.org/C10229987","wikidata":"https://www.wikidata.org/wiki/Q17083028","display_name":"Incremental decision tree","level":4,"score":0.4292375445365906},{"id":"https://openalex.org/C52740198","wikidata":"https://www.wikidata.org/wiki/Q1539564","display_name":"Importance sampling","level":3,"score":0.41949141025543213},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.33430200815200806},{"id":"https://openalex.org/C84525736","wikidata":"https://www.wikidata.org/wiki/Q831366","display_name":"Decision tree","level":2,"score":0.330992192029953},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.2784830331802368},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.24721723794937134},{"id":"https://openalex.org/C125583679","wikidata":"https://www.wikidata.org/wiki/Q755673","display_name":"Search algorithm","level":2,"score":0.22324705123901367},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.18867772817611694},{"id":"https://openalex.org/C5481197","wikidata":"https://www.wikidata.org/wiki/Q16766476","display_name":"Decision tree learning","level":3,"score":0.1743464469909668},{"id":"https://openalex.org/C105795698","wikidata":"https://www.wikidata.org/wiki/Q12483","display_name":"Statistics","level":1,"score":0.08709782361984253},{"id":"https://openalex.org/C107673813","wikidata":"https://www.wikidata.org/wiki/Q812534","display_name":"Bayesian probability","level":2,"score":0.08433359861373901},{"id":"https://openalex.org/C127413603","wikidata":"https://www.wikidata.org/wiki/Q11023","display_name":"Engineering","level":0,"score":0.07306918501853943},{"id":"https://openalex.org/C31972630","wikidata":"https://www.wikidata.org/wiki/Q844240","display_name":"Computer vision","level":1,"score":0.0},{"id":"https://openalex.org/C66938386","wikidata":"https://www.wikidata.org/wiki/Q633538","display_name":"Structural engineering","level":1,"score":0.0},{"id":"https://openalex.org/C151730666","wikidata":"https://www.wikidata.org/wiki/Q7205","display_name":"Paleontology","level":1,"score":0.0},{"id":"https://openalex.org/C134306372","wikidata":"https://www.wikidata.org/wiki/Q7754","display_name":"Mathematical analysis","level":1,"score":0.0},{"id":"https://openalex.org/C106131492","wikidata":"https://www.wikidata.org/wiki/Q3072260","display_name":"Filter (signal processing)","level":2,"score":0.0},{"id":"https://openalex.org/C86803240","wikidata":"https://www.wikidata.org/wiki/Q420","display_name":"Biology","level":0,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/wsc57314.2022.10015374","is_oa":false,"landing_page_url":"https://doi.org/10.1109/wsc57314.2022.10015374","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2022 Winter Simulation Conference (WSC)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[{"score":0.6600000262260437,"display_name":"Peace, Justice and strong institutions","id":"https://metadata.un.org/sdg/16"}],"awards":[{"id":"https://openalex.org/G2941751498","display_name":null,"funder_award_id":"71901003,72022001","funder_id":"https://openalex.org/F4320321001","funder_display_name":"National Natural Science Foundation of China"}],"funders":[{"id":"https://openalex.org/F4320321001","display_name":"National Natural Science Foundation of China","ror":"https://ror.org/01h0zpd94"}],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":21,"referenced_works":["https://openalex.org/W183472599","https://openalex.org/W1491497562","https://openalex.org/W1536615069","https://openalex.org/W1602705817","https://openalex.org/W1625390266","https://openalex.org/W2038110713","https://openalex.org/W2126316555","https://openalex.org/W2168405694","https://openalex.org/W2186241545","https://openalex.org/W2257979135","https://openalex.org/W2766447205","https://openalex.org/W2912083425","https://openalex.org/W2950929549","https://openalex.org/W2963653944","https://openalex.org/W3016967565","https://openalex.org/W3167334575","https://openalex.org/W4237029372","https://openalex.org/W4252019227","https://openalex.org/W4285796263","https://openalex.org/W6640408362","https://openalex.org/W6739435002"],"related_works":["https://openalex.org/W2150823748","https://openalex.org/W4312309732","https://openalex.org/W2964155459","https://openalex.org/W2770627170","https://openalex.org/W4206302813","https://openalex.org/W2588842358","https://openalex.org/W4327811054","https://openalex.org/W2048751428","https://openalex.org/W2491631281","https://openalex.org/W1678214819"],"abstract_inverted_index":{"We":[0,27],"consider":[1],"the":[2,8,13,20,42,48,52,56,66],"popular":[3],"tree-based":[4],"search":[5],"strategy":[6],"within":[7],"framework":[9],"of":[10,22,44,47,55],"reinforcement":[11],"learning,":[12],"Monte":[14],"Carlo":[15],"Tree":[16],"Search":[17],"(MCTS),":[18],"in":[19],"context":[21],"finite-horizon":[23],"Markov":[24],"decision":[25],"process.":[26],"propose":[28],"a":[29],"dynamic":[30],"sampling":[31],"tree":[32,68],"policy":[33,69],"that":[34,65],"efficiently":[35],"allocates":[36],"limited":[37],"computational":[38],"budget":[39],"to":[40],"maximize":[41],"probability":[43],"correct":[45],"selection":[46],"best":[49],"action":[50],"at":[51],"root":[53],"node":[54],"tree.":[57],"Experimental":[58],"results":[59],"on":[60],"Tic-Tac-Toe":[61],"and":[62],"Gomoku":[63],"show":[64],"proposed":[67],"is":[70],"more":[71],"efficient":[72],"than":[73],"other":[74],"competing":[75],"methods.":[76]},"counts_by_year":[{"year":2025,"cited_by_count":1},{"year":2024,"cited_by_count":4},{"year":2023,"cited_by_count":2},{"year":2022,"cited_by_count":2}],"updated_date":"2026-07-28T07:46:37.118299","created_date":"2025-10-10T00:00:00"}