{"id":"https://openalex.org/W4296474779","doi":"https://doi.org/10.1109/cog51982.2022.9893584","title":"Speedup Training Artificial Intelligence for Mahjong via Reward Variance Reduction","display_name":"Speedup Training Artificial Intelligence for Mahjong via Reward Variance Reduction","publication_year":2022,"publication_date":"2022-08-21","ids":{"openalex":"https://openalex.org/W4296474779","doi":"https://doi.org/10.1109/cog51982.2022.9893584"},"language":"en","primary_location":{"id":"doi:10.1109/cog51982.2022.9893584","is_oa":false,"landing_page_url":"https://doi.org/10.1109/cog51982.2022.9893584","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2022 IEEE Conference on Games (CoG)","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5101864515","display_name":"Jinqiu Li","orcid":null},"institutions":[{"id":"https://openalex.org/I19820366","display_name":"Chinese Academy of Sciences","ror":"https://ror.org/034t30j35","country_code":"CN","type":"government","lineage":["https://openalex.org/I19820366"]},{"id":"https://openalex.org/I4210094879","display_name":"Shandong Institute of Automation","ror":"https://ror.org/00qdtba35","country_code":"CN","type":"facility","lineage":["https://openalex.org/I4210094879","https://openalex.org/I4210142748"]},{"id":"https://openalex.org/I4210100255","display_name":"Beijing Academy of Artificial Intelligence","ror":"https://ror.org/016a74861","country_code":"CN","type":"other","lineage":["https://openalex.org/I4210100255"]},{"id":"https://openalex.org/I4210165038","display_name":"University of Chinese Academy of Sciences","ror":"https://ror.org/05qbk4x57","country_code":"CN","type":"education","lineage":["https://openalex.org/I19820366","https://openalex.org/I4210165038"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Jinqiu Li","raw_affiliation_strings":["Institute of Automation, Chinese Academy of Sciences,Beijing,China","Institute of Automation, Chinese Academy of Sciences, Beijing, China","School of Artificial Intelligence, University of Chinese Academy of Sciences, Beijing, China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Institute of Automation, Chinese Academy of Sciences,Beijing,China","institution_ids":["https://openalex.org/I19820366","https://openalex.org/I4210094879"]},{"raw_affiliation_string":"Institute of Automation, Chinese Academy of Sciences, Beijing, China","institution_ids":["https://openalex.org/I19820366","https://openalex.org/I4210094879"]},{"raw_affiliation_string":"School of Artificial Intelligence, University of Chinese Academy of Sciences, Beijing, China","institution_ids":["https://openalex.org/I4210100255","https://openalex.org/I4210165038"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5102008934","display_name":"Shuang Wu","orcid":"https://orcid.org/0000-0003-1237-2656"},"institutions":[{"id":"https://openalex.org/I2250653659","display_name":"Tencent (China)","ror":"https://ror.org/00hhjss72","country_code":"CN","type":"company","lineage":["https://openalex.org/I2250653659"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Shuang Wu","raw_affiliation_strings":["Tencent AI Lab, Tencent,Shenzhen,China","Tencent AI Lab, Tencent, Shenzhen, China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Tencent AI Lab, Tencent,Shenzhen,China","institution_ids":["https://openalex.org/I2250653659"]},{"raw_affiliation_string":"Tencent AI Lab, Tencent, Shenzhen, China","institution_ids":["https://openalex.org/I2250653659"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5109476550","display_name":"Haobo Fu","orcid":null},"institutions":[{"id":"https://openalex.org/I2250653659","display_name":"Tencent (China)","ror":"https://ror.org/00hhjss72","country_code":"CN","type":"company","lineage":["https://openalex.org/I2250653659"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Haobo Fu","raw_affiliation_strings":["Tencent AI Lab, Tencent,Shenzhen,China","Tencent AI Lab, Tencent, Shenzhen, China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Tencent AI Lab, Tencent,Shenzhen,China","institution_ids":["https://openalex.org/I2250653659"]},{"raw_affiliation_string":"Tencent AI Lab, Tencent, Shenzhen, China","institution_ids":["https://openalex.org/I2250653659"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5032254756","display_name":"Qiang Fu","orcid":"https://orcid.org/0000-0002-1456-4216"},"institutions":[{"id":"https://openalex.org/I2250653659","display_name":"Tencent (China)","ror":"https://ror.org/00hhjss72","country_code":"CN","type":"company","lineage":["https://openalex.org/I2250653659"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Qiang Fu","raw_affiliation_strings":["Tencent AI Lab, Tencent,Shenzhen,China","Tencent AI Lab, Tencent, Shenzhen, China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Tencent AI Lab, Tencent,Shenzhen,China","institution_ids":["https://openalex.org/I2250653659"]},{"raw_affiliation_string":"Tencent AI Lab, Tencent, Shenzhen, China","institution_ids":["https://openalex.org/I2250653659"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5055979604","display_name":"Enmin Zhao","orcid":"https://orcid.org/0000-0001-6117-5080"},"institutions":[{"id":"https://openalex.org/I19820366","display_name":"Chinese Academy of Sciences","ror":"https://ror.org/034t30j35","country_code":"CN","type":"government","lineage":["https://openalex.org/I19820366"]},{"id":"https://openalex.org/I4210094879","display_name":"Shandong Institute of Automation","ror":"https://ror.org/00qdtba35","country_code":"CN","type":"facility","lineage":["https://openalex.org/I4210094879","https://openalex.org/I4210142748"]},{"id":"https://openalex.org/I4210100255","display_name":"Beijing Academy of Artificial Intelligence","ror":"https://ror.org/016a74861","country_code":"CN","type":"other","lineage":["https://openalex.org/I4210100255"]},{"id":"https://openalex.org/I4210165038","display_name":"University of Chinese Academy of Sciences","ror":"https://ror.org/05qbk4x57","country_code":"CN","type":"education","lineage":["https://openalex.org/I19820366","https://openalex.org/I4210165038"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Enmin Zhao","raw_affiliation_strings":["Institute of Automation, Chinese Academy of Sciences,Beijing,China","Institute of Automation, Chinese Academy of Sciences, Beijing, China","School of Artificial Intelligence, University of Chinese Academy of Sciences, Beijing, China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Institute of Automation, Chinese Academy of Sciences,Beijing,China","institution_ids":["https://openalex.org/I19820366","https://openalex.org/I4210094879"]},{"raw_affiliation_string":"Institute of Automation, Chinese Academy of Sciences, Beijing, China","institution_ids":["https://openalex.org/I19820366","https://openalex.org/I4210094879"]},{"raw_affiliation_string":"School of Artificial Intelligence, University of Chinese Academy of Sciences, Beijing, China","institution_ids":["https://openalex.org/I4210100255","https://openalex.org/I4210165038"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5076090670","display_name":"Junliang Xing","orcid":"https://orcid.org/0000-0001-6801-0510"},"institutions":[{"id":"https://openalex.org/I99065089","display_name":"Tsinghua University","ror":"https://ror.org/03cve4549","country_code":"CN","type":"education","lineage":["https://openalex.org/I99065089"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Junliang Xing","raw_affiliation_strings":["Tsinghua University,Department of Computer Science and Technology,Beijing,China","Department of Computer Science and Technology, Tsinghua University, Beijing, China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Tsinghua University,Department of Computer Science and Technology,Beijing,China","institution_ids":["https://openalex.org/I99065089"]},{"raw_affiliation_string":"Department of Computer Science and Technology, Tsinghua University, Beijing, China","institution_ids":["https://openalex.org/I99065089"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":6,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":8,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"345","last_page":"352"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11574","display_name":"Artificial Intelligence in Games","score":0.9994000196456909,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11574","display_name":"Artificial Intelligence in Games","score":0.9994000196456909,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9962999820709229,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10731","display_name":"Educational Games and Gamification","score":0.9941999912261963,"subfield":{"id":"https://openalex.org/subfields/3204","display_name":"Developmental and Educational Psychology"},"field":{"id":"https://openalex.org/fields/32","display_name":"Psychology"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7835085391998291},{"id":"https://openalex.org/keywords/variance","display_name":"Variance (accounting)","score":0.6797459125518799},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.667701005935669},{"id":"https://openalex.org/keywords/speedup","display_name":"Speedup","score":0.6281695365905762},{"id":"https://openalex.org/keywords/variance-reduction","display_name":"Variance reduction","score":0.5976904630661011},{"id":"https://openalex.org/keywords/oracle","display_name":"Oracle","score":0.5422857403755188},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.5363799929618835},{"id":"https://openalex.org/keywords/randomness","display_name":"Randomness","score":0.5311590433120728},{"id":"https://openalex.org/keywords/perfect-information","display_name":"Perfect information","score":0.4837172329425812},{"id":"https://openalex.org/keywords/reduction","display_name":"Reduction (mathematics)","score":0.46567460894584656},{"id":"https://openalex.org/keywords/process","display_name":"Process (computing)","score":0.4288628101348877},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.4023570418357849},{"id":"https://openalex.org/keywords/statistics","display_name":"Statistics","score":0.1067870557308197},{"id":"https://openalex.org/keywords/parallel-computing","display_name":"Parallel computing","score":0.08412167429924011}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7835085391998291},{"id":"https://openalex.org/C196083921","wikidata":"https://www.wikidata.org/wiki/Q7915758","display_name":"Variance (accounting)","level":2,"score":0.6797459125518799},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.667701005935669},{"id":"https://openalex.org/C68339613","wikidata":"https://www.wikidata.org/wiki/Q1549489","display_name":"Speedup","level":2,"score":0.6281695365905762},{"id":"https://openalex.org/C62644790","wikidata":"https://www.wikidata.org/wiki/Q3454689","display_name":"Variance reduction","level":3,"score":0.5976904630661011},{"id":"https://openalex.org/C55166926","wikidata":"https://www.wikidata.org/wiki/Q2892946","display_name":"Oracle","level":2,"score":0.5422857403755188},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5363799929618835},{"id":"https://openalex.org/C125112378","wikidata":"https://www.wikidata.org/wiki/Q176640","display_name":"Randomness","level":2,"score":0.5311590433120728},{"id":"https://openalex.org/C123676819","wikidata":"https://www.wikidata.org/wiki/Q1074338","display_name":"Perfect information","level":2,"score":0.4837172329425812},{"id":"https://openalex.org/C111335779","wikidata":"https://www.wikidata.org/wiki/Q3454686","display_name":"Reduction (mathematics)","level":2,"score":0.46567460894584656},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.4288628101348877},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.4023570418357849},{"id":"https://openalex.org/C105795698","wikidata":"https://www.wikidata.org/wiki/Q12483","display_name":"Statistics","level":1,"score":0.1067870557308197},{"id":"https://openalex.org/C173608175","wikidata":"https://www.wikidata.org/wiki/Q232661","display_name":"Parallel computing","level":1,"score":0.08412167429924011},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.0},{"id":"https://openalex.org/C2524010","wikidata":"https://www.wikidata.org/wiki/Q8087","display_name":"Geometry","level":1,"score":0.0},{"id":"https://openalex.org/C111919701","wikidata":"https://www.wikidata.org/wiki/Q9135","display_name":"Operating system","level":1,"score":0.0},{"id":"https://openalex.org/C144133560","wikidata":"https://www.wikidata.org/wiki/Q4830453","display_name":"Business","level":0,"score":0.0},{"id":"https://openalex.org/C121955636","wikidata":"https://www.wikidata.org/wiki/Q4116214","display_name":"Accounting","level":1,"score":0.0},{"id":"https://openalex.org/C115903868","wikidata":"https://www.wikidata.org/wiki/Q80993","display_name":"Software engineering","level":1,"score":0.0},{"id":"https://openalex.org/C144237770","wikidata":"https://www.wikidata.org/wiki/Q747534","display_name":"Mathematical economics","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/cog51982.2022.9893584","is_oa":false,"landing_page_url":"https://doi.org/10.1109/cog51982.2022.9893584","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2022 IEEE Conference on Games (CoG)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[{"id":"https://openalex.org/F4320321133","display_name":"Chinese Academy of Sciences","ror":"https://ror.org/034t30j35"},{"id":"https://openalex.org/F4320335777","display_name":"National Key Research and Development Program of China","ror":null}],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":40,"referenced_works":["https://openalex.org/W969015820","https://openalex.org/W1929757595","https://openalex.org/W2006791053","https://openalex.org/W2103315867","https://openalex.org/W2106975967","https://openalex.org/W2122634705","https://openalex.org/W2194775991","https://openalex.org/W2257979135","https://openalex.org/W2570612232","https://openalex.org/W2574978968","https://openalex.org/W2736601468","https://openalex.org/W2766447205","https://openalex.org/W2773381986","https://openalex.org/W2809129829","https://openalex.org/W2902907165","https://openalex.org/W2911296969","https://openalex.org/W2960876848","https://openalex.org/W2965394063","https://openalex.org/W2982316857","https://openalex.org/W2989847975","https://openalex.org/W2996037775","https://openalex.org/W2996896271","https://openalex.org/W3013828496","https://openalex.org/W3044994704","https://openalex.org/W3096116883","https://openalex.org/W3107951310","https://openalex.org/W3118210634","https://openalex.org/W3172924075","https://openalex.org/W4297779039","https://openalex.org/W6625369449","https://openalex.org/W6675509861","https://openalex.org/W6676175064","https://openalex.org/W6741002519","https://openalex.org/W6755310813","https://openalex.org/W6772005887","https://openalex.org/W6775289199","https://openalex.org/W6781244629","https://openalex.org/W6785535465","https://openalex.org/W6796814964","https://openalex.org/W7042846938"],"related_works":["https://openalex.org/W2886060011","https://openalex.org/W2374451721","https://openalex.org/W1981992409","https://openalex.org/W4319083788","https://openalex.org/W1995242492","https://openalex.org/W2084271566","https://openalex.org/W2398805384","https://openalex.org/W3022038857","https://openalex.org/W2800191438","https://openalex.org/W4296474779"],"abstract_inverted_index":{"Despite":[0],"significant":[1],"breakthroughs":[2],"in":[3,44,140],"developing":[4],"gaming":[5],"artificial":[6],"intelligence":[7],"(AI),":[8],"Mahjong":[9,29,62,141],"remains":[10],"quite":[11],"challenging":[12],"as":[13,24],"a":[14,39,61,71,83,157],"popular":[15],"multi-player":[16],"imperfect":[17],"information":[18,91],"game.":[19],"Compared":[20],"with":[21,105,160],"games":[22],"such":[23],"Go":[25],"and":[26,38,47,125,144],"Texas":[27],"Hold\u2019em,":[28],"has":[30],"much":[31],"more":[32],"invisible":[33],"information,":[34],"unfixed":[35],"game":[36],"order,":[37],"complicated":[40],"scoring":[41],"system,":[42],"resulting":[43],"high":[45],"randomness":[46],"variance":[48,139],"of":[49,153],"the":[50,54,80,89,94,99,111,122,138,146,168],"rewarding":[51],"signals":[52],"during":[53],"reinforcement":[55,75],"learning":[56,76],"process.":[57],"This":[58],"paper":[59],"presents":[60],"AI":[63,142],"by":[64],"introducing":[65],"Reward":[66],"Variance":[67],"Reduction":[68],"(RVR)":[69],"into":[70],"new":[72],"self-play":[73,154],"deep":[74],"algorithm.":[77],"RVR":[78,109,135,163],"handles":[79],"invisibility":[81],"via":[82],"relative":[84],"value":[85],"network":[86,118],"which":[87],"leverages":[88],"global":[90],"to":[92,96,98,119,121],"guide":[93],"model":[95,147],"converge":[97],"optimal":[100],"strategy":[101],"under":[102],"an":[103,115],"oracle":[104],"perfect":[106],"information.":[107],"Moreover,":[108],"improves":[110,145],"training":[112,143,155],"stability":[113],"using":[114],"expected":[116],"reward":[117,128],"adapt":[120],"complex,":[123],"dynamic,":[124],"highly":[126],"stochastic":[127],"environment.":[129],"Extensive":[130],"experimental":[131],"results":[132],"show":[133],"that":[134],"significantly":[136],"reduces":[137],"performance.":[148],"After":[149],"only":[150],"three":[151],"days":[152],"on":[156,167],"single":[158],"server":[159],"8":[161],"GPUs,":[162],"defeats":[164],"62.5%":[165],"opponents":[166],"Botzone":[169],"platform.":[170]},"counts_by_year":[{"year":2026,"cited_by_count":2},{"year":2025,"cited_by_count":3},{"year":2024,"cited_by_count":3}],"updated_date":"2026-07-28T07:46:37.118299","created_date":"2025-10-10T00:00:00"}