{"id":"https://openalex.org/W4226354562","doi":"https://doi.org/10.24963/ijcai.2022/452","title":"JueWu-MC: Playing Minecraft with Sample-efficient Hierarchical Reinforcement Learning","display_name":"JueWu-MC: Playing Minecraft with Sample-efficient Hierarchical Reinforcement Learning","publication_year":2022,"publication_date":"2022-07-01","ids":{"openalex":"https://openalex.org/W4226354562","doi":"https://doi.org/10.24963/ijcai.2022/452"},"language":"en","primary_location":{"id":"doi:10.24963/ijcai.2022/452","is_oa":true,"landing_page_url":"https://doi.org/10.24963/ijcai.2022/452","pdf_url":"https://www.ijcai.org/proceedings/2022/0452.pdf","source":{"id":"https://openalex.org/S4363608755","display_name":"Proceedings of the Thirty-First International Joint Conference on Artificial Intelligence","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the Thirty-First International Joint Conference on Artificial Intelligence","raw_type":"proceedings-article"},"type":"preprint","indexed_in":["arxiv","crossref","datacite"],"open_access":{"is_oa":true,"oa_status":"bronze","oa_url":"https://www.ijcai.org/proceedings/2022/0452.pdf","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5070351115","display_name":"Zichuan Lin","orcid":null},"institutions":[{"id":"https://openalex.org/I2250653659","display_name":"Tencent (China)","ror":"https://ror.org/00hhjss72","country_code":"CN","type":"company","lineage":["https://openalex.org/I2250653659"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Zichuan Lin","raw_affiliation_strings":["Tencent AI Lab"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Tencent AI Lab","institution_ids":["https://openalex.org/I2250653659"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5103160581","display_name":"Junyou Li","orcid":"https://orcid.org/0000-0002-8959-9122"},"institutions":[{"id":"https://openalex.org/I2250653659","display_name":"Tencent (China)","ror":"https://ror.org/00hhjss72","country_code":"CN","type":"company","lineage":["https://openalex.org/I2250653659"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Junyou Li","raw_affiliation_strings":["Tencent AI Lab"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Tencent AI Lab","institution_ids":["https://openalex.org/I2250653659"]}]},{"author_position":"middle","author":{"id":null,"display_name":"Jianing Shi","orcid":null},"institutions":[{"id":"https://openalex.org/I2250653659","display_name":"Tencent (China)","ror":"https://ror.org/00hhjss72","country_code":"CN","type":"company","lineage":["https://openalex.org/I2250653659"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Jianing Shi","raw_affiliation_strings":["Tencent AI Lab"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Tencent AI Lab","institution_ids":["https://openalex.org/I2250653659"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5041915500","display_name":"Deheng Ye","orcid":null},"institutions":[{"id":"https://openalex.org/I2250653659","display_name":"Tencent (China)","ror":"https://ror.org/00hhjss72","country_code":"CN","type":"company","lineage":["https://openalex.org/I2250653659"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Deheng Ye","raw_affiliation_strings":["Tencent AI Lab"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Tencent AI Lab","institution_ids":["https://openalex.org/I2250653659"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5065153972","display_name":"Qiang Fu","orcid":"https://orcid.org/0000-0003-4100-2777"},"institutions":[{"id":"https://openalex.org/I2250653659","display_name":"Tencent (China)","ror":"https://ror.org/00hhjss72","country_code":"CN","type":"company","lineage":["https://openalex.org/I2250653659"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Qiang Fu","raw_affiliation_strings":["Tencent AI Lab"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Tencent AI Lab","institution_ids":["https://openalex.org/I2250653659"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5100362543","display_name":"Wei Yang","orcid":"https://orcid.org/0000-0002-4597-877X"},"institutions":[{"id":"https://openalex.org/I2250653659","display_name":"Tencent (China)","ror":"https://ror.org/00hhjss72","country_code":"CN","type":"company","lineage":["https://openalex.org/I2250653659"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Wei Yang","raw_affiliation_strings":["Tencent AI Lab"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Tencent AI Lab","institution_ids":["https://openalex.org/I2250653659"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":6,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.1038,"has_fulltext":true,"cited_by_count":1,"citation_normalized_percentile":{"value":0.24855553,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":90,"max":94},"biblio":{"volume":null,"issue":null,"first_page":"3257","last_page":"3263"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9621999859809875,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9621999859809875,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7206774353981018},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.6790799498558044},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.5887646675109863},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.5695164799690247},{"id":"https://openalex.org/keywords/observability","display_name":"Observability","score":0.540263295173645},{"id":"https://openalex.org/keywords/feature-learning","display_name":"Feature learning","score":0.48848164081573486},{"id":"https://openalex.org/keywords/robustness","display_name":"Robustness (evolution)","score":0.43681418895721436},{"id":"https://openalex.org/keywords/margin","display_name":"Margin (machine learning)","score":0.41241922974586487},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.11853185296058655}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7206774353981018},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.6790799498558044},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5887646675109863},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.5695164799690247},{"id":"https://openalex.org/C36299963","wikidata":"https://www.wikidata.org/wiki/Q1369844","display_name":"Observability","level":2,"score":0.540263295173645},{"id":"https://openalex.org/C59404180","wikidata":"https://www.wikidata.org/wiki/Q17013334","display_name":"Feature learning","level":2,"score":0.48848164081573486},{"id":"https://openalex.org/C63479239","wikidata":"https://www.wikidata.org/wiki/Q7353546","display_name":"Robustness (evolution)","level":3,"score":0.43681418895721436},{"id":"https://openalex.org/C774472","wikidata":"https://www.wikidata.org/wiki/Q6760393","display_name":"Margin (machine learning)","level":2,"score":0.41241922974586487},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.11853185296058655},{"id":"https://openalex.org/C185592680","wikidata":"https://www.wikidata.org/wiki/Q2329","display_name":"Chemistry","level":0,"score":0.0},{"id":"https://openalex.org/C104317684","wikidata":"https://www.wikidata.org/wiki/Q7187","display_name":"Gene","level":2,"score":0.0},{"id":"https://openalex.org/C55493867","wikidata":"https://www.wikidata.org/wiki/Q7094","display_name":"Biochemistry","level":1,"score":0.0},{"id":"https://openalex.org/C28826006","wikidata":"https://www.wikidata.org/wiki/Q33521","display_name":"Applied mathematics","level":1,"score":0.0}],"mesh":[],"locations_count":3,"locations":[{"id":"doi:10.24963/ijcai.2022/452","is_oa":true,"landing_page_url":"https://doi.org/10.24963/ijcai.2022/452","pdf_url":"https://www.ijcai.org/proceedings/2022/0452.pdf","source":{"id":"https://openalex.org/S4363608755","display_name":"Proceedings of the Thirty-First International Joint Conference on Artificial Intelligence","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the Thirty-First International Joint Conference on Artificial Intelligence","raw_type":"proceedings-article"},{"id":"pmh:oai:arXiv.org:2112.04907","is_oa":true,"landing_page_url":"http://arxiv.org/abs/2112.04907","pdf_url":"https://arxiv.org/pdf/2112.04907","source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"text"},{"id":"doi:10.48550/arxiv.2112.04907","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2112.04907","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.24963/ijcai.2022/452","is_oa":true,"landing_page_url":"https://doi.org/10.24963/ijcai.2022/452","pdf_url":"https://www.ijcai.org/proceedings/2022/0452.pdf","source":{"id":"https://openalex.org/S4363608755","display_name":"Proceedings of the Thirty-First International Joint Conference on Artificial Intelligence","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the Thirty-First International Joint Conference on Artificial Intelligence","raw_type":"proceedings-article"},"sustainable_development_goals":[{"id":"https://metadata.un.org/sdg/10","score":0.7099999785423279,"display_name":"Reduced inequalities"}],"awards":[],"funders":[],"has_content":{"grobid_xml":true,"pdf":true},"content_urls":{"pdf":"https://content.openalex.org/works/W4226354562.pdf","grobid_xml":"https://content.openalex.org/works/W4226354562.grobid-xml"},"referenced_works_count":20,"referenced_works":["https://openalex.org/W2155968351","https://openalex.org/W2173564293","https://openalex.org/W2344023930","https://openalex.org/W2418628973","https://openalex.org/W2614839826","https://openalex.org/W2756826236","https://openalex.org/W2761873684","https://openalex.org/W2787666871","https://openalex.org/W2789740610","https://openalex.org/W2903709781","https://openalex.org/W2914824760","https://openalex.org/W2964836580","https://openalex.org/W2982316857","https://openalex.org/W3021343263","https://openalex.org/W3115638348","https://openalex.org/W3132357549","https://openalex.org/W3175752186","https://openalex.org/W6863631769","https://openalex.org/W6863994431","https://openalex.org/W6864014924"],"related_works":["https://openalex.org/W1353223","https://openalex.org/W868042","https://openalex.org/W929682","https://openalex.org/W8447228","https://openalex.org/W4412456","https://openalex.org/W10379689","https://openalex.org/W547392","https://openalex.org/W1323832","https://openalex.org/W16192384","https://openalex.org/W8793435"],"abstract_inverted_index":{"Learning":[0,14],"rational":[1],"behaviors":[2],"in":[3],"open-world":[4],"games":[5],"like":[6],"Minecraft":[7],"remains":[8],"to":[9,18,49,70,79],"be":[10],"challenging":[11],"for":[12,112,123],"Reinforcement":[13],"(RL)":[15],"research":[16,155],"due":[17],"the":[19,64,75,85,148,151,159],"compound":[20],"challenge":[21],"of":[22,61,87,93,139,150],"partial":[23],"observability,":[24],"high-dimensional":[25],"visual":[26],"perception":[27,52],"and":[28,46,53,74,106,115,135,157],"delayed":[29],"reward.":[30],"To":[31,83],"address":[32],"this,":[33],"we":[34,89,146],"propose":[35,90],"JueWu-MC,":[36],"a":[37,68,91,137,142],"sample-efficient":[38],"hierarchical":[39],"RL":[40],"approach":[41,57],"equipped":[42],"with":[43,51,120],"representation":[44,98],"learning":[45,48,86,99,111],"imitation":[47],"deal":[50],"exploration.":[54],"Specifically,":[55],"our":[56],"includes":[58],"two":[59],"levels":[60],"hierarchy,":[62],"where":[63],"high-level":[65],"controller":[66],"learns":[67],"policy":[69,124],"control":[71],"over":[72],"options":[73],"low-level":[76],"workers":[77],"learn":[78],"solve":[80],"each":[81],"sub-task.":[82],"boost":[84],"sub-tasks,":[88],"combination":[92],"techniques":[94],"including":[95],"1)":[96],"action-aware":[97],"which":[100],"captures":[101],"underlying":[102],"relations":[103],"between":[104],"action":[105],"representation,":[107],"2)":[108],"discriminator-based":[109],"self-imitation":[110],"efficient":[113],"exploration,":[114],"3)":[116],"ensemble":[117],"behavior":[118],"cloning":[119],"consistency":[121],"filtering":[122],"robustness.":[125],"Extensive":[126],"experiments":[127],"show":[128],"that":[129],"JueWu-MC":[130],"significantly":[131],"improves":[132],"sample":[133],"efficiency":[134],"outperforms":[136],"set":[138],"baselines":[140],"by":[141],"large":[143],"margin.":[144],"Notably,":[145],"won":[147],"championship":[149],"NeurIPS":[152],"MineRL":[153],"2021":[154],"competition":[156],"achieved":[158],"highest":[160],"performance":[161],"score":[162],"ever.":[163]},"counts_by_year":[{"year":2023,"cited_by_count":1}],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2022-05-05T00:00:00"}