{"id":"https://openalex.org/W2808418309","doi":"https://doi.org/10.24963/ijcai.2018/211","title":"Master-Slave Curriculum Design for Reinforcement Learning","display_name":"Master-Slave Curriculum Design for Reinforcement Learning","publication_year":2018,"publication_date":"2018-07-01","ids":{"openalex":"https://openalex.org/W2808418309","doi":"https://doi.org/10.24963/ijcai.2018/211","mag":"2808418309"},"language":"en","primary_location":{"id":"doi:10.24963/ijcai.2018/211","is_oa":true,"landing_page_url":"https://doi.org/10.24963/ijcai.2018/211","pdf_url":"https://www.ijcai.org/proceedings/2018/0211.pdf","source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":true,"oa_status":"gold","oa_url":"https://www.ijcai.org/proceedings/2018/0211.pdf","any_repository_has_fulltext":null},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5103094155","display_name":"Yuechen Wu","orcid":"https://orcid.org/0000-0001-5615-8016"},"institutions":[{"id":"https://openalex.org/I154099455","display_name":"Shandong University","ror":"https://ror.org/0207yh398","country_code":"CN","type":"education","lineage":["https://openalex.org/I154099455"]}],"countries":["CN"],"is_corresponding":true,"raw_author_name":"Yuechen Wu","raw_affiliation_strings":["School of Control Science and Engineering, Shandong University"],"affiliations":[{"raw_affiliation_string":"School of Control Science and Engineering, Shandong University","institution_ids":["https://openalex.org/I154099455"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5100653327","display_name":"Wei Zhang","orcid":"https://orcid.org/0000-0002-1059-3642"},"institutions":[{"id":"https://openalex.org/I154099455","display_name":"Shandong University","ror":"https://ror.org/0207yh398","country_code":"CN","type":"education","lineage":["https://openalex.org/I154099455"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Wei Zhang","raw_affiliation_strings":["School of Control Science and Engineering, Shandong University"],"affiliations":[{"raw_affiliation_string":"School of Control Science and Engineering, Shandong University","institution_ids":["https://openalex.org/I154099455"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5101895755","display_name":"Ke Song","orcid":"https://orcid.org/0000-0002-1949-9986"},"institutions":[{"id":"https://openalex.org/I154099455","display_name":"Shandong University","ror":"https://ror.org/0207yh398","country_code":"CN","type":"education","lineage":["https://openalex.org/I154099455"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Ke Song","raw_affiliation_strings":["School of Control Science and Engineering, Shandong University"],"affiliations":[{"raw_affiliation_string":"School of Control Science and Engineering, Shandong University","institution_ids":["https://openalex.org/I154099455"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5103094155"],"corresponding_institution_ids":["https://openalex.org/I154099455"],"apc_list":null,"apc_paid":null,"fwci":1.5187,"has_fulltext":true,"cited_by_count":11,"citation_normalized_percentile":{"value":0.86983556,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":89,"max":98},"biblio":{"volume":null,"issue":null,"first_page":"1523","last_page":"1529"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9998000264167786,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9998000264167786,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10653","display_name":"Robot Manipulation and Learning","score":0.9984999895095825,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Machine Learning","score":0.9814000129699707,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.756672739982605},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.6857698559761047},{"id":"https://openalex.org/keywords/leverage","display_name":"Leverage (statistics)","score":0.6614673137664795},{"id":"https://openalex.org/keywords/asynchronous-communication","display_name":"Asynchronous communication","score":0.5538592338562012},{"id":"https://openalex.org/keywords/curriculum","display_name":"Curriculum","score":0.5515947341918945},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.48893633484840393},{"id":"https://openalex.org/keywords/human\u2013computer-interaction","display_name":"Human\u2013computer interaction","score":0.4787439703941345},{"id":"https://openalex.org/keywords/task","display_name":"Task (project management)","score":0.4699340760707855},{"id":"https://openalex.org/keywords/action","display_name":"Action (physics)","score":0.4313387870788574},{"id":"https://openalex.org/keywords/engineering","display_name":"Engineering","score":0.14776822924613953},{"id":"https://openalex.org/keywords/computer-network","display_name":"Computer network","score":0.14467579126358032}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.756672739982605},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.6857698559761047},{"id":"https://openalex.org/C153083717","wikidata":"https://www.wikidata.org/wiki/Q6535263","display_name":"Leverage (statistics)","level":2,"score":0.6614673137664795},{"id":"https://openalex.org/C151319957","wikidata":"https://www.wikidata.org/wiki/Q752739","display_name":"Asynchronous communication","level":2,"score":0.5538592338562012},{"id":"https://openalex.org/C47177190","wikidata":"https://www.wikidata.org/wiki/Q207137","display_name":"Curriculum","level":2,"score":0.5515947341918945},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.48893633484840393},{"id":"https://openalex.org/C107457646","wikidata":"https://www.wikidata.org/wiki/Q207434","display_name":"Human\u2013computer interaction","level":1,"score":0.4787439703941345},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.4699340760707855},{"id":"https://openalex.org/C2780791683","wikidata":"https://www.wikidata.org/wiki/Q846785","display_name":"Action (physics)","level":2,"score":0.4313387870788574},{"id":"https://openalex.org/C127413603","wikidata":"https://www.wikidata.org/wiki/Q11023","display_name":"Engineering","level":0,"score":0.14776822924613953},{"id":"https://openalex.org/C31258907","wikidata":"https://www.wikidata.org/wiki/Q1301371","display_name":"Computer network","level":1,"score":0.14467579126358032},{"id":"https://openalex.org/C201995342","wikidata":"https://www.wikidata.org/wiki/Q682496","display_name":"Systems engineering","level":1,"score":0.0},{"id":"https://openalex.org/C62520636","wikidata":"https://www.wikidata.org/wiki/Q944","display_name":"Quantum mechanics","level":1,"score":0.0},{"id":"https://openalex.org/C19417346","wikidata":"https://www.wikidata.org/wiki/Q7922","display_name":"Pedagogy","level":1,"score":0.0},{"id":"https://openalex.org/C121332964","wikidata":"https://www.wikidata.org/wiki/Q413","display_name":"Physics","level":0,"score":0.0},{"id":"https://openalex.org/C15744967","wikidata":"https://www.wikidata.org/wiki/Q9418","display_name":"Psychology","level":0,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.24963/ijcai.2018/211","is_oa":true,"landing_page_url":"https://doi.org/10.24963/ijcai.2018/211","pdf_url":"https://www.ijcai.org/proceedings/2018/0211.pdf","source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence","raw_type":"proceedings-article"}],"best_oa_location":{"id":"doi:10.24963/ijcai.2018/211","is_oa":true,"landing_page_url":"https://doi.org/10.24963/ijcai.2018/211","pdf_url":"https://www.ijcai.org/proceedings/2018/0211.pdf","source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence","raw_type":"proceedings-article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":true,"pdf":true},"content_urls":{"pdf":"https://content.openalex.org/works/W2808418309.pdf","grobid_xml":"https://content.openalex.org/works/W2808418309.grobid-xml"},"referenced_works_count":10,"referenced_works":["https://openalex.org/W1974812331","https://openalex.org/W2121863487","https://openalex.org/W2132984949","https://openalex.org/W2145339207","https://openalex.org/W2335959470","https://openalex.org/W2344023930","https://openalex.org/W2581240229","https://openalex.org/W2739678353","https://openalex.org/W2741594138","https://openalex.org/W2962736495"],"related_works":["https://openalex.org/W2116677773","https://openalex.org/W2155261584","https://openalex.org/W2584231425","https://openalex.org/W2150611273","https://openalex.org/W4306904969","https://openalex.org/W4207086172","https://openalex.org/W2042919702","https://openalex.org/W4225981436","https://openalex.org/W2156185805","https://openalex.org/W2768698792"],"abstract_inverted_index":{"Curriculum":[0],"learning":[1,38,66,124,144],"is":[2,19,40,45,137],"often":[3],"introduced":[4],"as":[5,86],"a":[6,22,63,108],"leverage":[7],"to":[8,20,30],"improve":[9],"the":[10,17,70,90,97,118,122],"agent":[11,29,50,81,88,127],"training":[12,58],"for":[13,27,48,80,89,96],"complex":[14],"tasks,":[15],"where":[16],"goal":[18],"generate":[21],"sequence":[23],"of":[24,72,125,143],"easier":[25],"subasks":[26],"an":[28,112],"train":[31],"on,":[32],"such":[33],"that":[34],"final":[35],"performance":[36],"or":[37],"speed":[39,145],"improved.":[41],"However,":[42],"conventional":[43],"curriculum":[44,65],"mainly":[46],"designed":[47],"one":[49],"with":[51,111],"fixed":[52],"action":[53,78,104],"space":[54],"and":[55,75,93,128,146],"sequential":[56],"simple-to-hard":[57],"manner.":[59],"Instead,":[60],"we":[61],"present":[62],"novel":[64],"strategy":[67],"by":[68,106],"introducing":[69],"concept":[71],"master-slave":[73],"agents":[74,95,130],"enabling":[76],"flexible":[77],"setting":[79],"training.":[82],"Multiple":[83],"agents,":[84],"referred":[85],"master":[87,126],"target":[91],"task":[92],"slave":[94,129],"subtasks,":[98],"are":[99],"trained":[100],"concurrently":[101],"within":[102],"different":[103],"spaces":[105],"sharing":[107],"perception":[109],"network":[110],"asynchronous":[113],"strategy.":[114],"Extensive":[115],"evaluation":[116],"on":[117],"VizDoom":[119],"platform":[120],"demonstrates":[121],"joint":[123],"mutually":[131],"benefit":[132],"each":[133],"other.":[134],"Significant":[135],"improvement":[136],"obtained":[138],"over":[139],"A3C":[140],"in":[141],"terms":[142],"performance.":[147]},"counts_by_year":[{"year":2024,"cited_by_count":1},{"year":2022,"cited_by_count":1},{"year":2020,"cited_by_count":2},{"year":2019,"cited_by_count":5},{"year":2018,"cited_by_count":2}],"updated_date":"2026-03-10T16:38:18.471706","created_date":"2025-10-10T00:00:00"}