{"id":"https://openalex.org/W4285604500","doi":"https://doi.org/10.24963/ijcai.2022/440","title":"Multi-policy Grounding and Ensemble Policy Learning for Transfer Learning with Dynamics Mismatch","display_name":"Multi-policy Grounding and Ensemble Policy Learning for Transfer Learning with Dynamics Mismatch","publication_year":2022,"publication_date":"2022-07-01","ids":{"openalex":"https://openalex.org/W4285604500","doi":"https://doi.org/10.24963/ijcai.2022/440"},"language":"en","primary_location":{"id":"doi:10.24963/ijcai.2022/440","is_oa":true,"landing_page_url":"https://doi.org/10.24963/ijcai.2022/440","pdf_url":"https://www.ijcai.org/proceedings/2022/0440.pdf","source":{"id":"https://openalex.org/S4363608755","display_name":"Proceedings of the Thirty-First International Joint Conference on Artificial Intelligence","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the Thirty-First International Joint Conference on Artificial Intelligence","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":true,"oa_status":"bronze","oa_url":"https://www.ijcai.org/proceedings/2022/0440.pdf","any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5103019151","display_name":"Hyun-Rok Lee","orcid":"https://orcid.org/0000-0003-3139-2177"},"institutions":[{"id":"https://openalex.org/I185261750","display_name":"University of Toronto","ror":"https://ror.org/03dbr7087","country_code":"CA","type":"education","lineage":["https://openalex.org/I185261750"]},{"id":"https://openalex.org/I191879574","display_name":"Inha University","ror":"https://ror.org/01easw929","country_code":"KR","type":"education","lineage":["https://openalex.org/I191879574"]}],"countries":["CA","KR"],"is_corresponding":false,"raw_author_name":"Hyun-Rok Lee","raw_affiliation_strings":["Inha University","University of Toronto"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Inha University","institution_ids":["https://openalex.org/I191879574"]},{"raw_affiliation_string":"University of Toronto","institution_ids":["https://openalex.org/I185261750"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5104081790","display_name":"Ram Ananth Sreenivasan","orcid":null},"institutions":[{"id":"https://openalex.org/I185261750","display_name":"University of Toronto","ror":"https://ror.org/03dbr7087","country_code":"CA","type":"education","lineage":["https://openalex.org/I185261750"]}],"countries":["CA"],"is_corresponding":false,"raw_author_name":"Ram Ananth Sreenivasan","raw_affiliation_strings":["University of Toronto"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"University of Toronto","institution_ids":["https://openalex.org/I185261750"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5029234470","display_name":"Yeonjeong Jeong","orcid":"https://orcid.org/0000-0002-6255-8179"},"institutions":[{"id":"https://openalex.org/I192455969","display_name":"York University","ror":"https://ror.org/05fq50484","country_code":"CA","type":"education","lineage":["https://openalex.org/I192455969"]}],"countries":["CA"],"is_corresponding":false,"raw_author_name":"Yeonjeong Jeong","raw_affiliation_strings":["LG AI Research","York University"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"LG AI Research","institution_ids":[]},{"raw_affiliation_string":"York University","institution_ids":["https://openalex.org/I192455969"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5101431618","display_name":"Jongseong Jang","orcid":"https://orcid.org/0000-0001-6556-0365"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Jongseong Jang","raw_affiliation_strings":["LG AI Research"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"LG AI Research","institution_ids":[]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5009469335","display_name":"Dongsub Shim","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Dongsub Shim","raw_affiliation_strings":["LG AI Research"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"LG AI Research","institution_ids":[]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5057636084","display_name":"Chi-Guhn Lee","orcid":"https://orcid.org/0000-0002-0916-0241"},"institutions":[{"id":"https://openalex.org/I185261750","display_name":"University of Toronto","ror":"https://ror.org/03dbr7087","country_code":"CA","type":"education","lineage":["https://openalex.org/I185261750"]}],"countries":["CA"],"is_corresponding":false,"raw_author_name":"Chi-Guhn Lee","raw_affiliation_strings":["University of Toronto"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"University of Toronto","institution_ids":["https://openalex.org/I185261750"]}]}],"institutions":[],"countries_distinct_count":2,"institutions_distinct_count":6,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.1038,"has_fulltext":true,"cited_by_count":1,"citation_normalized_percentile":{"value":0.26604824,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":90,"max":94},"biblio":{"volume":null,"issue":null,"first_page":"3171","last_page":"3177"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9995999932289124,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9995999932289124,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11307","display_name":"Domain Adaptation and Few-Shot Learning","score":0.9995999932289124,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.9789999723434448,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7421650290489197},{"id":"https://openalex.org/keywords/task","display_name":"Task (project management)","score":0.6654846668243408},{"id":"https://openalex.org/keywords/quality","display_name":"Quality (philosophy)","score":0.6075562834739685},{"id":"https://openalex.org/keywords/imitation","display_name":"Imitation","score":0.5786895155906677},{"id":"https://openalex.org/keywords/feature","display_name":"Feature (linguistics)","score":0.5719466209411621},{"id":"https://openalex.org/keywords/policy-learning","display_name":"Policy learning","score":0.4921931326389313},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.47757819294929504},{"id":"https://openalex.org/keywords/transfer-of-learning","display_name":"Transfer of learning","score":0.47063466906547546},{"id":"https://openalex.org/keywords/ensemble-learning","display_name":"Ensemble learning","score":0.42270010709762573},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.41593849658966064},{"id":"https://openalex.org/keywords/algorithm","display_name":"Algorithm","score":0.33009910583496094},{"id":"https://openalex.org/keywords/engineering","display_name":"Engineering","score":0.09282049536705017}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7421650290489197},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.6654846668243408},{"id":"https://openalex.org/C2779530757","wikidata":"https://www.wikidata.org/wiki/Q1207505","display_name":"Quality (philosophy)","level":2,"score":0.6075562834739685},{"id":"https://openalex.org/C126388530","wikidata":"https://www.wikidata.org/wiki/Q1131737","display_name":"Imitation","level":2,"score":0.5786895155906677},{"id":"https://openalex.org/C2776401178","wikidata":"https://www.wikidata.org/wiki/Q12050496","display_name":"Feature (linguistics)","level":2,"score":0.5719466209411621},{"id":"https://openalex.org/C2779436431","wikidata":"https://www.wikidata.org/wiki/Q30672407","display_name":"Policy learning","level":2,"score":0.4921931326389313},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.47757819294929504},{"id":"https://openalex.org/C150899416","wikidata":"https://www.wikidata.org/wiki/Q1820378","display_name":"Transfer of learning","level":2,"score":0.47063466906547546},{"id":"https://openalex.org/C45942800","wikidata":"https://www.wikidata.org/wiki/Q245652","display_name":"Ensemble learning","level":2,"score":0.42270010709762573},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.41593849658966064},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.33009910583496094},{"id":"https://openalex.org/C127413603","wikidata":"https://www.wikidata.org/wiki/Q11023","display_name":"Engineering","level":0,"score":0.09282049536705017},{"id":"https://openalex.org/C77805123","wikidata":"https://www.wikidata.org/wiki/Q161272","display_name":"Social psychology","level":1,"score":0.0},{"id":"https://openalex.org/C138885662","wikidata":"https://www.wikidata.org/wiki/Q5891","display_name":"Philosophy","level":0,"score":0.0},{"id":"https://openalex.org/C41895202","wikidata":"https://www.wikidata.org/wiki/Q8162","display_name":"Linguistics","level":1,"score":0.0},{"id":"https://openalex.org/C111472728","wikidata":"https://www.wikidata.org/wiki/Q9471","display_name":"Epistemology","level":1,"score":0.0},{"id":"https://openalex.org/C201995342","wikidata":"https://www.wikidata.org/wiki/Q682496","display_name":"Systems engineering","level":1,"score":0.0},{"id":"https://openalex.org/C15744967","wikidata":"https://www.wikidata.org/wiki/Q9418","display_name":"Psychology","level":0,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.24963/ijcai.2022/440","is_oa":true,"landing_page_url":"https://doi.org/10.24963/ijcai.2022/440","pdf_url":"https://www.ijcai.org/proceedings/2022/0440.pdf","source":{"id":"https://openalex.org/S4363608755","display_name":"Proceedings of the Thirty-First International Joint Conference on Artificial Intelligence","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the Thirty-First International Joint Conference on Artificial Intelligence","raw_type":"proceedings-article"}],"best_oa_location":{"id":"doi:10.24963/ijcai.2022/440","is_oa":true,"landing_page_url":"https://doi.org/10.24963/ijcai.2022/440","pdf_url":"https://www.ijcai.org/proceedings/2022/0440.pdf","source":{"id":"https://openalex.org/S4363608755","display_name":"Proceedings of the Thirty-First International Joint Conference on Artificial Intelligence","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the Thirty-First International Joint Conference on Artificial Intelligence","raw_type":"proceedings-article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":true,"grobid_xml":true},"content_urls":{"pdf":"https://content.openalex.org/works/W4285604500.pdf","grobid_xml":"https://content.openalex.org/works/W4285604500.grobid-xml"},"referenced_works_count":34,"referenced_works":["https://openalex.org/W1771410628","https://openalex.org/W1977023370","https://openalex.org/W2097381042","https://openalex.org/W2105143952","https://openalex.org/W2113953866","https://openalex.org/W2529477964","https://openalex.org/W2595845486","https://openalex.org/W2602963933","https://openalex.org/W2605313204","https://openalex.org/W2785389871","https://openalex.org/W2805762288","https://openalex.org/W2884247313","https://openalex.org/W2890169813","https://openalex.org/W2897345632","https://openalex.org/W2963412383","https://openalex.org/W2968116426","https://openalex.org/W2980550111","https://openalex.org/W2989941044","https://openalex.org/W2996795455","https://openalex.org/W3008076766","https://openalex.org/W3011697356","https://openalex.org/W3035760261","https://openalex.org/W3037277520","https://openalex.org/W3041764008","https://openalex.org/W3097841467","https://openalex.org/W3121989526","https://openalex.org/W3172115140","https://openalex.org/W4287752583","https://openalex.org/W4297824641","https://openalex.org/W4298206671","https://openalex.org/W4394666657","https://openalex.org/W6734827232","https://openalex.org/W6791858558","https://openalex.org/W6864014924"],"related_works":["https://openalex.org/W3183948672","https://openalex.org/W3173606202","https://openalex.org/W3110381201","https://openalex.org/W2948807893","https://openalex.org/W2778153218","https://openalex.org/W2758277628","https://openalex.org/W1531601525","https://openalex.org/W4385398839","https://openalex.org/W4384700341","https://openalex.org/W4394759804"],"abstract_inverted_index":{"We":[0,96],"propose":[1],"a":[2,68,123],"new":[3],"transfer":[4],"learning":[5,32],"algorithm":[6,14,57,103,130],"between":[7],"tasks":[8],"with":[9,67,118,122,146],"different":[10],"dynamics.":[11],"The":[12,40,84],"proposed":[13,102,112],"solves":[15],"an":[16,33],"Imitation":[17],"from":[18],"Observation":[19],"problem":[20],"(IfO)":[21],"to":[22,27,70,133],"ground":[23,71],"the":[24,28,37,46,59,72,98,101,111,129,135,142,147],"source":[25],"environment":[26,73,149],"target":[29,47,126,148],"task":[30,48],"before":[31],"optimal":[34],"policy":[35,42,88,94,120,139],"in":[36,45],"grounded":[38],"environment.":[39],"learned":[41],"is":[43,58,78,89,131],"deployed":[44],"without":[49],"additional":[50],"training.":[51],"A":[52],"particular":[53],"feature":[54],"of":[55,61,86,100,125,137,144],"our":[56],"employment":[60],"multiple":[62],"rollout":[63],"policies":[64],"during":[65],"training":[66],"goal":[69],"more":[74],"globally;":[75],"hence,":[76],"it":[77],"named":[79],"as":[80,141],"Multi-Policy":[81],"Grounding":[82],"(MPG).":[83],"quality":[85,136],"final":[87],"further":[90],"enhanced":[91],"via":[92],"ensemble":[93],"learning.":[95],"demonstrate":[97],"superiority":[99],"analytically":[104],"and":[105],"numerically.":[106],"Numerical":[107],"studies":[108],"show":[109],"that":[110],"multi-policy":[113],"approach":[114,121],"allows":[115],"comparable":[116],"grounding":[117],"single":[119],"fraction":[124],"samples,":[127],"hence":[128],"able":[132],"maintain":[134],"obtained":[138],"even":[140],"number":[143],"interactions":[145],"becomes":[150],"extremely":[151],"small.":[152]},"counts_by_year":[{"year":2023,"cited_by_count":1}],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2025-10-10T00:00:00"}