{"id":"https://openalex.org/W4318604484","doi":"https://doi.org/10.1109/ssci51031.2022.10022174","title":"Exploring Beyond-Demonstrator via Meta Learning-Based Reward Extrapolation","display_name":"Exploring Beyond-Demonstrator via Meta Learning-Based Reward Extrapolation","publication_year":2022,"publication_date":"2022-12-04","ids":{"openalex":"https://openalex.org/W4318604484","doi":"https://doi.org/10.1109/ssci51031.2022.10022174"},"language":"en","primary_location":{"id":"doi:10.1109/ssci51031.2022.10022174","is_oa":false,"landing_page_url":"http://dx.doi.org/10.1109/ssci51031.2022.10022174","pdf_url":null,"source":{"id":"https://openalex.org/S4363605327","display_name":"2022 IEEE Symposium Series on Computational Intelligence (SSCI)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2022 IEEE Symposium Series on Computational Intelligence (SSCI)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5110921988","display_name":"Mingqi Yuan","orcid":null},"institutions":[{"id":"https://openalex.org/I4210099586","display_name":"Shenzhen Research Institute of Big Data","ror":"https://ror.org/00z1gwf89","country_code":"CN","type":"education","lineage":["https://openalex.org/I4210099586"]},{"id":"https://openalex.org/I4210116924","display_name":"Chinese University of Hong Kong, Shenzhen","ror":"https://ror.org/02d5ks197","country_code":"CN","type":"education","lineage":["https://openalex.org/I177725633","https://openalex.org/I180726961","https://openalex.org/I4210116924"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Mingqi Yuan","raw_affiliation_strings":["School of Science and Engineering, The Chinese University of Hong Kong,Shenzhen,China,518172","Shenzhen Research Institute of Big Data, Shenzhen, China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"School of Science and Engineering, The Chinese University of Hong Kong,Shenzhen,China,518172","institution_ids":["https://openalex.org/I4210116924"]},{"raw_affiliation_string":"Shenzhen Research Institute of Big Data, Shenzhen, China","institution_ids":["https://openalex.org/I4210099586"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5040559125","display_name":"Man-On Pun","orcid":"https://orcid.org/0000-0003-3316-5381"},"institutions":[{"id":"https://openalex.org/I4210099586","display_name":"Shenzhen Research Institute of Big Data","ror":"https://ror.org/00z1gwf89","country_code":"CN","type":"education","lineage":["https://openalex.org/I4210099586"]},{"id":"https://openalex.org/I4210116924","display_name":"Chinese University of Hong Kong, Shenzhen","ror":"https://ror.org/02d5ks197","country_code":"CN","type":"education","lineage":["https://openalex.org/I177725633","https://openalex.org/I180726961","https://openalex.org/I4210116924"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Man-on Pun","raw_affiliation_strings":["School of Science and Engineering, The Chinese University of Hong Kong,Shenzhen,China,518172","Shenzhen Research Institute of Big Data, Shenzhen, China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"School of Science and Engineering, The Chinese University of Hong Kong,Shenzhen,China,518172","institution_ids":["https://openalex.org/I4210116924"]},{"raw_affiliation_string":"Shenzhen Research Institute of Big Data, Shenzhen, China","institution_ids":["https://openalex.org/I4210099586"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.20567188,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":"1","issue":null,"first_page":"1545","last_page":"1550"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9976000189781189,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9976000189781189,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Machine Learning","score":0.9937999844551086,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10502","display_name":"Advanced Memory and Neural Computing","score":0.9918000102043152,"subfield":{"id":"https://openalex.org/subfields/2208","display_name":"Electrical and Electronic Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7097734808921814},{"id":"https://openalex.org/keywords/leverage","display_name":"Leverage (statistics)","score":0.6787536144256592},{"id":"https://openalex.org/keywords/extrapolation","display_name":"Extrapolation","score":0.5758947730064392},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.5725851058959961},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.5219240188598633},{"id":"https://openalex.org/keywords/function","display_name":"Function (biology)","score":0.5123687982559204},{"id":"https://openalex.org/keywords/training-set","display_name":"Training set","score":0.49749448895454407},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.11014047265052795}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7097734808921814},{"id":"https://openalex.org/C153083717","wikidata":"https://www.wikidata.org/wiki/Q6535263","display_name":"Leverage (statistics)","level":2,"score":0.6787536144256592},{"id":"https://openalex.org/C132459708","wikidata":"https://www.wikidata.org/wiki/Q744069","display_name":"Extrapolation","level":2,"score":0.5758947730064392},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5725851058959961},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.5219240188598633},{"id":"https://openalex.org/C14036430","wikidata":"https://www.wikidata.org/wiki/Q3736076","display_name":"Function (biology)","level":2,"score":0.5123687982559204},{"id":"https://openalex.org/C51632099","wikidata":"https://www.wikidata.org/wiki/Q3985153","display_name":"Training set","level":2,"score":0.49749448895454407},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.11014047265052795},{"id":"https://openalex.org/C86803240","wikidata":"https://www.wikidata.org/wiki/Q420","display_name":"Biology","level":0,"score":0.0},{"id":"https://openalex.org/C134306372","wikidata":"https://www.wikidata.org/wiki/Q7754","display_name":"Mathematical analysis","level":1,"score":0.0},{"id":"https://openalex.org/C78458016","wikidata":"https://www.wikidata.org/wiki/Q840400","display_name":"Evolutionary biology","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/ssci51031.2022.10022174","is_oa":false,"landing_page_url":"http://dx.doi.org/10.1109/ssci51031.2022.10022174","pdf_url":null,"source":{"id":"https://openalex.org/S4363605327","display_name":"2022 IEEE Symposium Series on Computational Intelligence (SSCI)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2022 IEEE Symposium Series on Computational Intelligence (SSCI)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":12,"referenced_works":["https://openalex.org/W1959608418","https://openalex.org/W2604382266","https://openalex.org/W2736601468","https://openalex.org/W2885550588","https://openalex.org/W2895453875","https://openalex.org/W2949916679","https://openalex.org/W2962937519","https://openalex.org/W3057801323","https://openalex.org/W3093784762","https://openalex.org/W6736057607","https://openalex.org/W6769174716","https://openalex.org/W6779162555"],"related_works":["https://openalex.org/W1968270095","https://openalex.org/W2220129715","https://openalex.org/W4296478327","https://openalex.org/W2042397106","https://openalex.org/W4361730764","https://openalex.org/W1965029248","https://openalex.org/W2333625343","https://openalex.org/W1960072520","https://openalex.org/W2023776155","https://openalex.org/W2387596242"],"abstract_inverted_index":{"Extrapolating":[0],"beyond-demonstrator":[1],"(BD)":[2],"performance":[3,94,163],"through":[4],"the":[5,17,43,113,139,149,157],"imitation":[6],"learning":[7,30],"(IL)":[8],"algorithm":[9],"aims":[10],"to":[11,26,32,59,76,80,167],"learn":[12],"from":[13,37,128],"and":[14,92],"subsequently":[15],"outperform":[16],"demonstrator.":[18],"To":[19,68],"that":[20,133,156],"end,":[21],"a":[22,34,101,129],"representative":[23],"approach":[24],"is":[25,75,174],"leverage":[27],"inverse":[28],"rein-forcement":[29],"(IRL)":[31],"infer":[33],"reward":[35,45,50,105,126,141],"function":[36,127,142],"demon-strations":[38],"before":[39],"performing":[40],"RL":[41],"on":[42],"learned":[44,140],"function.":[46],"However,":[47],"most":[48],"existing":[49],"extrapolation":[51,106],"methods":[52],"require":[53],"massive":[54],"demonstrations,":[55],"making":[56],"it":[57],"difficult":[58],"be":[60,144],"applied":[61],"in":[62],"tasks":[63,132],"of":[64,131,148],"limited":[65,117],"training":[66,84,136],"data.":[67,137],"address":[69],"this":[70,97],"problem,":[71],"one":[72],"simple":[73],"solution":[74],"perform":[77],"data":[78,147],"augmentation":[79],"artificially":[81],"generate":[82],"more":[83],"data,":[85],"which":[86,109],"may":[87],"incur":[88],"severe":[89],"inductive":[90],"bias":[91],"policy":[93],"loss.":[95],"In":[96],"paper,":[98],"we":[99],"propose":[100],"novel":[102],"meta":[103],"learning-based":[104],"(MLRE)":[107],"algorithm,":[108],"can":[110,160],"effectively":[111],"approximate":[112],"ground-truth":[114],"rewards":[115],"using":[116,146],"demonstrations.":[118],"More":[119],"specifically,":[120],"MLRE":[121,159],"first":[122],"learns":[123],"an":[124],"initial":[125],"set":[130],"have":[134],"abundant":[135],"Then":[138],"will":[143],"fine-tuned":[145],"target":[150],"task.":[151],"Extensive":[152],"simulation":[153],"results":[154],"demonstrated":[155],"proposed":[158],"achieve":[161],"impressive":[162],"improvement":[164],"as":[165],"compared":[166],"other":[168],"similar":[169],"BDIL":[170],"algorithms.":[171],"Our":[172],"code":[173],"available":[175],"at":[176],"GitHub<sup>1</sup><sup>1</sup>https://github.com/yuanmingqi/MLRE.":[177]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2025-10-10T00:00:00"}