{"id":"https://openalex.org/W4306317653","doi":"https://doi.org/10.1145/3511808.3557616","title":"Improving Imitation Learning by Merging Experts Trajectories","display_name":"Improving Imitation Learning by Merging Experts Trajectories","publication_year":2022,"publication_date":"2022-10-16","ids":{"openalex":"https://openalex.org/W4306317653","doi":"https://doi.org/10.1145/3511808.3557616"},"language":"en","primary_location":{"id":"doi:10.1145/3511808.3557616","is_oa":false,"landing_page_url":"https://doi.org/10.1145/3511808.3557616","pdf_url":null,"source":{"id":"https://openalex.org/S4363608762","display_name":"Proceedings of the 31st ACM International Conference on Information &amp; Knowledge Management","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 31st ACM International Conference on Information &amp; Knowledge Management","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5027553821","display_name":"Pegah Alizadeh","orcid":"https://orcid.org/0000-0002-7231-5840"},"institutions":[{"id":"https://openalex.org/I1294671590","display_name":"Centre National de la Recherche Scientifique","ror":"https://ror.org/02feahw73","country_code":"FR","type":"government","lineage":["https://openalex.org/I1294671590"]},{"id":"https://openalex.org/I39804081","display_name":"Sorbonne Universit\u00e9","ror":"https://ror.org/02en5vm52","country_code":"FR","type":"education","lineage":["https://openalex.org/I39804081"]},{"id":"https://openalex.org/I4210091279","display_name":"Universit\u00e9 Sorbonne Paris Nord","ror":"https://ror.org/0199hds37","country_code":"FR","type":"education","lineage":["https://openalex.org/I4210091279"]},{"id":"https://openalex.org/I4210156583","display_name":"Laboratoire d'Informatique de Paris-Nord","ror":"https://ror.org/05g1zjw44","country_code":"FR","type":"facility","lineage":["https://openalex.org/I1294671590","https://openalex.org/I1294671590","https://openalex.org/I4210091279","https://openalex.org/I4210156583","https://openalex.org/I4210159245"]}],"countries":["FR"],"is_corresponding":false,"raw_author_name":"Pegah Alizadeh","raw_affiliation_strings":["LIPN, UMR CNRS 7030, Universit\u00e9 Sorbonne Paris Nord, Villetaneuse, France"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"LIPN, UMR CNRS 7030, Universit\u00e9 Sorbonne Paris Nord, Villetaneuse, France","institution_ids":["https://openalex.org/I39804081","https://openalex.org/I4210156583","https://openalex.org/I1294671590","https://openalex.org/I4210091279"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5002599627","display_name":"Aomar Osmani","orcid":"https://orcid.org/0000-0002-1778-6527"},"institutions":[{"id":"https://openalex.org/I1294671590","display_name":"Centre National de la Recherche Scientifique","ror":"https://ror.org/02feahw73","country_code":"FR","type":"government","lineage":["https://openalex.org/I1294671590"]},{"id":"https://openalex.org/I39804081","display_name":"Sorbonne Universit\u00e9","ror":"https://ror.org/02en5vm52","country_code":"FR","type":"education","lineage":["https://openalex.org/I39804081"]},{"id":"https://openalex.org/I4210091279","display_name":"Universit\u00e9 Sorbonne Paris Nord","ror":"https://ror.org/0199hds37","country_code":"FR","type":"education","lineage":["https://openalex.org/I4210091279"]},{"id":"https://openalex.org/I4210156583","display_name":"Laboratoire d'Informatique de Paris-Nord","ror":"https://ror.org/05g1zjw44","country_code":"FR","type":"facility","lineage":["https://openalex.org/I1294671590","https://openalex.org/I1294671590","https://openalex.org/I4210091279","https://openalex.org/I4210156583","https://openalex.org/I4210159245"]}],"countries":["FR"],"is_corresponding":false,"raw_author_name":"Aomar Osmani","raw_affiliation_strings":["LIPN, UMR CNRS 7030, Universit\u00e9 Sorbonne Paris Nord, Villetaneuse, France"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"LIPN, UMR CNRS 7030, Universit\u00e9 Sorbonne Paris Nord, Villetaneuse, France","institution_ids":["https://openalex.org/I39804081","https://openalex.org/I4210156583","https://openalex.org/I1294671590","https://openalex.org/I4210091279"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5080532390","display_name":"Sammy Taleb","orcid":null},"institutions":[{"id":"https://openalex.org/I4210121459","display_name":"P\u00f4le L\u00e9onard de Vinci","ror":"https://ror.org/02setav13","country_code":"FR","type":"education","lineage":["https://openalex.org/I4210121459"]}],"countries":["FR"],"is_corresponding":false,"raw_author_name":"Sammy Taleb","raw_affiliation_strings":["L\u00e9onard De Vinci P\u00f4le Universitaire, Research Center, Paris, La D\u00e9fense, France"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"L\u00e9onard De Vinci P\u00f4le Universitaire, Research Center, Paris, La D\u00e9fense, France","institution_ids":["https://openalex.org/I4210121459"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":3,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.09980833,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"3796","last_page":"3800"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10812","display_name":"Human Pose and Action Recognition","score":0.9995999932289124,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10812","display_name":"Human Pose and Action Recognition","score":0.9995999932289124,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.9986000061035156,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9937000274658203,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7353370189666748},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7269614338874817},{"id":"https://openalex.org/keywords/encoder","display_name":"Encoder","score":0.6470648050308228},{"id":"https://openalex.org/keywords/trajectory","display_name":"Trajectory","score":0.575696587562561},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.5526450872421265},{"id":"https://openalex.org/keywords/cluster-analysis","display_name":"Cluster analysis","score":0.4931609034538269},{"id":"https://openalex.org/keywords/source-code","display_name":"Source code","score":0.46133267879486084},{"id":"https://openalex.org/keywords/bellman-equation","display_name":"Bellman equation","score":0.45141270756721497},{"id":"https://openalex.org/keywords/representation","display_name":"Representation (politics)","score":0.4503915011882782},{"id":"https://openalex.org/keywords/state-space","display_name":"State space","score":0.43666404485702515},{"id":"https://openalex.org/keywords/code","display_name":"Code (set theory)","score":0.4121493101119995},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.3837161958217621},{"id":"https://openalex.org/keywords/algorithm","display_name":"Algorithm","score":0.3360046148300171},{"id":"https://openalex.org/keywords/mathematical-optimization","display_name":"Mathematical optimization","score":0.2890368700027466},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.16682365536689758}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7353370189666748},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7269614338874817},{"id":"https://openalex.org/C118505674","wikidata":"https://www.wikidata.org/wiki/Q42586063","display_name":"Encoder","level":2,"score":0.6470648050308228},{"id":"https://openalex.org/C13662910","wikidata":"https://www.wikidata.org/wiki/Q193139","display_name":"Trajectory","level":2,"score":0.575696587562561},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5526450872421265},{"id":"https://openalex.org/C73555534","wikidata":"https://www.wikidata.org/wiki/Q622825","display_name":"Cluster analysis","level":2,"score":0.4931609034538269},{"id":"https://openalex.org/C43126263","wikidata":"https://www.wikidata.org/wiki/Q128751","display_name":"Source code","level":2,"score":0.46133267879486084},{"id":"https://openalex.org/C14646407","wikidata":"https://www.wikidata.org/wiki/Q1430750","display_name":"Bellman equation","level":2,"score":0.45141270756721497},{"id":"https://openalex.org/C2776359362","wikidata":"https://www.wikidata.org/wiki/Q2145286","display_name":"Representation (politics)","level":3,"score":0.4503915011882782},{"id":"https://openalex.org/C72434380","wikidata":"https://www.wikidata.org/wiki/Q230930","display_name":"State space","level":2,"score":0.43666404485702515},{"id":"https://openalex.org/C2776760102","wikidata":"https://www.wikidata.org/wiki/Q5139990","display_name":"Code (set theory)","level":3,"score":0.4121493101119995},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.3837161958217621},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.3360046148300171},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.2890368700027466},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.16682365536689758},{"id":"https://openalex.org/C94625758","wikidata":"https://www.wikidata.org/wiki/Q7163","display_name":"Politics","level":2,"score":0.0},{"id":"https://openalex.org/C111919701","wikidata":"https://www.wikidata.org/wiki/Q9135","display_name":"Operating system","level":1,"score":0.0},{"id":"https://openalex.org/C105795698","wikidata":"https://www.wikidata.org/wiki/Q12483","display_name":"Statistics","level":1,"score":0.0},{"id":"https://openalex.org/C1276947","wikidata":"https://www.wikidata.org/wiki/Q333","display_name":"Astronomy","level":1,"score":0.0},{"id":"https://openalex.org/C199360897","wikidata":"https://www.wikidata.org/wiki/Q9143","display_name":"Programming language","level":1,"score":0.0},{"id":"https://openalex.org/C17744445","wikidata":"https://www.wikidata.org/wiki/Q36442","display_name":"Political science","level":0,"score":0.0},{"id":"https://openalex.org/C121332964","wikidata":"https://www.wikidata.org/wiki/Q413","display_name":"Physics","level":0,"score":0.0},{"id":"https://openalex.org/C199539241","wikidata":"https://www.wikidata.org/wiki/Q7748","display_name":"Law","level":1,"score":0.0},{"id":"https://openalex.org/C177264268","wikidata":"https://www.wikidata.org/wiki/Q1514741","display_name":"Set (abstract data type)","level":2,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1145/3511808.3557616","is_oa":false,"landing_page_url":"https://doi.org/10.1145/3511808.3557616","pdf_url":null,"source":{"id":"https://openalex.org/S4363608762","display_name":"Proceedings of the 31st ACM International Conference on Information &amp; Knowledge Management","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the 31st ACM International Conference on Information &amp; Knowledge Management","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[{"display_name":"Zero hunger","id":"https://metadata.un.org/sdg/2","score":0.4099999964237213}],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":8,"referenced_works":["https://openalex.org/W757745030","https://openalex.org/W2307770531","https://openalex.org/W2604382266","https://openalex.org/W2907916537","https://openalex.org/W3173335889","https://openalex.org/W3204633953","https://openalex.org/W4231029117","https://openalex.org/W4298023569"],"related_works":["https://openalex.org/W2386410636","https://openalex.org/W2025663273","https://openalex.org/W3038962357","https://openalex.org/W4225571923","https://openalex.org/W3212257828","https://openalex.org/W2999580272","https://openalex.org/W4313679781","https://openalex.org/W3099153698","https://openalex.org/W4297873223","https://openalex.org/W2350784623"],"abstract_inverted_index":{"This":[0],"paper":[1],"proposes":[2],"an":[3,60,101,129],"original":[4],"approach":[5,45,69],"based":[6,24],"on":[7,25,159,170,183],"expert":[8,54],"trajectories":[9,55,123,177],"combination":[10,22],"and":[11,34,56,70,78,81,128],"Deep":[12],"Reinforcement":[13],"Learning":[14],"to":[15,46,58,74,112,179],"provide":[16],"a":[17,48],"better":[18,49],"MineCraft":[19,185],"player.":[20],"The":[21,63,156,187],"is":[23,31,191],"the":[26,29,35,87,90,105,115,125,135,139,146,149,154,167,171,184],"idea":[27],"that":[28,165],"problem":[30],"naturally":[32],"decomposable":[33],"search":[36],"space":[37,83,98],"presents":[38],"large":[39],"plateaus.":[40],"We":[41],"use":[42],"two":[43],"steps":[44],"build":[47,145],"trajectory":[50,140],"from":[51],"all":[52],"existed":[53],"consequently":[57],"extract":[59],"optimal":[61],"policy.":[62],"first":[64,109],"step":[65],"uses":[66],"Birch":[67],"clustering":[68],"images":[71,96],"cosine":[72],"similarity":[73],"obtain":[75],"compact":[76,142],"representation":[77],"substantial":[79],"state":[80],"action":[82],"reduction.":[84],"To":[85],"reduce":[86],"overall":[88],"complexity,":[89],"image":[91],"distances":[92],"are":[93],"computed":[94],"in":[95],"latent":[97],"trained":[99],"by":[100],"encoder-decoder":[102],"model.":[103],"In":[104],"second":[106],"step,":[107],"we":[108,121,144],"eliminate":[110],"plateaus":[111],"keep":[113],"only":[114],"nodes":[116],"with":[117],"non-zero":[118],"rewards":[119],"then":[120],"compare":[122],"using":[124],"Bellman":[126],"equation":[127],"appropriate":[130],"value":[131],"function.":[132],"By":[133],"checking":[134],"incremental":[136],"compatibility":[137],"of":[138,141,153,176],"representations,":[143],"solution":[147],"combining":[148],"best":[150],"compatible":[151],"sub-trajectories":[152],"experts.":[155],"experimental":[157],"results":[158],"NeurIPS":[160],"MineRL":[161],"2020":[162],"challenge":[163],"show":[164],"training":[166],"actors":[168],"model":[169],"most":[172],"rewarding":[173],"extracted":[174],"subset":[175],"leads":[178],"achieve":[180],"state-of-the-art":[181],"performances":[182],"environment.":[186],"paper's":[188],"source":[189],"code":[190],"available":[192],"here:":[193],"https://github.com/thomJeffDoe/CompareTrajectories.":[194]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2025-10-10T00:00:00"}