{"id":"https://openalex.org/W7143522574","doi":"https://doi.org/10.48550/arxiv.2603.26467","title":"Addressing Ambiguity in Imitation Learning through Product of Experts based Negative Feedback","display_name":"Addressing Ambiguity in Imitation Learning through Product of Experts based Negative Feedback","publication_year":2026,"publication_date":"2026-03-27","ids":{"openalex":"https://openalex.org/W7143522574","doi":"https://doi.org/10.48550/arxiv.2603.26467"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2603.26467","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.26467","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2603.26467","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5130921969","display_name":"John Bateman","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Bateman, John","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5048789717","display_name":"Andy M. Tyrrell","orcid":"https://orcid.org/0000-0002-8533-2404"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Tyrrell, Andy M.","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5130991607","display_name":"Jihong Zhu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhu, Jihong","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5130921969"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10653","display_name":"Robot Manipulation and Learning","score":0.6276999711990356,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10653","display_name":"Robot Manipulation and Learning","score":0.6276999711990356,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.24169999361038208,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10709","display_name":"Social Robot Interaction and HRI","score":0.03909999877214432,"subfield":{"id":"https://openalex.org/subfields/3207","display_name":"Social Psychology"},"field":{"id":"https://openalex.org/fields/32","display_name":"Psychology"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/ambiguity","display_name":"Ambiguity","score":0.6513000130653381},{"id":"https://openalex.org/keywords/leverage","display_name":"Leverage (statistics)","score":0.6349999904632568},{"id":"https://openalex.org/keywords/robot","display_name":"Robot","score":0.6115999817848206},{"id":"https://openalex.org/keywords/programming-by-demonstration","display_name":"Programming by demonstration","score":0.6015999913215637},{"id":"https://openalex.org/keywords/imitation","display_name":"Imitation","score":0.5164999961853027},{"id":"https://openalex.org/keywords/robotics","display_name":"Robotics","score":0.5034000277519226},{"id":"https://openalex.org/keywords/scheme","display_name":"Scheme (mathematics)","score":0.47769999504089355},{"id":"https://openalex.org/keywords/software","display_name":"Software","score":0.38850000500679016},{"id":"https://openalex.org/keywords/humanoid-robot","display_name":"Humanoid robot","score":0.35280001163482666}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6707000136375427},{"id":"https://openalex.org/C2780522230","wikidata":"https://www.wikidata.org/wiki/Q1140419","display_name":"Ambiguity","level":2,"score":0.6513000130653381},{"id":"https://openalex.org/C153083717","wikidata":"https://www.wikidata.org/wiki/Q6535263","display_name":"Leverage (statistics)","level":2,"score":0.6349999904632568},{"id":"https://openalex.org/C90509273","wikidata":"https://www.wikidata.org/wiki/Q11012","display_name":"Robot","level":2,"score":0.6115999817848206},{"id":"https://openalex.org/C2779038628","wikidata":"https://www.wikidata.org/wiki/Q7248497","display_name":"Programming by demonstration","level":3,"score":0.6015999913215637},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5874999761581421},{"id":"https://openalex.org/C107457646","wikidata":"https://www.wikidata.org/wiki/Q207434","display_name":"Human\u2013computer interaction","level":1,"score":0.5368000268936157},{"id":"https://openalex.org/C126388530","wikidata":"https://www.wikidata.org/wiki/Q1131737","display_name":"Imitation","level":2,"score":0.5164999961853027},{"id":"https://openalex.org/C34413123","wikidata":"https://www.wikidata.org/wiki/Q170978","display_name":"Robotics","level":3,"score":0.5034000277519226},{"id":"https://openalex.org/C77618280","wikidata":"https://www.wikidata.org/wiki/Q1155772","display_name":"Scheme (mathematics)","level":2,"score":0.47769999504089355},{"id":"https://openalex.org/C2777904410","wikidata":"https://www.wikidata.org/wiki/Q7397","display_name":"Software","level":2,"score":0.38850000500679016},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.37790000438690186},{"id":"https://openalex.org/C60692881","wikidata":"https://www.wikidata.org/wiki/Q584529","display_name":"Humanoid robot","level":3,"score":0.35280001163482666},{"id":"https://openalex.org/C90673727","wikidata":"https://www.wikidata.org/wiki/Q901718","display_name":"Product (mathematics)","level":2,"score":0.34540000557899475},{"id":"https://openalex.org/C188888258","wikidata":"https://www.wikidata.org/wiki/Q7353390","display_name":"Robot learning","level":4,"score":0.32499998807907104},{"id":"https://openalex.org/C2775924081","wikidata":"https://www.wikidata.org/wiki/Q55608371","display_name":"Control (management)","level":2,"score":0.32190001010894775},{"id":"https://openalex.org/C19351080","wikidata":"https://www.wikidata.org/wiki/Q1395034","display_name":"New product development","level":2,"score":0.28999999165534973},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.2856000065803528},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.2840000092983246},{"id":"https://openalex.org/C34868163","wikidata":"https://www.wikidata.org/wiki/Q5141211","display_name":"Cognitive imitation","level":3,"score":0.274399995803833},{"id":"https://openalex.org/C2778915421","wikidata":"https://www.wikidata.org/wiki/Q3643177","display_name":"Performance improvement","level":2,"score":0.27239999175071716},{"id":"https://openalex.org/C77967617","wikidata":"https://www.wikidata.org/wiki/Q4677561","display_name":"Active learning (machine learning)","level":2,"score":0.2721000015735626},{"id":"https://openalex.org/C124304363","wikidata":"https://www.wikidata.org/wiki/Q673661","display_name":"Abstraction","level":2,"score":0.2711000144481659},{"id":"https://openalex.org/C145460709","wikidata":"https://www.wikidata.org/wiki/Q859951","display_name":"Human\u2013robot interaction","level":3,"score":0.27000001072883606},{"id":"https://openalex.org/C175154964","wikidata":"https://www.wikidata.org/wiki/Q380077","display_name":"Task analysis","level":3,"score":0.2671999931335449},{"id":"https://openalex.org/C192327766","wikidata":"https://www.wikidata.org/wiki/Q1038799","display_name":"Cognitive robotics","level":3,"score":0.25029999017715454}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2603.26467","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.26467","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2603.26467","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.26467","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Programming":[0],"robots":[1,30],"to":[2,31,84,100,145],"perform":[3,32],"complex":[4],"tasks":[5,33,65],"is":[6,25,43,82,112,182],"often":[7],"difficult":[8],"and":[9,15,20,71,104,166,186],"time":[10,167],"consuming,":[11],"requiring":[12],"expert":[13],"knowledge":[14],"skills":[16],"in":[17,56,132,149,179],"robot":[18],"software":[19],"sometimes":[21],"hardware.":[22],"Imitation":[23],"learning":[24,124],"a":[26,50,93,113,129,136,146,155,170],"method":[27],"for":[28,64,125],"training":[29],"by":[34,49],"leveraging":[35],"human":[36],"expertise":[37],"through":[38,184],"demonstrations.":[39],"Typically,":[40],"the":[41,86],"assumption":[42],"that":[44,60,138],"those":[45],"demonstrations":[46,63,99],"are":[47],"performed":[48],"single,":[51],"highly":[52],"competent":[53],"expert.":[54],"However,":[55],"many":[57],"real-world":[58],"applications":[59],"use":[61],"user":[62,69],"or":[66],"incorporate":[67],"both":[68],"data":[70],"pretrained":[72],"data,":[73],"such":[74],"as":[75,158,160],"home":[76],"robotics":[77],"including":[78],"assistive":[79],"robots,":[80],"this":[81,180],"unlikely":[83],"be":[85],"case.":[87],"This":[88,111],"paper":[89,181],"presents":[90],"research":[91],"towards":[92],"system":[94,115,137],"which":[95,116],"can":[96],"leverage":[97],"suboptimal":[98],"solve":[101],"ambiguous":[102,126],"tasks;":[103],"particularly":[105],"learn":[106],"from":[107],"its":[108],"own":[109],"failures.":[110],"negative-feedback":[114],"achieves":[117],"significant":[118],"improvement":[119,131,148],"over":[120],"purely":[121],"positive":[122],"imitation":[123],"tasks,":[127],"achieving":[128],"90%":[130],"success":[133,150],"rate":[134,151],"against":[135],"does":[139],"not":[140],"utilise":[141],"negative":[142,172],"feedback,":[143],"compared":[144],"50%":[147],"when":[152],"utilised":[153],"on":[154],"real":[156],"robot,":[157],"well":[159],"demonstrating":[161],"higher":[162],"efficacy,":[163],"memory":[164],"efficiency":[165,168],"than":[169],"comparable":[171],"feedback":[173],"scheme.":[174],"The":[175],"novel":[176],"scheme":[177],"presented":[178],"validated":[183],"simulated":[185],"real-robot":[187],"experiments.":[188]},"counts_by_year":[],"updated_date":"2026-05-05T08:41:31.759640","created_date":"2026-03-31T00:00:00"}