{"id":"https://openalex.org/W2928096804","doi":"https://doi.org/10.1109/hri.2019.8673104","title":"Explanation-Based Reward Coaching to Improve Human Performance via Reinforcement Learning","display_name":"Explanation-Based Reward Coaching to Improve Human Performance via Reinforcement Learning","publication_year":2019,"publication_date":"2019-03-01","ids":{"openalex":"https://openalex.org/W2928096804","doi":"https://doi.org/10.1109/hri.2019.8673104","mag":"2928096804"},"language":"en","primary_location":{"id":"doi:10.1109/hri.2019.8673104","is_oa":false,"landing_page_url":"https://doi.org/10.1109/hri.2019.8673104","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2019 14th ACM/IEEE International Conference on Human-Robot Interaction (HRI)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5073625289","display_name":"Aaquib Tabrez","orcid":"https://orcid.org/0000-0002-4622-2894"},"institutions":[{"id":"https://openalex.org/I188538660","display_name":"University of Colorado Boulder","ror":"https://ror.org/02ttsq026","country_code":"US","type":"education","lineage":["https://openalex.org/I188538660"]}],"countries":["US"],"is_corresponding":true,"raw_author_name":"Aaquib Tabrez","raw_affiliation_strings":["University of Colorado Boulder, Boulder, CO"],"affiliations":[{"raw_affiliation_string":"University of Colorado Boulder, Boulder, CO","institution_ids":["https://openalex.org/I188538660"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5086680795","display_name":"Shivendra Agrawal","orcid":"https://orcid.org/0000-0003-1425-9892"},"institutions":[{"id":"https://openalex.org/I188538660","display_name":"University of Colorado Boulder","ror":"https://ror.org/02ttsq026","country_code":"US","type":"education","lineage":["https://openalex.org/I188538660"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Shivendra Agrawal","raw_affiliation_strings":["University of Colorado Boulder, Boulder, CO"],"affiliations":[{"raw_affiliation_string":"University of Colorado Boulder, Boulder, CO","institution_ids":["https://openalex.org/I188538660"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5034950112","display_name":"Bradley Hayes","orcid":"https://orcid.org/0000-0002-0723-1085"},"institutions":[{"id":"https://openalex.org/I188538660","display_name":"University of Colorado Boulder","ror":"https://ror.org/02ttsq026","country_code":"US","type":"education","lineage":["https://openalex.org/I188538660"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Bradley Hayes","raw_affiliation_strings":["University of Colorado Boulder, Boulder, CO"],"affiliations":[{"raw_affiliation_string":"University of Colorado Boulder, Boulder, CO","institution_ids":["https://openalex.org/I188538660"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5073625289"],"corresponding_institution_ids":["https://openalex.org/I188538660"],"apc_list":null,"apc_paid":null,"fwci":9.6742,"has_fulltext":false,"cited_by_count":62,"citation_normalized_percentile":{"value":0.98270333,"is_in_top_1_percent":false,"is_in_top_10_percent":true},"cited_by_percentile_year":{"min":97,"max":99},"biblio":{"volume":null,"issue":null,"first_page":"249","last_page":"257"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10525","display_name":"Human-Automation Interaction and Safety","score":0.989799976348877,"subfield":{"id":"https://openalex.org/subfields/3207","display_name":"Social Psychology"},"field":{"id":"https://openalex.org/fields/32","display_name":"Psychology"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},"topics":[{"id":"https://openalex.org/T10525","display_name":"Human-Automation Interaction and Safety","score":0.989799976348877,"subfield":{"id":"https://openalex.org/subfields/3207","display_name":"Social Psychology"},"field":{"id":"https://openalex.org/fields/32","display_name":"Psychology"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9890999794006348,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10709","display_name":"Social Robot Interaction and HRI","score":0.98580002784729,"subfield":{"id":"https://openalex.org/subfields/3207","display_name":"Social Psychology"},"field":{"id":"https://openalex.org/fields/32","display_name":"Psychology"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7710772752761841},{"id":"https://openalex.org/keywords/intersection","display_name":"Intersection (aeronautics)","score":0.7333800196647644},{"id":"https://openalex.org/keywords/task","display_name":"Task (project management)","score":0.7206640243530273},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7189055681228638},{"id":"https://openalex.org/keywords/process","display_name":"Process (computing)","score":0.633018434047699},{"id":"https://openalex.org/keywords/robot","display_name":"Robot","score":0.5690216422080994},{"id":"https://openalex.org/keywords/coaching","display_name":"Coaching","score":0.5109114050865173},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.4814109802246094},{"id":"https://openalex.org/keywords/human\u2013computer-interaction","display_name":"Human\u2013computer interaction","score":0.466494083404541},{"id":"https://openalex.org/keywords/human\u2013robot-interaction","display_name":"Human\u2013robot interaction","score":0.42669621109962463},{"id":"https://openalex.org/keywords/mechanism","display_name":"Mechanism (biology)","score":0.4168914556503296},{"id":"https://openalex.org/keywords/policy-learning","display_name":"Policy learning","score":0.413848876953125},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.36852288246154785},{"id":"https://openalex.org/keywords/risk-analysis","display_name":"Risk analysis (engineering)","score":0.3231852352619171},{"id":"https://openalex.org/keywords/psychology","display_name":"Psychology","score":0.14468348026275635},{"id":"https://openalex.org/keywords/engineering","display_name":"Engineering","score":0.09640145301818848}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7710772752761841},{"id":"https://openalex.org/C64543145","wikidata":"https://www.wikidata.org/wiki/Q162942","display_name":"Intersection (aeronautics)","level":2,"score":0.7333800196647644},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.7206640243530273},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7189055681228638},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.633018434047699},{"id":"https://openalex.org/C90509273","wikidata":"https://www.wikidata.org/wiki/Q11012","display_name":"Robot","level":2,"score":0.5690216422080994},{"id":"https://openalex.org/C2779363792","wikidata":"https://www.wikidata.org/wiki/Q1104185","display_name":"Coaching","level":2,"score":0.5109114050865173},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.4814109802246094},{"id":"https://openalex.org/C107457646","wikidata":"https://www.wikidata.org/wiki/Q207434","display_name":"Human\u2013computer interaction","level":1,"score":0.466494083404541},{"id":"https://openalex.org/C145460709","wikidata":"https://www.wikidata.org/wiki/Q859951","display_name":"Human\u2013robot interaction","level":3,"score":0.42669621109962463},{"id":"https://openalex.org/C89611455","wikidata":"https://www.wikidata.org/wiki/Q6804646","display_name":"Mechanism (biology)","level":2,"score":0.4168914556503296},{"id":"https://openalex.org/C2779436431","wikidata":"https://www.wikidata.org/wiki/Q30672407","display_name":"Policy learning","level":2,"score":0.413848876953125},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.36852288246154785},{"id":"https://openalex.org/C112930515","wikidata":"https://www.wikidata.org/wiki/Q4389547","display_name":"Risk analysis (engineering)","level":1,"score":0.3231852352619171},{"id":"https://openalex.org/C15744967","wikidata":"https://www.wikidata.org/wiki/Q9418","display_name":"Psychology","level":0,"score":0.14468348026275635},{"id":"https://openalex.org/C127413603","wikidata":"https://www.wikidata.org/wiki/Q11023","display_name":"Engineering","level":0,"score":0.09640145301818848},{"id":"https://openalex.org/C146978453","wikidata":"https://www.wikidata.org/wiki/Q3798668","display_name":"Aerospace engineering","level":1,"score":0.0},{"id":"https://openalex.org/C542102704","wikidata":"https://www.wikidata.org/wiki/Q183257","display_name":"Psychotherapist","level":1,"score":0.0},{"id":"https://openalex.org/C138885662","wikidata":"https://www.wikidata.org/wiki/Q5891","display_name":"Philosophy","level":0,"score":0.0},{"id":"https://openalex.org/C111919701","wikidata":"https://www.wikidata.org/wiki/Q9135","display_name":"Operating system","level":1,"score":0.0},{"id":"https://openalex.org/C201995342","wikidata":"https://www.wikidata.org/wiki/Q682496","display_name":"Systems engineering","level":1,"score":0.0},{"id":"https://openalex.org/C71924100","wikidata":"https://www.wikidata.org/wiki/Q11190","display_name":"Medicine","level":0,"score":0.0},{"id":"https://openalex.org/C111472728","wikidata":"https://www.wikidata.org/wiki/Q9471","display_name":"Epistemology","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/hri.2019.8673104","is_oa":false,"landing_page_url":"https://doi.org/10.1109/hri.2019.8673104","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2019 14th ACM/IEEE International Conference on Human-Robot Interaction (HRI)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":47,"referenced_works":["https://openalex.org/W1541450435","https://openalex.org/W1542774487","https://openalex.org/W1999633780","https://openalex.org/W2017697483","https://openalex.org/W2019267533","https://openalex.org/W2032568497","https://openalex.org/W2061562262","https://openalex.org/W2063594338","https://openalex.org/W2085837954","https://openalex.org/W2092795169","https://openalex.org/W2104980847","https://openalex.org/W2110795172","https://openalex.org/W2144001787","https://openalex.org/W2148564844","https://openalex.org/W2149234824","https://openalex.org/W2161082723","https://openalex.org/W2293700449","https://openalex.org/W2342687497","https://openalex.org/W2399088765","https://openalex.org/W2404588741","https://openalex.org/W2577252425","https://openalex.org/W2583271265","https://openalex.org/W2592031441","https://openalex.org/W2594336441","https://openalex.org/W2763497381","https://openalex.org/W2792089292","https://openalex.org/W2797974826","https://openalex.org/W2902955360","https://openalex.org/W2927819804","https://openalex.org/W2963896264","https://openalex.org/W2965889088","https://openalex.org/W3105843127","https://openalex.org/W4231966580","https://openalex.org/W4246714526","https://openalex.org/W4293522900","https://openalex.org/W4294507164","https://openalex.org/W4299436393","https://openalex.org/W6632679489","https://openalex.org/W6650105374","https://openalex.org/W6675616309","https://openalex.org/W6712964277","https://openalex.org/W6713546108","https://openalex.org/W6751896044","https://openalex.org/W6756945294","https://openalex.org/W6760572394","https://openalex.org/W6766906973","https://openalex.org/W6844977505"],"related_works":["https://openalex.org/W4249854088","https://openalex.org/W2746413784","https://openalex.org/W603502240","https://openalex.org/W2051499216","https://openalex.org/W656132696","https://openalex.org/W4232010708","https://openalex.org/W2748672977","https://openalex.org/W563471364","https://openalex.org/W276138570","https://openalex.org/W4206838062"],"abstract_inverted_index":{"For":[0],"robots":[1],"to":[2,10,50,80,90],"effectively":[3,86],"collaborate":[4],"with":[5,94],"humans,":[6],"it":[7],"is":[8],"critical":[9],"establish":[11],"a":[12,42,57,88,92,95,159],"shared":[13],"mental":[14],"model":[15,52,82,101],"amongst":[16],"teammates.":[17],"In":[18],"the":[19,61,64,67,104,121,151],"case":[20],"of":[21,63,72,106,123,153],"incongruous":[22],"models,":[23],"catastrophic":[24],"failures":[25,110],"may":[26],"occur":[27],"unless":[28],"mitigating":[29],"steps":[30],"are":[31],"taken.":[32],"To":[33],"identify":[34],"and":[35,56,75,127,134,144],"remedy":[36],"these":[37],"potential":[38,70],"issues,":[39],"we":[40],"propose":[41],"novel":[43],"mechanism":[44],"for":[45,140],"enabling":[46],"an":[47],"autonomous":[48],"system":[49],"detect":[51],"disparity":[53],"between":[54],"itself":[55],"human":[58,93,147],"collaborator,":[59],"infer":[60],"source":[62],"disagreement":[65],"within":[66],"model,":[68],"evaluate":[69],"consequences":[71],"this":[73],"error,":[74],"finally,":[76],"provide":[77,91],"human-interpretable":[78],"feedback":[79],"encourage":[81],"correction.":[83],"This":[84,115],"process":[85],"enables":[87],"robot":[89],"policy":[96,156],"update":[97],"based":[98],"on":[99],"perceived":[100],"disparity,":[102],"reducing":[103],"likelihood":[105],"costly":[107],"or":[108],"dangerous":[109],"during":[111],"joint":[112],"task":[113,142],"execution.":[114],"paper":[116],"makes":[117],"two":[118],"contributions":[119],"at":[120],"intersection":[122],"explainable":[124],"AI":[125],"(xAI)":[126],"human-robot":[128],"collaboration:":[129],"1)":[130],"The":[131],"Reward":[132],"Augmentation":[133],"Repair":[135],"through":[136],"Explanation":[137],"(RARE)":[138],"framework":[139],"estimating":[141],"understanding":[143],"2)":[145],"A":[146],"subjects":[148],"study":[149],"illustrating":[150],"effectiveness":[152],"reward":[154],"augmentation-based":[155],"repair":[157],"in":[158],"complex":[160],"collaborative":[161],"task.":[162]},"counts_by_year":[{"year":2026,"cited_by_count":2},{"year":2025,"cited_by_count":5},{"year":2024,"cited_by_count":9},{"year":2023,"cited_by_count":10},{"year":2022,"cited_by_count":11},{"year":2021,"cited_by_count":11},{"year":2020,"cited_by_count":10},{"year":2019,"cited_by_count":4}],"updated_date":"2026-03-13T16:22:10.518609","created_date":"2025-10-10T00:00:00"}