{"id":"https://openalex.org/W4312762706","doi":"https://doi.org/10.1109/iros47612.2022.9982062","title":"Reasoning about Counterfactuals to Improve Human Inverse Reinforcement Learning","display_name":"Reasoning about Counterfactuals to Improve Human Inverse Reinforcement Learning","publication_year":2022,"publication_date":"2022-10-23","ids":{"openalex":"https://openalex.org/W4312762706","doi":"https://doi.org/10.1109/iros47612.2022.9982062"},"language":"en","primary_location":{"id":"doi:10.1109/iros47612.2022.9982062","is_oa":false,"landing_page_url":"https://doi.org/10.1109/iros47612.2022.9982062","pdf_url":null,"source":{"id":"https://openalex.org/S4363607704","display_name":"2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5102002500","display_name":"Michael S. Lee","orcid":"https://orcid.org/0000-0002-4737-2106"},"institutions":[{"id":"https://openalex.org/I74973139","display_name":"Carnegie Mellon University","ror":"https://ror.org/05x2bcf33","country_code":"US","type":"education","lineage":["https://openalex.org/I74973139"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Michael S. Lee","raw_affiliation_strings":["Robotics Institute at Carnegie Mellon University"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Robotics Institute at Carnegie Mellon University","institution_ids":["https://openalex.org/I74973139"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5061653312","display_name":"Henny Admoni","orcid":"https://orcid.org/0000-0003-1796-2196"},"institutions":[{"id":"https://openalex.org/I74973139","display_name":"Carnegie Mellon University","ror":"https://ror.org/05x2bcf33","country_code":"US","type":"education","lineage":["https://openalex.org/I74973139"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Henny Admoni","raw_affiliation_strings":["Robotics Institute at Carnegie Mellon University"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Robotics Institute at Carnegie Mellon University","institution_ids":["https://openalex.org/I74973139"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5064960456","display_name":"Reid Simmons","orcid":"https://orcid.org/0000-0003-3153-0453"},"institutions":[{"id":"https://openalex.org/I74973139","display_name":"Carnegie Mellon University","ror":"https://ror.org/05x2bcf33","country_code":"US","type":"education","lineage":["https://openalex.org/I74973139"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Reid Simmons","raw_affiliation_strings":["Robotics Institute at Carnegie Mellon University"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Robotics Institute at Carnegie Mellon University","institution_ids":["https://openalex.org/I74973139"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":[],"corresponding_institution_ids":["https://openalex.org/I74973139"],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":4,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"9140","last_page":"9147"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9991000294685364,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9991000294685364,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11975","display_name":"Evolutionary Algorithms and Applications","score":0.991100013256073,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12026","display_name":"Explainable Artificial Intelligence (XAI)","score":0.9889000058174133,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/counterfactual-thinking","display_name":"Counterfactual thinking","score":0.9014476537704468},{"id":"https://openalex.org/keywords/counterfactual-conditional","display_name":"Counterfactual conditional","score":0.8703733682632446},{"id":"https://openalex.org/keywords/robot","display_name":"Robot","score":0.7011837959289551},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.6793503165245056},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.5788022875785828},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.48467376828193665},{"id":"https://openalex.org/keywords/human\u2013computer-interaction","display_name":"Human\u2013computer interaction","score":0.480549156665802},{"id":"https://openalex.org/keywords/measure","display_name":"Measure (data warehouse)","score":0.4776940643787384},{"id":"https://openalex.org/keywords/human\u2013robot-interaction","display_name":"Human\u2013robot interaction","score":0.47744327783584595},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.32365018129348755},{"id":"https://openalex.org/keywords/psychology","display_name":"Psychology","score":0.19137445092201233},{"id":"https://openalex.org/keywords/social-psychology","display_name":"Social psychology","score":0.09061610698699951}],"concepts":[{"id":"https://openalex.org/C108650721","wikidata":"https://www.wikidata.org/wiki/Q1783253","display_name":"Counterfactual thinking","level":2,"score":0.9014476537704468},{"id":"https://openalex.org/C71889745","wikidata":"https://www.wikidata.org/wiki/Q1783264","display_name":"Counterfactual conditional","level":3,"score":0.8703733682632446},{"id":"https://openalex.org/C90509273","wikidata":"https://www.wikidata.org/wiki/Q11012","display_name":"Robot","level":2,"score":0.7011837959289551},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6793503165245056},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5788022875785828},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.48467376828193665},{"id":"https://openalex.org/C107457646","wikidata":"https://www.wikidata.org/wiki/Q207434","display_name":"Human\u2013computer interaction","level":1,"score":0.480549156665802},{"id":"https://openalex.org/C2780009758","wikidata":"https://www.wikidata.org/wiki/Q6804172","display_name":"Measure (data warehouse)","level":2,"score":0.4776940643787384},{"id":"https://openalex.org/C145460709","wikidata":"https://www.wikidata.org/wiki/Q859951","display_name":"Human\u2013robot interaction","level":3,"score":0.47744327783584595},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.32365018129348755},{"id":"https://openalex.org/C15744967","wikidata":"https://www.wikidata.org/wiki/Q9418","display_name":"Psychology","level":0,"score":0.19137445092201233},{"id":"https://openalex.org/C77805123","wikidata":"https://www.wikidata.org/wiki/Q161272","display_name":"Social psychology","level":1,"score":0.09061610698699951},{"id":"https://openalex.org/C77088390","wikidata":"https://www.wikidata.org/wiki/Q8513","display_name":"Database","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/iros47612.2022.9982062","is_oa":false,"landing_page_url":"https://doi.org/10.1109/iros47612.2022.9982062","pdf_url":null,"source":{"id":"https://openalex.org/S4363607704","display_name":"2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[{"score":0.8299999833106995,"display_name":"Peace, Justice and strong institutions","id":"https://metadata.un.org/sdg/16"}],"awards":[{"id":"https://openalex.org/G7953641807","display_name":null,"funder_award_id":"N00014-18-1-2503","funder_id":"https://openalex.org/F4320337345","funder_display_name":"Office of Naval Research"}],"funders":[{"id":"https://openalex.org/F4320337345","display_name":"Office of Naval Research","ror":"https://ror.org/00rk2pe57"}],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":28,"referenced_works":["https://openalex.org/W1591675293","https://openalex.org/W1970209023","https://openalex.org/W1999626445","https://openalex.org/W1999874108","https://openalex.org/W2073375062","https://openalex.org/W2098774185","https://openalex.org/W2137966130","https://openalex.org/W2151516755","https://openalex.org/W2327037637","https://openalex.org/W2518932494","https://openalex.org/W2594227402","https://openalex.org/W2783793006","https://openalex.org/W2807807246","https://openalex.org/W2809134166","https://openalex.org/W2897798332","https://openalex.org/W2949693231","https://openalex.org/W2963095307","https://openalex.org/W2963308241","https://openalex.org/W2965912206","https://openalex.org/W2966831185","https://openalex.org/W3094413969","https://openalex.org/W3174286486","https://openalex.org/W4285151373","https://openalex.org/W4312376102","https://openalex.org/W6635261211","https://openalex.org/W6674884181","https://openalex.org/W6747453393","https://openalex.org/W6752087564"],"related_works":["https://openalex.org/W2056582926","https://openalex.org/W3137864021","https://openalex.org/W2162910442","https://openalex.org/W2079879923","https://openalex.org/W4200271736","https://openalex.org/W2104420793","https://openalex.org/W3017854570","https://openalex.org/W2028689793","https://openalex.org/W4313936361","https://openalex.org/W4242448314"],"abstract_inverted_index":{"To":[0],"collaborate":[1],"well":[2,164],"with":[3,165],"robots,":[4],"we":[5],"must":[6],"be":[7],"able":[8],"to":[9,102,144,195],"understand":[10],"their":[11,25,41,75],"decision":[12,81,111],"making.":[13,82],"Humans":[14],"naturally":[15],"infer":[16],"other":[17],"agents'":[18],"beliefs":[19,42,173],"and":[20,43,93,168,174],"desires":[21,44],"by":[22,45],"reasoning":[23],"about":[24],"observable":[26],"behavior":[27,150],"in":[28,151],"a":[29,52,121,134,142,148],"way":[30],"that":[31,48,61,120,126,158],"resembles":[32],"inverse":[33],"reinforcement":[34],"learning":[35],"(IRL).":[36],"Thus,":[37],"robots":[38],"can":[39,123],"convey":[40],"providing":[46,191],"demonstrations":[47,125,178],"are":[49],"informative":[50,57],"for":[51,137,141],"human":[53,117,143,166,172,180],"learner's":[54,66,90,105],"IRL.":[55],"An":[56],"demonstration":[58],"is":[59],"one":[60],"differs":[62],"strongly":[63],"from":[64],"the":[65,70,79,89,104,109,128,139],"expectations":[67],"of":[68,78,108,116,147],"what":[69],"robot":[71,122],"will":[72],"do":[73,96],"given":[74],"current":[76,106],"understanding":[77,107],"robot's":[80,110,149],"However,":[83],"standard":[84],"IRL":[85],"does":[86],"not":[87],"model":[88,115],"existing":[91],"expectations,":[92],"thus":[94],"cannot":[95],"this":[97],"counterfactual":[98],"reasoning.":[99],"We":[100,131],"propose":[101,133],"incorporate":[103],"making":[112],"into":[113],"our":[114,159],"IRL,":[118],"so":[119],"select":[124],"maximize":[127],"human's":[129],"understanding.":[130],"also":[132],"novel":[135],"measure":[136,162],"estimating":[138],"difficulty":[140,161],"predict":[145],"instances":[146],"unseen":[152],"environments.":[153],"A":[154],"user":[155],"study":[156],"finds":[157],"test":[160],"correlates":[163],"performance":[167,181,187],"confidence.":[169],"Interestingly,":[170],"considering":[171],"counterfactuals":[175],"when":[176],"selecting":[177],"decreases":[179],"on":[182,188,193],"easy":[183],"tests,":[184,190],"but":[185],"increases":[186],"difficult":[189],"insight":[192],"how":[194],"best":[196],"utilize":[197],"such":[198],"models.":[199]},"counts_by_year":[{"year":2025,"cited_by_count":2},{"year":2024,"cited_by_count":2}],"updated_date":"2026-07-14T23:27:15.235271","created_date":"2025-10-10T00:00:00"}