{"id":"https://openalex.org/W4405785262","doi":"https://doi.org/10.1109/iros58592.2024.10802715","title":"Towards Accurate And Robust Dynamics and Reward Modeling for Model-Based Offline Inverse Reinforcement Learning","display_name":"Towards Accurate And Robust Dynamics and Reward Modeling for Model-Based Offline Inverse Reinforcement Learning","publication_year":2024,"publication_date":"2024-10-14","ids":{"openalex":"https://openalex.org/W4405785262","doi":"https://doi.org/10.1109/iros58592.2024.10802715"},"language":"en","primary_location":{"id":"doi:10.1109/iros58592.2024.10802715","is_oa":false,"landing_page_url":"https://doi.org/10.1109/iros58592.2024.10802715","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2024 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5115648093","display_name":"Gengyu Zhang","orcid":null},"institutions":[{"id":"https://openalex.org/I39422238","display_name":"University of Illinois Chicago","ror":"https://ror.org/02mpq6x41","country_code":"US","type":"education","lineage":["https://openalex.org/I39422238"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Gengyu Zhang","raw_affiliation_strings":["University of Illinois,Department of Computer Science,Chicago,IL,USA"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"University of Illinois,Department of Computer Science,Chicago,IL,USA","institution_ids":["https://openalex.org/I39422238"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5100395068","display_name":"Yan Yan","orcid":"https://orcid.org/0000-0002-5917-1475"},"institutions":[{"id":"https://openalex.org/I39422238","display_name":"University of Illinois Chicago","ror":"https://ror.org/02mpq6x41","country_code":"US","type":"education","lineage":["https://openalex.org/I39422238"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Yan Yan","raw_affiliation_strings":["University of Illinois,Department of Computer Science,Chicago,IL,USA"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"University of Illinois,Department of Computer Science,Chicago,IL,USA","institution_ids":["https://openalex.org/I39422238"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":[],"corresponding_institution_ids":["https://openalex.org/I39422238"],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":1,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"611","last_page":"618"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9258000254631042,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9258000254631042,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7561256289482117},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.6987590193748474},{"id":"https://openalex.org/keywords/dynamics","display_name":"Dynamics (music)","score":0.6118125915527344},{"id":"https://openalex.org/keywords/inverse-dynamics","display_name":"Inverse dynamics","score":0.591241180896759},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.49612435698509216},{"id":"https://openalex.org/keywords/inverse","display_name":"Inverse","score":0.4166833162307739},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.3841761350631714},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.14097818732261658},{"id":"https://openalex.org/keywords/psychology","display_name":"Psychology","score":0.10689049959182739}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7561256289482117},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6987590193748474},{"id":"https://openalex.org/C145912823","wikidata":"https://www.wikidata.org/wiki/Q113558","display_name":"Dynamics (music)","level":2,"score":0.6118125915527344},{"id":"https://openalex.org/C187523126","wikidata":"https://www.wikidata.org/wiki/Q17098330","display_name":"Inverse dynamics","level":3,"score":0.591241180896759},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.49612435698509216},{"id":"https://openalex.org/C207467116","wikidata":"https://www.wikidata.org/wiki/Q4385666","display_name":"Inverse","level":2,"score":0.4166833162307739},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.3841761350631714},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.14097818732261658},{"id":"https://openalex.org/C15744967","wikidata":"https://www.wikidata.org/wiki/Q9418","display_name":"Psychology","level":0,"score":0.10689049959182739},{"id":"https://openalex.org/C2524010","wikidata":"https://www.wikidata.org/wiki/Q8087","display_name":"Geometry","level":1,"score":0.0},{"id":"https://openalex.org/C121332964","wikidata":"https://www.wikidata.org/wiki/Q413","display_name":"Physics","level":0,"score":0.0},{"id":"https://openalex.org/C19417346","wikidata":"https://www.wikidata.org/wiki/Q7922","display_name":"Pedagogy","level":1,"score":0.0},{"id":"https://openalex.org/C39920418","wikidata":"https://www.wikidata.org/wiki/Q11476","display_name":"Kinematics","level":2,"score":0.0},{"id":"https://openalex.org/C74650414","wikidata":"https://www.wikidata.org/wiki/Q11397","display_name":"Classical mechanics","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/iros58592.2024.10802715","is_oa":false,"landing_page_url":"https://doi.org/10.1109/iros58592.2024.10802715","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2024 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":28,"referenced_works":["https://openalex.org/W1999874108","https://openalex.org/W2013035813","https://openalex.org/W2061240738","https://openalex.org/W2062525454","https://openalex.org/W2158782408","https://openalex.org/W2162531249","https://openalex.org/W3009702296","https://openalex.org/W3120930765","https://openalex.org/W3138984732","https://openalex.org/W4221041364","https://openalex.org/W4235646468","https://openalex.org/W6640963894","https://openalex.org/W6674884181","https://openalex.org/W6679045638","https://openalex.org/W6684809622","https://openalex.org/W6734517396","https://openalex.org/W6747473740","https://openalex.org/W6765775151","https://openalex.org/W6767996718","https://openalex.org/W6776601253","https://openalex.org/W6777091672","https://openalex.org/W6777656069","https://openalex.org/W6779823529","https://openalex.org/W6784212503","https://openalex.org/W6786375611","https://openalex.org/W6791413555","https://openalex.org/W6838452192","https://openalex.org/W6849708406"],"related_works":["https://openalex.org/W4306904969","https://openalex.org/W400207537","https://openalex.org/W1487930919","https://openalex.org/W1974966543","https://openalex.org/W2550974801","https://openalex.org/W2218699221","https://openalex.org/W4205272379","https://openalex.org/W1519970984","https://openalex.org/W4285133152","https://openalex.org/W2184783674"],"abstract_inverted_index":{"This":[0,114,167],"paper":[1],"enhances":[2],"model-based":[3],"offline":[4,229],"inverse":[5],"reinforcement":[6],"learning":[7,175,237],"(IRL)":[8],"by":[9,156,231],"refining":[10],"conservative":[11],"Markov":[12],"decision":[13],"process":[14],"(MDP)":[15],"frameworks,":[16],"traditionally":[17],"employing":[18],"uncertainty":[19,40,78,139],"penalties":[20],"to":[21,34,53,81],"deter":[22],"exploitation":[23],"in":[24,62,141,216,228],"uncertain":[25],"areas.":[26],"Existing":[27],"methods,":[28],"dependent":[29],"on":[30,192],"neural":[31],"network":[32],"ensembles":[33],"model":[35],"MDP":[36],"dynamics":[37],"and":[38,68,149,183,235],"quantify":[39],"through":[41],"ensemble":[42,58,214],"prediction":[43],"heuristics,":[44],"face":[45],"limitations:":[46],"they":[47],"presume":[48],"Gaussian-distributed":[49],"state":[50],"transitions,":[51],"leading":[52],"simplified":[54],"environmental":[55,84],"representations.":[56],"Additionally,":[57],"modeling":[59,135],"often":[60],"results":[61],"high":[63],"variance,":[64],"indicating":[65],"potential":[66],"overfitting":[67],"a":[69,158,225],"lack":[70],"of":[71,120,133,180,221],"generalizability.":[72],"Moreover,":[73],"the":[74,118,131,164,173,178,222,233],"heuristic":[75],"reliance":[76],"for":[77,90,111],"quantification":[79,140],"struggles":[80],"fully":[82],"grasp":[83],"complexities,":[85],"offering":[86],"an":[87],"incomplete":[88],"foundation":[89],"informed":[91],"decisions.":[92],"Maintaining":[93],"multiple":[94],"models":[95,110],"also":[96,137,211],"demands":[97],"substantial":[98],"computational":[99],"resources.":[100],"Addressing":[101],"these":[102],"shortcomings,":[103],"we":[104],"propose":[105],"leveraging":[106],"score-based":[107],"diffusion":[108,142],"generative":[109],"dynamic":[112],"modeling.":[113],"method":[115],"significantly":[116],"broadens":[117],"scope":[119],"representable":[121],"target":[122],"distributions,":[123],"surpassing":[124],"Gaussian":[125],"constraints.":[126],"It":[127],"not":[128,203],"only":[129,204],"improves":[130],"accuracy":[132],"transition":[134,159,181,208],"but":[136,210],"roots":[138],"models\u2019":[143],"theoretical":[144],"underpinnings,":[145],"enabling":[146],"more":[147,185,206],"precise":[148],"dependable":[150],"reward":[151,165,174,234],"regularization.":[152],"We":[153],"further":[154],"innovate":[155],"incorporating":[157],"stability":[160,171],"regularizer":[161],"(TSR)":[162],"into":[163,172],"estimation.":[166],"novel":[168],"element":[169],"embeds":[170],"process,":[176],"diminishing":[177],"influence":[179],"variability":[182],"promoting":[184],"consistent":[186],"policy":[187,217,236],"optimization.":[188],"Our":[189],"empirical":[190],"studies":[191],"diverse":[193],"Mujoco":[194],"robotic":[195],"control":[196],"tasks":[197],"demonstrate":[198],"that":[199],"our":[200],"diffusion-based":[201],"methodology":[202],"furnishes":[205],"accurate":[207],"estimations":[209],"surpasses":[212],"conventional":[213],"approaches":[215],"effectiveness.":[218],"The":[219],"addition":[220],"TSR":[223],"marks":[224],"distinctive":[226],"advancement":[227],"IRL":[230],"enhancing":[232],"efficacy.":[238],"Code:":[239],"https://github.com/GabrielZH/doc-irl.":[240]},"counts_by_year":[{"year":2025,"cited_by_count":1}],"updated_date":"2026-07-14T23:27:15.235271","created_date":"2025-10-10T00:00:00"}