{"id":"https://openalex.org/W4403487451","doi":"https://doi.org/10.3233/faia240808","title":"Offline Model-Based Reinforcement Learning with Anti-Exploration","display_name":"Offline Model-Based Reinforcement Learning with Anti-Exploration","publication_year":2024,"publication_date":"2024-10-16","ids":{"openalex":"https://openalex.org/W4403487451","doi":"https://doi.org/10.3233/faia240808"},"language":"en","primary_location":{"id":"doi:10.3233/faia240808","is_oa":true,"landing_page_url":"https://doi.org/10.3233/faia240808","pdf_url":"https://ebooks.iospress.nl/pdf/doi/10.3233/FAIA240808","source":{"id":"https://openalex.org/S4210201731","display_name":"Frontiers in artificial intelligence and applications","issn_l":"0922-6389","issn":["0922-6389","1879-8314"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"journal"},"license":"cc-by-nc","license_id":"https://openalex.org/licenses/cc-by-nc","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Frontiers in Artificial Intelligence and Applications","raw_type":"book-chapter"},"type":"book-chapter","indexed_in":["crossref"],"open_access":{"is_oa":true,"oa_status":"hybrid","oa_url":"https://ebooks.iospress.nl/pdf/doi/10.3233/FAIA240808","any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5032730333","display_name":"Padmanaba Srinivasan","orcid":null},"institutions":[{"id":"https://openalex.org/I47508984","display_name":"Imperial College London","ror":"https://ror.org/041kmwe10","country_code":"GB","type":"education","lineage":["https://openalex.org/I47508984"]}],"countries":["GB"],"is_corresponding":false,"raw_author_name":"Padmanaba Srinivasan","raw_affiliation_strings":["Department of Computing, Imperial College London"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Department of Computing, Imperial College London","institution_ids":["https://openalex.org/I47508984"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5050119476","display_name":"William J. Knottenbelt","orcid":"https://orcid.org/0000-0002-8490-1011"},"institutions":[{"id":"https://openalex.org/I47508984","display_name":"Imperial College London","ror":"https://ror.org/041kmwe10","country_code":"GB","type":"education","lineage":["https://openalex.org/I47508984"]}],"countries":["GB"],"is_corresponding":false,"raw_author_name":"William Knottenbelt","raw_affiliation_strings":["Department of Computing, Imperial College London"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Department of Computing, Imperial College London","institution_ids":["https://openalex.org/I47508984"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":[],"corresponding_institution_ids":["https://openalex.org/I47508984"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.35937864,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9721999764442444,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9721999764442444,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11801","display_name":"Reservoir Engineering and Simulation Methods","score":0.939300000667572,"subfield":{"id":"https://openalex.org/subfields/2212","display_name":"Ocean Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10586","display_name":"Robotic Path Planning Algorithms","score":0.9359999895095825,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7533856630325317},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.5382430553436279},{"id":"https://openalex.org/keywords/reinforcement","display_name":"Reinforcement","score":0.49565088748931885},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.36639177799224854},{"id":"https://openalex.org/keywords/psychology","display_name":"Psychology","score":0.23265406489372253},{"id":"https://openalex.org/keywords/social-psychology","display_name":"Social psychology","score":0.05236786603927612}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7533856630325317},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.5382430553436279},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.49565088748931885},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.36639177799224854},{"id":"https://openalex.org/C15744967","wikidata":"https://www.wikidata.org/wiki/Q9418","display_name":"Psychology","level":0,"score":0.23265406489372253},{"id":"https://openalex.org/C77805123","wikidata":"https://www.wikidata.org/wiki/Q161272","display_name":"Social psychology","level":1,"score":0.05236786603927612}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.3233/faia240808","is_oa":true,"landing_page_url":"https://doi.org/10.3233/faia240808","pdf_url":"https://ebooks.iospress.nl/pdf/doi/10.3233/FAIA240808","source":{"id":"https://openalex.org/S4210201731","display_name":"Frontiers in artificial intelligence and applications","issn_l":"0922-6389","issn":["0922-6389","1879-8314"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"journal"},"license":"cc-by-nc","license_id":"https://openalex.org/licenses/cc-by-nc","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Frontiers in Artificial Intelligence and Applications","raw_type":"book-chapter"}],"best_oa_location":{"id":"doi:10.3233/faia240808","is_oa":true,"landing_page_url":"https://doi.org/10.3233/faia240808","pdf_url":"https://ebooks.iospress.nl/pdf/doi/10.3233/FAIA240808","source":{"id":"https://openalex.org/S4210201731","display_name":"Frontiers in artificial intelligence and applications","issn_l":"0922-6389","issn":["0922-6389","1879-8314"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"journal"},"license":"cc-by-nc","license_id":"https://openalex.org/licenses/cc-by-nc","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Frontiers in Artificial Intelligence and Applications","raw_type":"book-chapter"},"sustainable_development_goals":[{"score":0.4399999976158142,"display_name":"Peace, Justice and strong institutions","id":"https://metadata.un.org/sdg/16"}],"awards":[],"funders":[],"has_content":{"pdf":true,"grobid_xml":false},"content_urls":{"pdf":"https://content.openalex.org/works/W4403487451.pdf"},"referenced_works_count":0,"referenced_works":[],"related_works":["https://openalex.org/W4391375266","https://openalex.org/W2899084033","https://openalex.org/W2748952813","https://openalex.org/W4310083477","https://openalex.org/W2328553770","https://openalex.org/W2920061524","https://openalex.org/W1977959518","https://openalex.org/W2038908348","https://openalex.org/W2107890255","https://openalex.org/W2106552856"],"abstract_inverted_index":{"Model-based":[0,110],"reinforcement":[1,31],"learning":[2,32],"(MBRL)":[3],"algorithms":[4],"learn":[5],"a":[6,178,184],"dynamics":[7,60],"model":[8,68],"from":[9,80,86],"collected":[10],"data":[11,35],"and":[12,48,69,131,136,147,201,206,212],"apply":[13],"it":[14,94],"to":[15,19,43,52,62,70,96,124,145,171,187],"generate":[16],"synthetic":[17,189],"trajectories":[18],"enable":[20],"faster":[21],"learning.":[22],"This":[23],"is":[24],"an":[25,168],"especially":[26],"promising":[27],"paradigm":[28,118],"in":[29,39,41,46,77,91,120,175],"offline":[30,53,111,121,165],"(RL)":[33],"where":[34],"may":[36],"be":[37,143],"limited":[38],"quantity,":[40],"addition":[42],"being":[44],"deficient":[45],"coverage":[47],"quality.":[49],"Practical":[50],"approaches":[51],"MBRL":[54,166],"usually":[55],"rely":[56],"on":[57,215],"ensembles":[58,87],"of":[59,65,134,218],"models":[61],"prevent":[63],"exploitation":[64],"any":[66],"individual":[67],"extract":[71],"uncertainty":[72,155],"estimates":[73,85],"that":[74,191,198],"penalize":[75],"values":[76],"states":[78,152],"far":[79],"the":[81,116,125,139,158,207,216],"dataset":[82],"support.":[83],"Uncertainty":[84],"can":[88,142],"vary":[89],"greatly":[90],"scale,":[92],"making":[93],"challenging":[95],"generalize":[97],"hyperparameters":[98],"well":[99,182],"across":[100],"even":[101],"similar":[102],"tasks.":[103],"In":[104],"this":[105],"paper,":[106],"we":[107,196],"present":[108],"Morse":[109],"RL":[112,123],"(MoMo),":[113],"which":[114],"extends":[115],"anti-exploration":[117,169],"found":[119],"model-free":[122,130,140,200,213],"model-based":[126,132,202,211],"space.":[127],"We":[128],"develop":[129],"variants":[133],"MoMo":[135,163,203],"show":[137],"how":[138],"version":[141],"extended":[144],"detect":[146],"deal":[148],"with":[149,177],"out-of-distribution":[150],"(OOD)":[151],"using":[153,167],"explicit":[154],"estimation":[156],"without":[157],"need":[159],"for":[160],"large":[161],"ensembles.":[162],"performs":[164],"bonus":[170],"counteract":[172],"value":[173],"overestimation":[174],"combination":[176],"policy":[179],"constraint,":[180],"as":[181,183],"truncation":[185],"function":[186],"terminate":[188],"rollouts":[190],"are":[192],"excessively":[193],"OOD.":[194],"Experimentally,":[195],"find":[197],"both":[199],"perform":[204],"well,":[205],"latter":[208],"outperforms":[209],"prior":[210],"baselines":[214],"majority":[217],"D4RL":[219],"datasets":[220],"tested.":[221]},"counts_by_year":[],"updated_date":"2026-05-21T06:26:12.895304","created_date":"2025-10-10T00:00:00"}