{"id":"https://openalex.org/W4382317716","doi":"https://doi.org/10.1609/aaai.v37i12.26763","title":"Safe Policy Improvement for POMDPs via Finite-State Controllers","display_name":"Safe Policy Improvement for POMDPs via Finite-State Controllers","publication_year":2023,"publication_date":"2023-06-26","ids":{"openalex":"https://openalex.org/W4382317716","doi":"https://doi.org/10.1609/aaai.v37i12.26763"},"language":"en","primary_location":{"is_oa":true,"landing_page_url":"https://doi.org/10.1609/aaai.v37i12.26763","pdf_url":"https://ojs.aaai.org/index.php/AAAI/article/download/26763/26535","source":{"id":"https://openalex.org/S4210191458","display_name":"Proceedings of the ... AAAI Conference on Artificial Intelligence","issn_l":"2159-5399","issn":["2159-5399","2374-3468"],"is_oa":true,"is_in_doaj":false,"host_organization":"https://openalex.org/P4310320058","host_organization_name":"Association for the Advancement of Artificial Intelligence","host_organization_lineage":["https://openalex.org/P4310320058"],"host_organization_lineage_names":["Association for the Advancement of Artificial Intelligence"],"type":"conference"},"license":null,"version":"publishedVersion","is_accepted":true,"is_published":true},"type":"article","type_crossref":"journal-article","indexed_in":["crossref"],"open_access":{"is_oa":true,"oa_status":"gold","oa_url":"https://ojs.aaai.org/index.php/AAAI/article/download/26763/26535","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5035570774","display_name":"Thiago D. Sim\u00e3o","orcid":null},"institutions":[{"id":"https://openalex.org/I145872427","display_name":"Radboud University Nijmegen","ror":"https://ror.org/016xsfp80","country_code":"NL","type":"education","lineage":["https://openalex.org/I145872427"]}],"countries":["NL"],"is_corresponding":false,"raw_author_name":"Thiago D. Sim\u00e3o","raw_affiliation_strings":["Radboud University Nijmegen"]},{"author_position":"middle","author":{"id":"https://openalex.org/A5060649428","display_name":"Marnix Suilen","orcid":null},"institutions":[{"id":"https://openalex.org/I145872427","display_name":"Radboud University Nijmegen","ror":"https://ror.org/016xsfp80","country_code":"NL","type":"education","lineage":["https://openalex.org/I145872427"]}],"countries":["NL"],"is_corresponding":false,"raw_author_name":"Marnix Suilen","raw_affiliation_strings":["Radboud University Nijmegen"]},{"author_position":"last","author":{"id":"https://openalex.org/A5012669709","display_name":"Nils Jansen","orcid":"https://orcid.org/0000-0003-1318-8973"},"institutions":[{"id":"https://openalex.org/I145872427","display_name":"Radboud University Nijmegen","ror":"https://ror.org/016xsfp80","country_code":"NL","type":"education","lineage":["https://openalex.org/I145872427"]}],"countries":["NL"],"is_corresponding":false,"raw_author_name":"Nils Jansen","raw_affiliation_strings":["Radboud University Nijmegen"]}],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"has_fulltext":true,"fulltext_origin":"pdf","cited_by_count":3,"cited_by_percentile_year":{"min":93,"max":95},"biblio":{"volume":"37","issue":"12","first_page":"15109","last_page":"15117"},"is_retracted":false,"is_paratext":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning Algorithms","score":0.9403,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning Algorithms","score":0.9403,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement Learning","score":0.504673}],"concepts":[{"id":"https://openalex.org/C17098449","wikidata":"https://www.wikidata.org/wiki/Q176814","display_name":"Partially observable Markov decision process","level":4,"score":0.90683866},{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.7910768},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7430959},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.739262},{"id":"https://openalex.org/C32848918","wikidata":"https://www.wikidata.org/wiki/Q845789","display_name":"Observable","level":2,"score":0.7010811},{"id":"https://openalex.org/C48103436","wikidata":"https://www.wikidata.org/wiki/Q599031","display_name":"State (computer science)","level":2,"score":0.60698086},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.5531972},{"id":"https://openalex.org/C2983497884","wikidata":"https://www.wikidata.org/wiki/Q176452","display_name":"Finite state","level":3,"score":0.5102005},{"id":"https://openalex.org/C72434380","wikidata":"https://www.wikidata.org/wiki/Q230930","display_name":"State space","level":2,"score":0.48045605},{"id":"https://openalex.org/C203479927","wikidata":"https://www.wikidata.org/wiki/Q5165939","display_name":"Controller (irrigation)","level":2,"score":0.45530763},{"id":"https://openalex.org/C159886148","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov process","level":2,"score":0.356718},{"id":"https://openalex.org/C98763669","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov chain","level":2,"score":0.31001037},{"id":"https://openalex.org/C163836022","wikidata":"https://www.wikidata.org/wiki/Q6771326","display_name":"Markov model","level":3,"score":0.23729983},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.22987679},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.18111733},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.15014714},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.14972079},{"id":"https://openalex.org/C105795698","wikidata":"https://www.wikidata.org/wiki/Q12483","display_name":"Statistics","level":1,"score":0.0},{"id":"https://openalex.org/C121332964","wikidata":"https://www.wikidata.org/wiki/Q413","display_name":"Physics","level":0,"score":0.0},{"id":"https://openalex.org/C62520636","wikidata":"https://www.wikidata.org/wiki/Q944","display_name":"Quantum mechanics","level":1,"score":0.0},{"id":"https://openalex.org/C6557445","wikidata":"https://www.wikidata.org/wiki/Q173113","display_name":"Agronomy","level":1,"score":0.0},{"id":"https://openalex.org/C86803240","wikidata":"https://www.wikidata.org/wiki/Q420","display_name":"Biology","level":0,"score":0.0}],"mesh":[],"locations_count":2,"locations":[{"is_oa":true,"landing_page_url":"https://doi.org/10.1609/aaai.v37i12.26763","pdf_url":"https://ojs.aaai.org/index.php/AAAI/article/download/26763/26535","source":{"id":"https://openalex.org/S4210191458","display_name":"Proceedings of the ... AAAI Conference on Artificial Intelligence","issn_l":"2159-5399","issn":["2159-5399","2374-3468"],"is_oa":true,"is_in_doaj":false,"host_organization":"https://openalex.org/P4310320058","host_organization_name":"Association for the Advancement of Artificial Intelligence","host_organization_lineage":["https://openalex.org/P4310320058"],"host_organization_lineage_names":["Association for the Advancement of Artificial Intelligence"],"type":"conference"},"license":null,"version":"publishedVersion","is_accepted":true,"is_published":true},{"is_oa":true,"landing_page_url":"https://arxiv.org/abs/2301.04939","pdf_url":"https://arxiv.org/pdf/2301.04939","source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":["Cornell University"],"type":"repository"},"license":null,"version":"submittedVersion","is_accepted":false,"is_published":false}],"best_oa_location":{"is_oa":true,"landing_page_url":"https://doi.org/10.1609/aaai.v37i12.26763","pdf_url":"https://ojs.aaai.org/index.php/AAAI/article/download/26763/26535","source":{"id":"https://openalex.org/S4210191458","display_name":"Proceedings of the ... AAAI Conference on Artificial Intelligence","issn_l":"2159-5399","issn":["2159-5399","2374-3468"],"is_oa":true,"is_in_doaj":false,"host_organization":"https://openalex.org/P4310320058","host_organization_name":"Association for the Advancement of Artificial Intelligence","host_organization_lineage":["https://openalex.org/P4310320058"],"host_organization_lineage_names":["Association for the Advancement of Artificial Intelligence"],"type":"conference"},"license":null,"version":"publishedVersion","is_accepted":true,"is_published":true},"sustainable_development_goals":[{"score":0.76,"display_name":"Peace, justice, and strong institutions","id":"https://metadata.un.org/sdg/16"}],"grants":[],"datasets":[],"versions":[],"referenced_works_count":0,"referenced_works":[],"related_works":["https://openalex.org/W185460758","https://openalex.org/W2999848267","https://openalex.org/W2096013579","https://openalex.org/W1589140671","https://openalex.org/W1760611253","https://openalex.org/W52153049","https://openalex.org/W2951545791","https://openalex.org/W1515117609","https://openalex.org/W2294884454","https://openalex.org/W3169161914"],"ngrams_url":"https://api.openalex.org/works/W4382317716/ngrams","abstract_inverted_index":{"We":[0,132,187],"study":[1],"safe":[2],"policy":[3,36,67,104,151,163,175,181,205],"improvement":[4],"(SPI)":[5],"for":[6,92,198],"partially":[7],"observable":[8,127],"Markov":[9],"decision":[10],"processes":[11],"(POMDPs).":[12],"SPI":[13,47,90,155,159],"is":[14,81,109,185,227],"an":[15,29,69,149,153],"offline":[16,70],"reinforcement":[17],"learning":[18],"(RL)":[19],"problem":[20,91],"that":[21,37,78,96,106,171,189],"assumes":[22],"access":[23,51],"to":[24,52,61,88,111,119,123,166],"(1)":[25],"historical":[26,139],"data":[27,41,140,184],"about":[28],"environment,":[30],"and":[31,59,105,141,147],"(2)":[32],"the":[33,45,56,65,75,79,89,102,121,129,138,142,145,162,167,172,179,199,203,216,219],"so-called":[34],"behavior":[35,66,103,180,204],"previously":[38],"generated":[39],"this":[40,134,190],"by":[42,136],"interacting":[43],"with":[44,206],"environment.":[46],"methods":[48,73],"neither":[49],"require":[50],"a":[53,97,124,195],"model":[54],"nor":[55],"environment":[57,80],"itself,":[58],"aim":[60],"reliably":[62],"improve":[63],"upon":[64],"in":[68,222],"manner.":[71],"Existing":[72],"make":[74],"strong":[76],"assumption":[77,116],"fully":[82,126],"observable.":[83],"In":[84],"our":[85],"novel":[86],"approach":[87],"POMDPs,":[93],"we":[94],"assume":[95],"finite-state":[98,125],"controller":[99],"(FSC)":[100],"represents":[101],"finite":[107,225],"memory":[108,143,226],"sufficient":[110,183],"derive":[112],"optimal":[113],"policies.":[114],"This":[115],"allows":[117],"us":[118],"map":[120],"POMDP":[122],"MDP,":[128],"history":[130],"MDP.":[131],"estimate":[133],"MDP":[135],"combining":[137],"of":[144,218],"FSC,":[146],"compute":[148],"improved":[150],"using":[152],"off-the-shelf":[154],"algorithm.":[156],"The":[157],"underlying":[158],"method":[160],"constrains":[161],"space":[164],"according":[165],"available":[168],"data,":[169],"such":[170],"newly":[173],"computed":[174],"only":[176],"differs":[177],"from":[178],"when":[182],"available.":[186],"show":[188,215],"new":[191,196],"policy,":[192],"converted":[193],"into":[194],"FSC":[197],"(unknown)":[200],"POMDP,":[201],"outperforms":[202],"high":[207],"probability.":[208],"Experimental":[209],"results":[210],"on":[211],"several":[212],"well-established":[213],"benchmarks":[214],"applicability":[217],"approach,":[220],"even":[221],"cases":[223],"where":[224],"not":[228],"sufficient.":[229]},"cited_by_api_url":"https://api.openalex.org/works?filter=cites:W4382317716","counts_by_year":[{"year":2023,"cited_by_count":1}],"updated_date":"2024-04-22T07:09:36.345064","created_date":"2023-06-28"}