{"id":"https://openalex.org/W3189256393","doi":"https://doi.org/10.24963/ijcai.2021/347","title":"Model-Based Reinforcement Learning for Infinite-Horizon Discounted Constrained Markov Decision Processes","display_name":"Model-Based Reinforcement Learning for Infinite-Horizon Discounted Constrained Markov Decision Processes","publication_year":2021,"publication_date":"2021-08-01","ids":{"openalex":"https://openalex.org/W3189256393","doi":"https://doi.org/10.24963/ijcai.2021/347","mag":"3189256393"},"language":"en","primary_location":{"id":"doi:10.24963/ijcai.2021/347","is_oa":true,"landing_page_url":"https://doi.org/10.24963/ijcai.2021/347","pdf_url":"https://www.ijcai.org/proceedings/2021/0347.pdf","source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the Thirtieth International Joint Conference on Artificial Intelligence","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":true,"oa_status":"gold","oa_url":"https://www.ijcai.org/proceedings/2021/0347.pdf","any_repository_has_fulltext":null},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5056952829","display_name":"Aria HasanzadeZonuzy","orcid":"https://orcid.org/0000-0002-9701-1405"},"institutions":[{"id":"https://openalex.org/I91045830","display_name":"Texas A&M University","ror":"https://ror.org/01f5ytq51","country_code":"US","type":"education","lineage":["https://openalex.org/I91045830"]},{"id":"https://openalex.org/I2801613365","display_name":"Mitchell Institute","ror":"https://ror.org/03ds72003","country_code":"US","type":"nonprofit","lineage":["https://openalex.org/I2801613365"]}],"countries":["US"],"is_corresponding":true,"raw_author_name":"Aria HasanzadeZonuzy","raw_affiliation_strings":["Texas A&M University","Texas A & M University"],"affiliations":[{"raw_affiliation_string":"Texas A&M University","institution_ids":["https://openalex.org/I2801613365","https://openalex.org/I91045830"]},{"raw_affiliation_string":"Texas A & M University","institution_ids":["https://openalex.org/I2801613365"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5053096993","display_name":"Dileep Kalathil","orcid":"https://orcid.org/0000-0001-7968-5185"},"institutions":[{"id":"https://openalex.org/I91045830","display_name":"Texas A&M University","ror":"https://ror.org/01f5ytq51","country_code":"US","type":"education","lineage":["https://openalex.org/I91045830"]},{"id":"https://openalex.org/I2801613365","display_name":"Mitchell Institute","ror":"https://ror.org/03ds72003","country_code":"US","type":"nonprofit","lineage":["https://openalex.org/I2801613365"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Dileep Kalathil","raw_affiliation_strings":["Texas A&M University","Texas A & M University"],"affiliations":[{"raw_affiliation_string":"Texas A&M University","institution_ids":["https://openalex.org/I2801613365","https://openalex.org/I91045830"]},{"raw_affiliation_string":"Texas A & M University","institution_ids":["https://openalex.org/I2801613365"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5005504863","display_name":"Srinivas Shakkottai","orcid":"https://orcid.org/0000-0002-5882-6433"},"institutions":[{"id":"https://openalex.org/I2801613365","display_name":"Mitchell Institute","ror":"https://ror.org/03ds72003","country_code":"US","type":"nonprofit","lineage":["https://openalex.org/I2801613365"]},{"id":"https://openalex.org/I91045830","display_name":"Texas A&M University","ror":"https://ror.org/01f5ytq51","country_code":"US","type":"education","lineage":["https://openalex.org/I91045830"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Srinivas Shakkottai","raw_affiliation_strings":["Texas A&M University","Texas A & M University"],"affiliations":[{"raw_affiliation_string":"Texas A&M University","institution_ids":["https://openalex.org/I2801613365","https://openalex.org/I91045830"]},{"raw_affiliation_string":"Texas A & M University","institution_ids":["https://openalex.org/I2801613365"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5056952829"],"corresponding_institution_ids":["https://openalex.org/I2801613365","https://openalex.org/I91045830"],"apc_list":null,"apc_paid":null,"fwci":0.8398,"has_fulltext":false,"cited_by_count":7,"citation_normalized_percentile":{"value":0.78783683,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":91,"max":98},"biblio":{"volume":null,"issue":null,"first_page":"2519","last_page":"2525"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9994999766349792,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9994999766349792,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10848","display_name":"Advanced Multi-Objective Optimization Algorithms","score":0.9833999872207642,"subfield":{"id":"https://openalex.org/subfields/1703","display_name":"Computational Theory and Mathematics"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10328","display_name":"Supply Chain and Inventory Management","score":0.963699996471405,"subfield":{"id":"https://openalex.org/subfields/1404","display_name":"Management Information Systems"},"field":{"id":"https://openalex.org/fields/14","display_name":"Business, Management and Accounting"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.8638103604316711},{"id":"https://openalex.org/keywords/markov-decision-process","display_name":"Markov decision process","score":0.8526178598403931},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.6048712730407715},{"id":"https://openalex.org/keywords/mathematical-optimization","display_name":"Mathematical optimization","score":0.5937930941581726},{"id":"https://openalex.org/keywords/constraint","display_name":"Constraint (computer-aided design)","score":0.4976849853992462},{"id":"https://openalex.org/keywords/maximization","display_name":"Maximization","score":0.4617133140563965},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.4335476756095886},{"id":"https://openalex.org/keywords/markov-chain","display_name":"Markov chain","score":0.42648279666900635},{"id":"https://openalex.org/keywords/markov-process","display_name":"Markov process","score":0.42452171444892883},{"id":"https://openalex.org/keywords/time-horizon","display_name":"Time horizon","score":0.4232105612754822},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.3914611339569092},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.24661433696746826}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.8638103604316711},{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.8526178598403931},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6048712730407715},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.5937930941581726},{"id":"https://openalex.org/C2776036281","wikidata":"https://www.wikidata.org/wiki/Q48769818","display_name":"Constraint (computer-aided design)","level":2,"score":0.4976849853992462},{"id":"https://openalex.org/C2776330181","wikidata":"https://www.wikidata.org/wiki/Q18358244","display_name":"Maximization","level":2,"score":0.4617133140563965},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.4335476756095886},{"id":"https://openalex.org/C98763669","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov chain","level":2,"score":0.42648279666900635},{"id":"https://openalex.org/C159886148","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov process","level":2,"score":0.42452171444892883},{"id":"https://openalex.org/C28761237","wikidata":"https://www.wikidata.org/wiki/Q7805321","display_name":"Time horizon","level":2,"score":0.4232105612754822},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.3914611339569092},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.24661433696746826},{"id":"https://openalex.org/C105795698","wikidata":"https://www.wikidata.org/wiki/Q12483","display_name":"Statistics","level":1,"score":0.0},{"id":"https://openalex.org/C2524010","wikidata":"https://www.wikidata.org/wiki/Q8087","display_name":"Geometry","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.24963/ijcai.2021/347","is_oa":true,"landing_page_url":"https://doi.org/10.24963/ijcai.2021/347","pdf_url":"https://www.ijcai.org/proceedings/2021/0347.pdf","source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the Thirtieth International Joint Conference on Artificial Intelligence","raw_type":"proceedings-article"}],"best_oa_location":{"id":"doi:10.24963/ijcai.2021/347","is_oa":true,"landing_page_url":"https://doi.org/10.24963/ijcai.2021/347","pdf_url":"https://www.ijcai.org/proceedings/2021/0347.pdf","source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the Thirtieth International Joint Conference on Artificial Intelligence","raw_type":"proceedings-article"},"sustainable_development_goals":[{"id":"https://metadata.un.org/sdg/16","display_name":"Peace, Justice and strong institutions","score":0.8100000023841858}],"awards":[{"id":"https://openalex.org/G1171700966","display_name":null,"funder_award_id":"NSF CAREER","funder_id":"https://openalex.org/F4320306076","funder_display_name":"National Science Foundation"},{"id":"https://openalex.org/G132798801","display_name":"CRII: CPS: Towards a Model-Based Reinforcement Learning Approach for Safe Operation of Distributed Energy Systems","funder_award_id":"1850206","funder_id":"https://openalex.org/F4320306076","funder_display_name":"National Science Foundation"},{"id":"https://openalex.org/G1762349557","display_name":null,"funder_award_id":"NSF-Intel CNS 1719384","funder_id":"https://openalex.org/F4320306076","funder_display_name":"National Science Foundation"},{"id":"https://openalex.org/G2273398380","display_name":null,"funder_award_id":"NSF CAREER","funder_id":"https://openalex.org/F4320338281","funder_display_name":"Army Research Office"},{"id":"https://openalex.org/G2279853913","display_name":null,"funder_award_id":"W911NF-19-1","funder_id":"https://openalex.org/F4320338281","funder_display_name":"Army Research Office"},{"id":"https://openalex.org/G2925358057","display_name":null,"funder_award_id":"W911NF-19-1-0367","funder_id":"https://openalex.org/F4320338281","funder_display_name":"Army Research Office"},{"id":"https://openalex.org/G3549110410","display_name":"Collaborative Research: CPS: Medium: Empowering Prosumers in Electricity Markets Through Market Design and Learning","funder_award_id":"2038963","funder_id":"https://openalex.org/F4320306076","funder_display_name":"National Science Foundation"},{"id":"https://openalex.org/G608057831","display_name":null,"funder_award_id":"W911NF-19","funder_id":"https://openalex.org/F4320306076","funder_display_name":"National Science Foundation"},{"id":"https://openalex.org/G6671297155","display_name":null,"funder_award_id":"CAREER","funder_id":"https://openalex.org/F4320306076","funder_display_name":"National Science Foundation"},{"id":"https://openalex.org/G7050342149","display_name":"CAREER: Towards a Principled Framework for Resilient, Data Efficient and Scalable Reinforcement Learning for Control","funder_award_id":"2045783","funder_id":"https://openalex.org/F4320306076","funder_display_name":"National Science Foundation"},{"id":"https://openalex.org/G7452299184","display_name":null,"funder_award_id":"W911NF","funder_id":"https://openalex.org/F4320338281","funder_display_name":"Army Research Office"},{"id":"https://openalex.org/G7569681693","display_name":"ICN-WEN: Collaborative Research: SPLICE: Secure Predictive Low-Latency Information Centric Edge for Next Generation Wireless Networks","funder_award_id":"1719384","funder_id":"https://openalex.org/F4320306076","funder_display_name":"National Science Foundation"},{"id":"https://openalex.org/G7868900693","display_name":null,"funder_award_id":"CAREER-EPCN-2045783","funder_id":"https://openalex.org/F4320306076","funder_display_name":"National Science Foundation"},{"id":"https://openalex.org/G8415477955","display_name":null,"funder_award_id":"W911NF-19","funder_id":"https://openalex.org/F4320338281","funder_display_name":"Army Research Office"},{"id":"https://openalex.org/G8777466690","display_name":null,"funder_award_id":"CRII-CPS-1850206","funder_id":"https://openalex.org/F4320306076","funder_display_name":"National Science Foundation"},{"id":"https://openalex.org/G8998121839","display_name":null,"funder_award_id":"911NF","funder_id":"https://openalex.org/F4320338281","funder_display_name":"Army Research Office"}],"funders":[{"id":"https://openalex.org/F4320306076","display_name":"National Science Foundation","ror":"https://ror.org/021nxhr62"},{"id":"https://openalex.org/F4320338281","display_name":"Army Research Office","ror":"https://ror.org/05epdh915"}],"has_content":{"grobid_xml":true,"pdf":true},"content_urls":{"pdf":"https://content.openalex.org/works/W3189256393.pdf","grobid_xml":"https://content.openalex.org/works/W3189256393.grobid-xml"},"referenced_works_count":23,"referenced_works":["https://openalex.org/W1061340565","https://openalex.org/W1518931405","https://openalex.org/W1702271787","https://openalex.org/W1915973093","https://openalex.org/W1965634470","https://openalex.org/W1988526405","https://openalex.org/W2070570138","https://openalex.org/W2073314543","https://openalex.org/W2119567691","https://openalex.org/W2120678009","https://openalex.org/W2128347943","https://openalex.org/W2750990725","https://openalex.org/W2788014517","https://openalex.org/W2804791273","https://openalex.org/W2963568654","https://openalex.org/W2966956172","https://openalex.org/W2998619042","https://openalex.org/W3001756029","https://openalex.org/W3034840734","https://openalex.org/W3080734044","https://openalex.org/W4287829052","https://openalex.org/W4294562617","https://openalex.org/W4297824337"],"related_works":["https://openalex.org/W4400868993","https://openalex.org/W3096874164","https://openalex.org/W1985560493","https://openalex.org/W2386410636","https://openalex.org/W2357975469","https://openalex.org/W2145363145","https://openalex.org/W1626977535","https://openalex.org/W2341346307","https://openalex.org/W3168977894","https://openalex.org/W2025311859"],"abstract_inverted_index":{"In":[0],"many":[1],"real-world":[2],"reinforcement":[3,64],"learning":[4,14,28,65,69],"(RL)":[5],"problems,":[6],"in":[7],"addition":[8],"to":[9,17,82,119,132],"maximizing":[10],"the":[11,13,25,48,78,91,94,106,113,114],"objective,":[12],"agent":[15],"has":[16,80],"maintain":[18],"some":[19],"necessary":[20],"safety":[21,49],"constraints.":[22],"We":[23,59,104],"formulate":[24],"problem":[26],"of":[27,109,116,124],"a":[29,70,83,121],"safe":[30,71],"policy":[31],"as":[32,53],"an":[33,42,97],"infinite-horizon":[34],"discounted":[35],"Constrained":[36],"Markov":[37],"Decision":[38],"Process":[39],"(CMDP)":[40],"with":[41,126,130],"unknown":[43],"transition":[44],"probability":[45],"matrix,":[46],"where":[47,77,90],"requirements":[50],"are":[51],"modeled":[52],"constraints":[54],"on":[55],"expected":[56],"cumulative":[57],"costs.":[58],"propose":[60],"two":[61],"model-based":[62],"constrained":[63],"(CRL)":[66],"algorithms":[67],"for":[68],"policy,":[72],"namely,":[73],"(i)":[74],"GM-CRL":[75],"algorithm,":[76,89],"algorithm":[79,92],"access":[81],"generative":[84],"model,":[85],"and":[86,135],"(ii)":[87],"UC-CRL":[88],"learns":[93],"model":[95],"using":[96],"upper":[98],"confidence":[99],"style":[100],"online":[101],"exploration":[102],"method.":[103],"characterize":[105],"sample":[107],"complexity":[108],"these":[110],"algorithms,":[111],"i.e.,":[112],"number":[115],"samples":[117],"needed":[118],"ensure":[120],"desired":[122],"level":[123],"accuracy":[125],"high":[127],"probability,":[128],"both":[129],"respect":[131],"objective":[133],"maximization":[134],"constraint":[136],"satisfaction.":[137]},"counts_by_year":[{"year":2025,"cited_by_count":1},{"year":2024,"cited_by_count":4},{"year":2022,"cited_by_count":2}],"updated_date":"2026-04-10T15:06:20.359241","created_date":"2025-10-10T00:00:00"}