{"id":"https://openalex.org/W7118568739","doi":"https://doi.org/10.1109/lcsys.2026.3651656","title":"Encoding High-Level Knowledge in Offline Multi-Agent Reinforcement Learning Using Reward Machines","display_name":"Encoding High-Level Knowledge in Offline Multi-Agent Reinforcement Learning Using Reward Machines","publication_year":2025,"publication_date":"2025-01-01","ids":{"openalex":"https://openalex.org/W7118568739","doi":"https://doi.org/10.1109/lcsys.2026.3651656"},"language":null,"primary_location":{"id":"doi:10.1109/lcsys.2026.3651656","is_oa":false,"landing_page_url":"https://doi.org/10.1109/lcsys.2026.3651656","pdf_url":null,"source":{"id":"https://openalex.org/S4306422535","display_name":"IEEE Control Systems Letters","issn_l":"2475-1456","issn":["2475-1456"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310319808","host_organization_name":"Institute of Electrical and Electronics Engineers","host_organization_lineage":["https://openalex.org/P4310319808"],"host_organization_lineage_names":["Institute of Electrical and Electronics Engineers"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"IEEE Control Systems Letters","raw_type":"journal-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5093925782","display_name":"Shayan Meshkat Alsadat","orcid":"https://orcid.org/0009-0006-4301-1430"},"institutions":[{"id":"https://openalex.org/I55732556","display_name":"Arizona State University","ror":"https://ror.org/03efmqc40","country_code":"US","type":"education","lineage":["https://openalex.org/I55732556"]}],"countries":["US"],"is_corresponding":true,"raw_author_name":"Shayan Meshkat Alsadat","raw_affiliation_strings":["School for Engineering of Matter, Transport and Energy, Arizona State University, Tempe, AZ, USA"],"affiliations":[{"raw_affiliation_string":"School for Engineering of Matter, Transport and Energy, Arizona State University, Tempe, AZ, USA","institution_ids":["https://openalex.org/I55732556"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5122086184","display_name":"Zhe Xu","orcid":null},"institutions":[{"id":"https://openalex.org/I55732556","display_name":"Arizona State University","ror":"https://ror.org/03efmqc40","country_code":"US","type":"education","lineage":["https://openalex.org/I55732556"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Zhe Xu","raw_affiliation_strings":["School for Engineering of Matter, Transport and Energy, Arizona State University, Tempe, AZ, USA"],"affiliations":[{"raw_affiliation_string":"School for Engineering of Matter, Transport and Energy, Arizona State University, Tempe, AZ, USA","institution_ids":["https://openalex.org/I55732556"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":["https://openalex.org/A5093925782"],"corresponding_institution_ids":["https://openalex.org/I55732556"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.82370897,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":"9","issue":null,"first_page":"3149","last_page":"3154"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.8260999917984009,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.8260999917984009,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12288","display_name":"Optimization and Search Problems","score":0.02410000003874302,"subfield":{"id":"https://openalex.org/subfields/1705","display_name":"Computer Networks and Communications"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12072","display_name":"Machine Learning and Algorithms","score":0.021400000900030136,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.8345999717712402},{"id":"https://openalex.org/keywords/encoding","display_name":"Encoding (memory)","score":0.6407999992370605},{"id":"https://openalex.org/keywords/automaton","display_name":"Automaton","score":0.4814000129699707},{"id":"https://openalex.org/keywords/generative-grammar","display_name":"Generative grammar","score":0.45840001106262207},{"id":"https://openalex.org/keywords/offline-learning","display_name":"Offline learning","score":0.44519999623298645},{"id":"https://openalex.org/keywords/convergence","display_name":"Convergence (economics)","score":0.39969998598098755},{"id":"https://openalex.org/keywords/finite-state-machine","display_name":"Finite-state machine","score":0.3732999861240387},{"id":"https://openalex.org/keywords/generative-model","display_name":"Generative model","score":0.3668999969959259}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.8345999717712402},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7671999931335449},{"id":"https://openalex.org/C125411270","wikidata":"https://www.wikidata.org/wiki/Q18653","display_name":"Encoding (memory)","level":2,"score":0.6407999992370605},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6168000102043152},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.5406000018119812},{"id":"https://openalex.org/C112505250","wikidata":"https://www.wikidata.org/wiki/Q787116","display_name":"Automaton","level":2,"score":0.4814000129699707},{"id":"https://openalex.org/C39890363","wikidata":"https://www.wikidata.org/wiki/Q36108","display_name":"Generative grammar","level":2,"score":0.45840001106262207},{"id":"https://openalex.org/C2780490138","wikidata":"https://www.wikidata.org/wiki/Q7079636","display_name":"Offline learning","level":3,"score":0.44519999623298645},{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.39969998598098755},{"id":"https://openalex.org/C167822520","wikidata":"https://www.wikidata.org/wiki/Q176452","display_name":"Finite-state machine","level":2,"score":0.3732999861240387},{"id":"https://openalex.org/C167966045","wikidata":"https://www.wikidata.org/wiki/Q5532625","display_name":"Generative model","level":3,"score":0.3668999969959259},{"id":"https://openalex.org/C2780102126","wikidata":"https://www.wikidata.org/wiki/Q10928179","display_name":"Online and offline","level":2,"score":0.3635999858379364},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.3239000141620636},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.3034000098705292},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.2833999991416931},{"id":"https://openalex.org/C132459708","wikidata":"https://www.wikidata.org/wiki/Q744069","display_name":"Extrapolation","level":2,"score":0.26669999957084656},{"id":"https://openalex.org/C199190896","wikidata":"https://www.wikidata.org/wiki/Q3509276","display_name":"Learning classifier system","level":3,"score":0.26589998602867126},{"id":"https://openalex.org/C108010975","wikidata":"https://www.wikidata.org/wiki/Q500094","display_name":"Pruning","level":2,"score":0.25929999351501465},{"id":"https://openalex.org/C80444323","wikidata":"https://www.wikidata.org/wiki/Q2878974","display_name":"Theoretical computer science","level":1,"score":0.25920000672340393},{"id":"https://openalex.org/C77967617","wikidata":"https://www.wikidata.org/wiki/Q4677561","display_name":"Active learning (machine learning)","level":2,"score":0.2578999996185303},{"id":"https://openalex.org/C2776359362","wikidata":"https://www.wikidata.org/wiki/Q2145286","display_name":"Representation (politics)","level":3,"score":0.2522999942302704}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/lcsys.2026.3651656","is_oa":false,"landing_page_url":"https://doi.org/10.1109/lcsys.2026.3651656","pdf_url":null,"source":{"id":"https://openalex.org/S4306422535","display_name":"IEEE Control Systems Letters","issn_l":"2475-1456","issn":["2475-1456"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310319808","host_organization_name":"Institute of Electrical and Electronics Engineers","host_organization_lineage":["https://openalex.org/P4310319808"],"host_organization_lineage_names":["Institute of Electrical and Electronics Engineers"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"IEEE Control Systems Letters","raw_type":"journal-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[{"id":"https://openalex.org/G1445161067","display_name":null,"funder_award_id":"CNS 2339774","funder_id":"https://openalex.org/F4320306076","funder_display_name":"National Science Foundation"},{"id":"https://openalex.org/G5442036572","display_name":null,"funder_award_id":"CNS 2304863","funder_id":"https://openalex.org/F4320306076","funder_display_name":"National Science Foundation"},{"id":"https://openalex.org/G5840370012","display_name":null,"funder_award_id":"N00014-23-1-2505","funder_id":"https://openalex.org/F4320337345","funder_display_name":"Office of Naval Research"},{"id":"https://openalex.org/G8515834563","display_name":null,"funder_award_id":"IIS 2332476","funder_id":"https://openalex.org/F4320306076","funder_display_name":"National Science Foundation"}],"funders":[{"id":"https://openalex.org/F4320306076","display_name":"National Science Foundation","ror":"https://ror.org/021nxhr62"},{"id":"https://openalex.org/F4320337345","display_name":"Office of Naval Research","ror":"https://ror.org/00rk2pe57"}],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":6,"referenced_works":["https://openalex.org/W2505717744","https://openalex.org/W2972500268","https://openalex.org/W3092156990","https://openalex.org/W3173218700","https://openalex.org/W4412405201","https://openalex.org/W4415598938"],"related_works":[],"abstract_inverted_index":{"Offline":[0,45],"reinforcement":[1,16],"learning":[2,17,56],"(RL)":[3],"learns":[4],"policies":[5,86],"from":[6,21,74],"fixed-size":[7],"datasets":[8],"without":[9],"interacting":[10],"with":[11,47,60],"the":[12,71],"environment,":[13],"while":[14,83],"multi-agent":[15],"(MARL)":[18],"faces":[19],"challenges":[20],"large":[22],"joint":[23],"state-action":[24],"spaces":[25],"and":[26,80,114],"agent":[27,81],"interdependencies.":[28],"Most":[29],"offline":[30,58,119],"MARL":[31,59,120],"methods":[32],"apply":[33],"regularizations,":[34],"ignoring":[35],"system-wide":[36],"dependencies,":[37],"risking":[38],"extrapolation":[39],"errors.":[40],"We":[41,106],"propose":[42],"Automata-Guided":[43],"Multi-Agent":[44],"RL":[46],"Reward":[48],"Machine":[49],"(AGMORL),":[50],"a":[51,65,75],"novel":[52],"framework":[53],"extending":[54],"automata":[55],"to":[57,69,87,110],"reward":[61,72],"machines.":[62],"AGMORL":[63,116],"uses":[64],"deterministic":[66],"finite":[67],"automaton":[68],"learn":[70],"machine":[73],"dataset,":[76],"capturing":[77],"team":[78],"dynamics":[79],"interactions,":[82],"guiding":[84],"individual":[85],"avoid":[88],"out-of-distribution":[89],"actions":[90],"by":[91],"encoding":[92],"dataset":[93],"high-level":[94],"knowledge.":[95],"Unlike":[96],"other":[97],"methods,":[98],"it":[99],"avoids":[100],"secondary":[101],"components":[102],"like":[103],"generative":[104],"models.":[105],"provide":[107],"convergence":[108],"guarantees":[109],"an":[111],"optimal":[112],"policy":[113],"show":[115],"outperforms":[117],"state-of-the-art":[118],"methods.":[121]},"counts_by_year":[],"updated_date":"2026-04-09T08:11:56.329763","created_date":"2026-01-08T00:00:00"}