{"id":"https://openalex.org/W7127739163","doi":"https://doi.org/10.5555/3709347.3743573","title":"Composing Reinforcement Learning Policies, with Formal Guarantees AAAI Track","display_name":"Composing Reinforcement Learning Policies, with Formal Guarantees AAAI Track","publication_year":2025,"publication_date":"2025-01-01","ids":{"openalex":"https://openalex.org/W7127739163","doi":"https://doi.org/10.5555/3709347.3743573"},"language":"en","primary_location":{"id":"pmh:oai:pure.atira.dk:publications/7074de96-c6f8-4632-9249-38a78df948b0","is_oa":true,"landing_page_url":"https://vbn.aau.dk/da/publications/7074de96-c6f8-4632-9249-38a78df948b0","pdf_url":"https://vbn.aau.dk/ws/files/794473348/ppo.pdf","source":{"id":"https://openalex.org/S4306401731","display_name":"VBN Forskningsportal (Aalborg Universitet)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I891191580","host_organization_name":"Aalborg University","host_organization_lineage":["https://openalex.org/I891191580"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"acceptedVersion","is_accepted":true,"is_published":false,"raw_source_name":"Delgrange, F, Avni, G, Lukina, A, Schilling, C, Now\u00e9, A & P\u00e9rez, G 2025, Composing reinforcement learning policies, with formal guarantees. in Y Vorobeychik, S Das & A Nowe (eds), Proceedings of the 24th International Conference on Autonomous Agents and Multiagent Systems. 24 edn, Association for Computing Machinery (ACM), Richland, SC, USA, pp. 574-583, 24th International Conference on Autonomous Agents and Multiagent Systems, Detroit, Michigan, United States, 19/05/2025. https://doi.org/10.5555/3709347.3743573","raw_type":"info:eu-repo/semantics/publishedVersion"},"type":"article","indexed_in":[],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://vbn.aau.dk/ws/files/794473348/ppo.pdf","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5045174409","display_name":"Florent Delgrange","orcid":"https://orcid.org/0000-0003-2254-0596"},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Delgrange, Florent","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5029172336","display_name":"Guy Avni","orcid":"https://orcid.org/0000-0001-5588-8287"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Avni, Guy","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5125081112","display_name":"Anna Lukina","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Lukina, Anna","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5074526208","display_name":"Christian Schilling","orcid":"https://orcid.org/0000-0003-3658-1065"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Schilling, Christian; id_orcid 0000-0003-3658-1065","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5103766774","display_name":"Nowe Ann","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Now\u00e9, Ann","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5053423392","display_name":"Guillermo A. P\u00e9rez","orcid":"https://orcid.org/0000-0002-1200-4952"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"P\u00e9rez, Guillermo","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":6,"corresponding_author_ids":["https://openalex.org/A5045174409"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":true,"cited_by_count":0,"citation_normalized_percentile":{"value":0.82476641,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.6876000165939331,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.6876000165939331,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.05730000138282776,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10586","display_name":"Robotic Path Planning Algorithms","score":0.051899999380111694,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.6765000224113464},{"id":"https://openalex.org/keywords/scalability","display_name":"Scalability","score":0.5903000235557556},{"id":"https://openalex.org/keywords/abstraction","display_name":"Abstraction","score":0.5570999979972839},{"id":"https://openalex.org/keywords/markov-decision-process","display_name":"Markov decision process","score":0.5544999837875366},{"id":"https://openalex.org/keywords/graph","display_name":"Graph","score":0.4505999982357025},{"id":"https://openalex.org/keywords/lift","display_name":"Lift (data mining)","score":0.4284999966621399},{"id":"https://openalex.org/keywords/construct","display_name":"Construct (python library)","score":0.4097999930381775},{"id":"https://openalex.org/keywords/markov-process","display_name":"Markov process","score":0.39329999685287476}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7681000232696533},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.6765000224113464},{"id":"https://openalex.org/C48044578","wikidata":"https://www.wikidata.org/wiki/Q727490","display_name":"Scalability","level":2,"score":0.5903000235557556},{"id":"https://openalex.org/C124304363","wikidata":"https://www.wikidata.org/wiki/Q673661","display_name":"Abstraction","level":2,"score":0.5570999979972839},{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.5544999837875366},{"id":"https://openalex.org/C132525143","wikidata":"https://www.wikidata.org/wiki/Q141488","display_name":"Graph","level":2,"score":0.4505999982357025},{"id":"https://openalex.org/C139002025","wikidata":"https://www.wikidata.org/wiki/Q3001212","display_name":"Lift (data mining)","level":2,"score":0.4284999966621399},{"id":"https://openalex.org/C80444323","wikidata":"https://www.wikidata.org/wiki/Q2878974","display_name":"Theoretical computer science","level":1,"score":0.4223000109195709},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.41780000925064087},{"id":"https://openalex.org/C2780801425","wikidata":"https://www.wikidata.org/wiki/Q5164392","display_name":"Construct (python library)","level":2,"score":0.4097999930381775},{"id":"https://openalex.org/C159886148","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov process","level":2,"score":0.39329999685287476},{"id":"https://openalex.org/C153083717","wikidata":"https://www.wikidata.org/wiki/Q6535263","display_name":"Leverage (statistics)","level":2,"score":0.362199991941452},{"id":"https://openalex.org/C120314980","wikidata":"https://www.wikidata.org/wiki/Q180634","display_name":"Distributed computing","level":1,"score":0.3440000116825104},{"id":"https://openalex.org/C98763669","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov chain","level":2,"score":0.33970001339912415},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.3276999890804291},{"id":"https://openalex.org/C137981799","wikidata":"https://www.wikidata.org/wiki/Q1369184","display_name":"Reusability","level":3,"score":0.3138999938964844},{"id":"https://openalex.org/C116253237","wikidata":"https://www.wikidata.org/wiki/Q1437424","display_name":"Formal specification","level":2,"score":0.30709999799728394},{"id":"https://openalex.org/C111498074","wikidata":"https://www.wikidata.org/wiki/Q173326","display_name":"Formal verification","level":2,"score":0.295199990272522},{"id":"https://openalex.org/C90509273","wikidata":"https://www.wikidata.org/wiki/Q11012","display_name":"Robot","level":2,"score":0.27720001339912415},{"id":"https://openalex.org/C199360897","wikidata":"https://www.wikidata.org/wiki/Q9143","display_name":"Programming language","level":1,"score":0.26339998841285706},{"id":"https://openalex.org/C100776233","wikidata":"https://www.wikidata.org/wiki/Q2532492","display_name":"Bridge (graph theory)","level":2,"score":0.258899986743927},{"id":"https://openalex.org/C2779436431","wikidata":"https://www.wikidata.org/wiki/Q30672407","display_name":"Policy learning","level":2,"score":0.25200000405311584}],"mesh":[],"locations_count":2,"locations":[{"id":"pmh:oai:pure.atira.dk:publications/7074de96-c6f8-4632-9249-38a78df948b0","is_oa":true,"landing_page_url":"https://vbn.aau.dk/da/publications/7074de96-c6f8-4632-9249-38a78df948b0","pdf_url":"https://vbn.aau.dk/ws/files/794473348/ppo.pdf","source":{"id":"https://openalex.org/S4306401731","display_name":"VBN Forskningsportal (Aalborg Universitet)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I891191580","host_organization_name":"Aalborg University","host_organization_lineage":["https://openalex.org/I891191580"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"acceptedVersion","is_accepted":true,"is_published":false,"raw_source_name":"Delgrange, F, Avni, G, Lukina, A, Schilling, C, Now\u00e9, A & P\u00e9rez, G 2025, Composing reinforcement learning policies, with formal guarantees. in Y Vorobeychik, S Das & A Nowe (eds), Proceedings of the 24th International Conference on Autonomous Agents and Multiagent Systems. 24 edn, Association for Computing Machinery (ACM), Richland, SC, USA, pp. 574-583, 24th International Conference on Autonomous Agents and Multiagent Systems, Detroit, Michigan, United States, 19/05/2025. https://doi.org/10.5555/3709347.3743573","raw_type":"info:eu-repo/semantics/publishedVersion"},{"id":"pmh:oai:vubissmart:VUBISSMART:2000:260150","is_oa":false,"landing_page_url":"https://biblio.vub.ac.be/vubir/composing-reinforcement-learning-policies-with-formal-guarantees-aaai-track(b2904e3a-7db4-4976-8a97-4eec81c59fe0).html","pdf_url":null,"source":{"id":"https://openalex.org/S4306402573","display_name":"VUBIR (Vrije Universiteit Brussel)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I13469542","host_organization_name":"Vrije Universiteit Brussel","host_organization_lineage":["https://openalex.org/I13469542"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"pmh:oai:pure.atira.dk:publications/7074de96-c6f8-4632-9249-38a78df948b0","is_oa":true,"landing_page_url":"https://vbn.aau.dk/da/publications/7074de96-c6f8-4632-9249-38a78df948b0","pdf_url":"https://vbn.aau.dk/ws/files/794473348/ppo.pdf","source":{"id":"https://openalex.org/S4306401731","display_name":"VBN Forskningsportal (Aalborg Universitet)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I891191580","host_organization_name":"Aalborg University","host_organization_lineage":["https://openalex.org/I891191580"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"acceptedVersion","is_accepted":true,"is_published":false,"raw_source_name":"Delgrange, F, Avni, G, Lukina, A, Schilling, C, Now\u00e9, A & P\u00e9rez, G 2025, Composing reinforcement learning policies, with formal guarantees. in Y Vorobeychik, S Das & A Nowe (eds), Proceedings of the 24th International Conference on Autonomous Agents and Multiagent Systems. 24 edn, Association for Computing Machinery (ACM), Richland, SC, USA, pp. 574-583, 24th International Conference on Autonomous Agents and Multiagent Systems, Detroit, Michigan, United States, 19/05/2025. https://doi.org/10.5555/3709347.3743573","raw_type":"info:eu-repo/semantics/publishedVersion"},"sustainable_development_goals":[{"display_name":"Peace, Justice and strong institutions","id":"https://metadata.un.org/sdg/16","score":0.7601086497306824}],"awards":[{"id":"https://openalex.org/G7017923662","display_name":null,"funder_award_id":"1679/21","funder_id":"https://openalex.org/F4320322252","funder_display_name":"Israel Science Foundation"}],"funders":[{"id":"https://openalex.org/F4320321730","display_name":"Fonds Wetenschappelijk Onderzoek","ror":"https://ror.org/03qtxy027"},{"id":"https://openalex.org/F4320321800","display_name":"Nederlandse Organisatie voor Wetenschappelijk Onderzoek","ror":"https://ror.org/04jsz6e67"},{"id":"https://openalex.org/F4320322252","display_name":"Israel Science Foundation","ror":"https://ror.org/04sazxf24"},{"id":"https://openalex.org/F4320334164","display_name":"Simons Institute for the Theory of Computing, University of California Berkeley","ror":null}],"has_content":{"pdf":true,"grobid_xml":true},"content_urls":{"pdf":"https://content.openalex.org/works/W7127739163.pdf","grobid_xml":"https://content.openalex.org/works/W7127739163.grobid-xml"},"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"We":[0,47,91,113,165],"propose":[1],"a":[2,11,14,26,31,55,58,66,79,93,109],"novel":[3],"framework":[4,34],"to":[5,86,97,134],"controller":[6],"design":[7,40],"in":[8,19,88,168],"environments":[9,176],"with":[10,73,117,177],"two-level":[12],"structure:":[13],"known":[15],"high-level":[16,45,52,63,136],"graph":[17,64],"(\"map\")":[18],"which":[20,83,104],"each":[21,89],"vertex":[22],"is":[23],"populated":[24],"by":[25,37],"Markov":[27],"decision":[28],"process,":[29],"called":[30],"\"room\".":[32],"The":[33],"\"separates":[35],"concerns\"":[36],"using":[38],"different":[39],"techniques":[41],"for":[42,51],"low-":[43],"and":[44,65,125,130,155,160,180],"tasks.":[46],"apply":[48,87],"reactive":[49],"synthesis":[50],"tasks:":[53],"given":[54],"specification":[56],"as":[57],"logical":[59],"formula":[60],"over":[61],"the":[62,115,127,135,142,146],"collection":[67],"of":[68,145,162],"low-level":[69,84,99,163],"policies":[70,100],"obtained":[71],"together":[72],"\"concise\"":[74],"latent":[75,102],"structures,":[76,103],"we":[77],"construct":[78],"\"planner\"":[80],"that":[81],"selects":[82],"policy":[85,116],"room.":[90],"develop":[92],"reinforcement":[94],"learning":[95],"procedure":[96],"train":[98],"on":[101,122,126],"unlike":[105],"previous":[106],"approaches,":[107],"circumvents":[108],"model":[110],"distillation":[111],"step.":[112],"pair":[114],"probably":[118],"approximately":[119],"correct":[120],"guarantees":[121,133,140],"its":[123],"performance":[124],"abstraction":[128],"quality,":[129],"lift":[131],"these":[132],"task.":[137],"These":[138],"formal":[139],"are":[141,153,158],"main":[143],"advantage":[144],"framework.":[147],"Other":[148],"advantages":[149],"include":[150],"scalability":[151],"(rooms":[152],"large":[154],"their":[156],"dynamics":[157],"unknown)":[159],"reusability":[161],"policies.":[164],"demonstrate":[166],"feasibility":[167],"challenging":[169],"case":[170],"studies":[171],"where":[172],"an":[173],"agent":[174],"navigates":[175],"moving":[178],"obstacles":[179],"visual":[181],"inputs.":[182]},"counts_by_year":[],"updated_date":"2026-05-14T08:36:36.166977","created_date":"2026-02-06T00:00:00"}