{"id":"https://openalex.org/W4415428553","doi":"https://doi.org/10.3233/faia251103","title":"Analyzing Probabilistic Logic Shields for Multi-Agent Reinforcement Learning","display_name":"Analyzing Probabilistic Logic Shields for Multi-Agent Reinforcement Learning","publication_year":2025,"publication_date":"2025-10-21","ids":{"openalex":"https://openalex.org/W4415428553","doi":"https://doi.org/10.3233/faia251103"},"language":null,"primary_location":{"id":"doi:10.3233/faia251103","is_oa":true,"landing_page_url":"https://doi.org/10.3233/faia251103","pdf_url":null,"source":{"id":"https://openalex.org/S4210201731","display_name":"Frontiers in artificial intelligence and applications","issn_l":"0922-6389","issn":["0922-6389","1879-8314"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"journal"},"license":"cc-by-nc","license_id":"https://openalex.org/licenses/cc-by-nc","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Frontiers in Artificial Intelligence and Applications","raw_type":"book-chapter"},"type":"book-chapter","indexed_in":["crossref"],"open_access":{"is_oa":true,"oa_status":"hybrid","oa_url":"https://doi.org/10.3233/faia251103","any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5107857143","display_name":"S. Chatterji","orcid":null},"institutions":[{"id":"https://openalex.org/I13089092","display_name":"Amsterdam University College","ror":"https://ror.org/03dpjfc73","country_code":"NL","type":"education","lineage":["https://openalex.org/I13089092"]}],"countries":["NL"],"is_corresponding":false,"raw_author_name":"Satchit Chatterji","raw_affiliation_strings":["IvI & ILLC, University of Amsterdam"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"IvI & ILLC, University of Amsterdam","institution_ids":["https://openalex.org/I13089092"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5042454545","display_name":"Erman Acar","orcid":"https://orcid.org/0000-0001-7541-2999"},"institutions":[{"id":"https://openalex.org/I13089092","display_name":"Amsterdam University College","ror":"https://ror.org/03dpjfc73","country_code":"NL","type":"education","lineage":["https://openalex.org/I13089092"]}],"countries":["NL"],"is_corresponding":false,"raw_author_name":"Erman Acar","raw_affiliation_strings":["IvI & ILLC, University of Amsterdam"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"IvI & ILLC, University of Amsterdam","institution_ids":["https://openalex.org/I13089092"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":[],"corresponding_institution_ids":["https://openalex.org/I13089092"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.64963197,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10142","display_name":"Formal Methods in Verification","score":0.628600001335144,"subfield":{"id":"https://openalex.org/subfields/1703","display_name":"Computational Theory and Mathematics"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10142","display_name":"Formal Methods in Verification","score":0.628600001335144,"subfield":{"id":"https://openalex.org/subfields/1703","display_name":"Computational Theory and Mathematics"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.5968000292778015,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/probabilistic-logic","display_name":"Probabilistic logic","score":0.8120999932289124},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.763700008392334},{"id":"https://openalex.org/keywords/probabilistic-ctl","display_name":"Probabilistic CTL","score":0.6008999943733215},{"id":"https://openalex.org/keywords/probabilistic-argumentation","display_name":"Probabilistic argumentation","score":0.46320000290870667},{"id":"https://openalex.org/keywords/probabilistic-logic-network","display_name":"Probabilistic logic network","score":0.43950000405311584},{"id":"https://openalex.org/keywords/constraint","display_name":"Constraint (computer-aided design)","score":0.42809998989105225},{"id":"https://openalex.org/keywords/shielded-cable","display_name":"Shielded cable","score":0.4066999852657318},{"id":"https://openalex.org/keywords/representation","display_name":"Representation (politics)","score":0.3109000027179718}],"concepts":[{"id":"https://openalex.org/C49937458","wikidata":"https://www.wikidata.org/wiki/Q2599292","display_name":"Probabilistic logic","level":2,"score":0.8120999932289124},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.763700008392334},{"id":"https://openalex.org/C52063229","wikidata":"https://www.wikidata.org/wiki/Q7246845","display_name":"Probabilistic CTL","level":4,"score":0.6008999943733215},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.5636000037193298},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.49540001153945923},{"id":"https://openalex.org/C128828806","wikidata":"https://www.wikidata.org/wiki/Q7246848","display_name":"Probabilistic argumentation","level":3,"score":0.46320000290870667},{"id":"https://openalex.org/C18998212","wikidata":"https://www.wikidata.org/wiki/Q7246856","display_name":"Probabilistic logic network","level":5,"score":0.43950000405311584},{"id":"https://openalex.org/C2776036281","wikidata":"https://www.wikidata.org/wiki/Q48769818","display_name":"Constraint (computer-aided design)","level":2,"score":0.42809998989105225},{"id":"https://openalex.org/C77590175","wikidata":"https://www.wikidata.org/wiki/Q3506009","display_name":"Shielded cable","level":2,"score":0.4066999852657318},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.33160001039505005},{"id":"https://openalex.org/C2776359362","wikidata":"https://www.wikidata.org/wiki/Q2145286","display_name":"Representation (politics)","level":3,"score":0.3109000027179718},{"id":"https://openalex.org/C27158222","wikidata":"https://www.wikidata.org/wiki/Q5532422","display_name":"Generalizability theory","level":2,"score":0.2955999970436096},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.2921999990940094},{"id":"https://openalex.org/C198082294","wikidata":"https://www.wikidata.org/wiki/Q3399648","display_name":"Position (finance)","level":2,"score":0.29170000553131104},{"id":"https://openalex.org/C188116033","wikidata":"https://www.wikidata.org/wiki/Q2664563","display_name":"Q-learning","level":3,"score":0.28119999170303345},{"id":"https://openalex.org/C151201525","wikidata":"https://www.wikidata.org/wiki/Q177239","display_name":"Limit (mathematics)","level":2,"score":0.2768000066280365},{"id":"https://openalex.org/C2776291640","wikidata":"https://www.wikidata.org/wiki/Q2912517","display_name":"Value (mathematics)","level":2,"score":0.27230000495910645},{"id":"https://openalex.org/C89611455","wikidata":"https://www.wikidata.org/wiki/Q6804646","display_name":"Mechanism (biology)","level":2,"score":0.2639999985694885},{"id":"https://openalex.org/C80444323","wikidata":"https://www.wikidata.org/wiki/Q2878974","display_name":"Theoretical computer science","level":1,"score":0.2624000012874603},{"id":"https://openalex.org/C55439883","wikidata":"https://www.wikidata.org/wiki/Q360812","display_name":"Correctness","level":2,"score":0.25850000977516174},{"id":"https://openalex.org/C127413603","wikidata":"https://www.wikidata.org/wiki/Q11023","display_name":"Engineering","level":0,"score":0.25760000944137573},{"id":"https://openalex.org/C188198153","wikidata":"https://www.wikidata.org/wiki/Q1613840","display_name":"Limiting","level":2,"score":0.2533000111579895},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.25049999356269836}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.3233/faia251103","is_oa":true,"landing_page_url":"https://doi.org/10.3233/faia251103","pdf_url":null,"source":{"id":"https://openalex.org/S4210201731","display_name":"Frontiers in artificial intelligence and applications","issn_l":"0922-6389","issn":["0922-6389","1879-8314"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"journal"},"license":"cc-by-nc","license_id":"https://openalex.org/licenses/cc-by-nc","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Frontiers in Artificial Intelligence and Applications","raw_type":"book-chapter"}],"best_oa_location":{"id":"doi:10.3233/faia251103","is_oa":true,"landing_page_url":"https://doi.org/10.3233/faia251103","pdf_url":null,"source":{"id":"https://openalex.org/S4210201731","display_name":"Frontiers in artificial intelligence and applications","issn_l":"0922-6389","issn":["0922-6389","1879-8314"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"journal"},"license":"cc-by-nc","license_id":"https://openalex.org/licenses/cc-by-nc","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Frontiers in Artificial Intelligence and Applications","raw_type":"book-chapter"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Safe":[0],"reinforcement":[1],"learning":[2],"(RL)":[3],"is":[4],"crucial":[5],"for":[6,70,89,110,117,150],"real-world":[7],"applications,":[8],"and":[9,56,119,125,135],"multi-agent":[10,35,54,160],"interactions":[11],"introduce":[12],"additional":[13],"safety":[14,28,115],"challenges.":[15],"While":[16],"Probabilistic":[17,83],"Logic":[18,84],"Shields":[19],"(PLS)":[20],"has":[21],"been":[22],"a":[23,67,81,104],"powerful":[24],"proposal":[25],"to":[26,34],"enforce":[27],"in":[29,57],"single-agent":[30],"RL,":[31],"their":[32],"generalizability":[33],"settings":[36],"remains":[37],"unexplored.":[38],"In":[39],"this":[40,44],"paper,":[41],"we":[42],"address":[43],"gap":[45],"by":[46],"conducting":[47],"extensive":[48],"analyses":[49],"of":[50],"PLS":[51],"within":[52],"decentralized,":[53],"environments,":[55],"doing":[58],"so,":[59],"propose":[60],"Shielded":[61],"Multi-Agent":[62],"Reinforcement":[63],"Learning":[64],"(SMARL)":[65],"as":[66,146],"general":[68],"framework":[69],"steering":[71],"MARL":[72],"towards":[73],"norm-compliant":[74],"outcomes.":[75],"Our":[76],"key":[77],"contributions":[78],"are:":[79],"(1)":[80],"novel":[82],"Temporal":[85],"Difference":[86],"(PLTD)":[87],"update":[88,101],"shielded,":[90],"independent":[91],"Q-learning,":[92],"which":[93],"incorporates":[94],"probabilistic":[95,105],"constraints":[96],"directly":[97],"into":[98],"the":[99,154],"value":[100],"process;":[102],"(2)":[103],"logic":[106],"policy":[107],"gradient":[108],"method":[109],"shielded":[111,127],"PPO":[112],"with":[113],"formal":[114],"guarantees":[116],"MARL;":[118],"(3)":[120],"comprehensive":[121],"evaluation":[122],"across":[123],"symmetric":[124],"asymmetrically":[126],"n-player":[128],"game-theoretic":[129],"benchmarks,":[130],"demonstrating":[131],"fewer":[132],"constraint":[133],"violations":[134],"significantly":[136],"better":[137],"cooperation":[138],"under":[139],"normative":[140],"constraints.":[141],"These":[142],"results":[143],"position":[144],"SMARL":[145],"an":[147],"effective":[148],"mechanism":[149],"equilibrium":[151],"selection,":[152],"paving":[153],"way":[155],"toward":[156],"safer,":[157],"socially":[158],"aligned":[159],"systems.":[161]},"counts_by_year":[],"updated_date":"2026-06-26T08:34:08.712188","created_date":"2025-10-24T00:00:00"}