{"id":"https://openalex.org/W7117447490","doi":"https://doi.org/10.1145/3742875.3754687","title":"Hyperproperty-Constrained Secure Reinforcement Learning","display_name":"Hyperproperty-Constrained Secure Reinforcement Learning","publication_year":2025,"publication_date":"2025-09-28","ids":{"openalex":"https://openalex.org/W7117447490","doi":"https://doi.org/10.1145/3742875.3754687"},"language":null,"primary_location":{"id":"doi:10.1145/3742875.3754687","is_oa":false,"landing_page_url":"https://doi.org/10.1145/3742875.3754687","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the International Symposium on Formal Methods and Models for System Design","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5006415431","display_name":"Ernest Bonnah","orcid":"https://orcid.org/0000-0001-7170-8936"},"institutions":[{"id":"https://openalex.org/I157394403","display_name":"Baylor University","ror":"https://ror.org/005781934","country_code":"US","type":"education","lineage":["https://openalex.org/I157394403"]}],"countries":["US"],"is_corresponding":true,"raw_author_name":"Ernest Bonnah","raw_affiliation_strings":["Baylor University, Waco, Texas, USA"],"raw_orcid":"https://orcid.org/0000-0001-7170-8936","affiliations":[{"raw_affiliation_string":"Baylor University, Waco, Texas, USA","institution_ids":["https://openalex.org/I157394403"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5051151589","display_name":"Luan Viet Nguyen","orcid":"https://orcid.org/0000-0001-5516-2443"},"institutions":[{"id":"https://openalex.org/I127591826","display_name":"University of Dayton","ror":"https://ror.org/021v3qy27","country_code":"US","type":"education","lineage":["https://openalex.org/I127591826"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Luan Nguyen","raw_affiliation_strings":["University of Dayton, Dayton, Ohio, USA"],"raw_orcid":"https://orcid.org/0000-0001-5516-2443","affiliations":[{"raw_affiliation_string":"University of Dayton, Dayton, Ohio, USA","institution_ids":["https://openalex.org/I127591826"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5069684684","display_name":"Khaza Anuarul Hoque","orcid":"https://orcid.org/0000-0002-1625-6479"},"institutions":[{"id":"https://openalex.org/I76835614","display_name":"University of Missouri","ror":"https://ror.org/02ymw8z06","country_code":"US","type":"education","lineage":["https://openalex.org/I76835614"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Khaza Anuarul Hoque","raw_affiliation_strings":["University of Missouri, Columbia, Missouri, USA"],"raw_orcid":"https://orcid.org/0000-0002-1625-6479","affiliations":[{"raw_affiliation_string":"University of Missouri, Columbia, Missouri, USA","institution_ids":["https://openalex.org/I76835614"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5006415431"],"corresponding_institution_ids":["https://openalex.org/I157394403"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.80434728,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"57","last_page":"61"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.2858000099658966,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.2858000099658966,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10142","display_name":"Formal Methods in Verification","score":0.1542000025510788,"subfield":{"id":"https://openalex.org/subfields/1703","display_name":"Computational Theory and Mathematics"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Machine Learning","score":0.06840000301599503,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.8758000135421753},{"id":"https://openalex.org/keywords/markov-decision-process","display_name":"Markov decision process","score":0.692300021648407},{"id":"https://openalex.org/keywords/softmax-function","display_name":"Softmax function","score":0.6031000018119812},{"id":"https://openalex.org/keywords/scalability","display_name":"Scalability","score":0.5480999946594238},{"id":"https://openalex.org/keywords/temporal-difference-learning","display_name":"Temporal difference learning","score":0.499099999666214},{"id":"https://openalex.org/keywords/temporal-logic","display_name":"Temporal logic","score":0.4187999963760376},{"id":"https://openalex.org/keywords/markov-process","display_name":"Markov process","score":0.41499999165534973},{"id":"https://openalex.org/keywords/robotics","display_name":"Robotics","score":0.4106000065803528},{"id":"https://openalex.org/keywords/concurrency","display_name":"Concurrency","score":0.39750000834465027}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.8758000135421753},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7487000226974487},{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.692300021648407},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6629999876022339},{"id":"https://openalex.org/C188441871","wikidata":"https://www.wikidata.org/wiki/Q7554146","display_name":"Softmax function","level":3,"score":0.6031000018119812},{"id":"https://openalex.org/C48044578","wikidata":"https://www.wikidata.org/wiki/Q727490","display_name":"Scalability","level":2,"score":0.5480999946594238},{"id":"https://openalex.org/C196340769","wikidata":"https://www.wikidata.org/wiki/Q7698910","display_name":"Temporal difference learning","level":3,"score":0.499099999666214},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.4422999918460846},{"id":"https://openalex.org/C25016198","wikidata":"https://www.wikidata.org/wiki/Q781833","display_name":"Temporal logic","level":2,"score":0.4187999963760376},{"id":"https://openalex.org/C159886148","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov process","level":2,"score":0.41499999165534973},{"id":"https://openalex.org/C34413123","wikidata":"https://www.wikidata.org/wiki/Q170978","display_name":"Robotics","level":3,"score":0.4106000065803528},{"id":"https://openalex.org/C193702766","wikidata":"https://www.wikidata.org/wiki/Q1414548","display_name":"Concurrency","level":2,"score":0.39750000834465027},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.3865000009536743},{"id":"https://openalex.org/C112972136","wikidata":"https://www.wikidata.org/wiki/Q7595718","display_name":"Stability (learning theory)","level":2,"score":0.3813000023365021},{"id":"https://openalex.org/C90509273","wikidata":"https://www.wikidata.org/wiki/Q11012","display_name":"Robot","level":2,"score":0.3578999936580658},{"id":"https://openalex.org/C165064840","wikidata":"https://www.wikidata.org/wiki/Q1321061","display_name":"Matching (statistics)","level":2,"score":0.35690000653266907},{"id":"https://openalex.org/C37404715","wikidata":"https://www.wikidata.org/wiki/Q380679","display_name":"Dynamic programming","level":2,"score":0.35519999265670776},{"id":"https://openalex.org/C199190896","wikidata":"https://www.wikidata.org/wiki/Q3509276","display_name":"Learning classifier system","level":3,"score":0.32749998569488525},{"id":"https://openalex.org/C188888258","wikidata":"https://www.wikidata.org/wiki/Q7353390","display_name":"Robot learning","level":4,"score":0.3102000057697296},{"id":"https://openalex.org/C17098449","wikidata":"https://www.wikidata.org/wiki/Q176814","display_name":"Partially observable Markov decision process","level":4,"score":0.2944999933242798},{"id":"https://openalex.org/C77967617","wikidata":"https://www.wikidata.org/wiki/Q4677561","display_name":"Active learning (machine learning)","level":2,"score":0.29350000619888306},{"id":"https://openalex.org/C98763669","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov chain","level":2,"score":0.289900004863739},{"id":"https://openalex.org/C124304363","wikidata":"https://www.wikidata.org/wiki/Q673661","display_name":"Abstraction","level":2,"score":0.2847999930381775},{"id":"https://openalex.org/C2781249084","wikidata":"https://www.wikidata.org/wiki/Q908656","display_name":"Preference","level":2,"score":0.2800000011920929},{"id":"https://openalex.org/C188116033","wikidata":"https://www.wikidata.org/wiki/Q2664563","display_name":"Q-learning","level":3,"score":0.2759999930858612},{"id":"https://openalex.org/C2775941552","wikidata":"https://www.wikidata.org/wiki/Q25212305","display_name":"Isolation (microbiology)","level":2,"score":0.2669999897480011},{"id":"https://openalex.org/C2776401178","wikidata":"https://www.wikidata.org/wiki/Q12050496","display_name":"Feature (linguistics)","level":2,"score":0.25589999556541443},{"id":"https://openalex.org/C12725497","wikidata":"https://www.wikidata.org/wiki/Q810247","display_name":"Baseline (sea)","level":2,"score":0.2556000053882599}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1145/3742875.3754687","is_oa":false,"landing_page_url":"https://doi.org/10.1145/3742875.3754687","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the International Symposium on Formal Methods and Models for System Design","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[{"display_name":"Peace, Justice and strong institutions","id":"https://metadata.un.org/sdg/16","score":0.7362867593765259}],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":14,"referenced_works":["https://openalex.org/W2896746715","https://openalex.org/W2898616308","https://openalex.org/W2964219844","https://openalex.org/W2964890016","https://openalex.org/W3045672200","https://openalex.org/W3047023789","https://openalex.org/W3090827750","https://openalex.org/W3120016471","https://openalex.org/W3139475260","https://openalex.org/W3189280709","https://openalex.org/W3201878770","https://openalex.org/W4250728693","https://openalex.org/W4378697147","https://openalex.org/W4382318055"],"related_works":[],"abstract_inverted_index":{"Hyperproperties":[0],"for":[1,14,25,89],"Time":[2],"Window":[3],"Temporal":[4],"Logic":[5],"(HyperTWTL)":[6],"is":[7,44,54],"a":[8,55,74,115],"domain-specific":[9],"formal":[10],"specification":[11],"language":[12],"known":[13],"its":[15],"effectiveness":[16,105],"in":[17,59],"compactly":[18],"representing":[19],"security,":[20],"opacity,":[21],"and":[22,79,106,117],"concurrency":[23],"properties":[24],"robotics":[26],"applications.":[27],"This":[28],"paper":[29],"focuses":[30],"on":[31],"HyperTWTL-constrained":[32],"secure":[33],"reinforcement":[34,41,62],"learning":[35,42,63,90],"(SecRL).":[36],"Although":[37],"temporal":[38],"logic-constrained":[39],"safe":[40],"(SRL)":[43],"an":[45,71,87],"evolving":[46],"research":[47,57],"problem":[48],"with":[49,128],"several":[50],"existing":[51],"literature,":[52],"there":[53],"significant":[56],"gap":[58],"exploring":[60],"security-aware":[61,91],"(RL)":[64],"using":[65,94,114],"hyperproperties.":[66],"Given":[67],"the":[68,101],"dynamics":[69],"of":[70,108],"agent":[72],"as":[73,83],"Markov":[75],"Decision":[76],"Process":[77],"(MDP)":[78],"opacity/security":[80],"constraints":[81],"formalized":[82],"HyperTWTL,":[84],"we":[85],"propose":[86],"approach":[88,111],"optimal":[92],"policies":[93],"dynamic":[95],"Boltzmann":[96],"softmax":[97],"RL":[98,132],"while":[99],"satisfying":[100],"HyperTWTL":[102],"constraints.":[103],"The":[104],"scalability":[107],"our":[109,126,136],"proposed":[110,137],"are":[112],"demonstrated":[113],"pick-up":[116],"delivery":[118],"robotic":[119],"mission":[120],"case":[121],"study.":[122],"We":[123],"also":[124],"compare":[125],"results":[127],"two":[129],"other":[130],"baseline":[131],"algorithms,":[133],"showing":[134],"that":[135],"method":[138],"outperforms":[139],"them.":[140]},"counts_by_year":[],"updated_date":"2025-12-30T23:08:21.542490","created_date":"2025-12-29T00:00:00"}