{"id":"https://openalex.org/W4413392951","doi":"https://doi.org/10.23919/acc63710.2025.11107876","title":"Trajectory-Based Automata Learning for Offline Reinforcement Learning","display_name":"Trajectory-Based Automata Learning for Offline Reinforcement Learning","publication_year":2025,"publication_date":"2025-07-08","ids":{"openalex":"https://openalex.org/W4413392951","doi":"https://doi.org/10.23919/acc63710.2025.11107876"},"language":"en","primary_location":{"id":"doi:10.23919/acc63710.2025.11107876","is_oa":false,"landing_page_url":"https://doi.org/10.23919/acc63710.2025.11107876","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 American Control Conference (ACC)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5093925782","display_name":"Shayan Meshkat Alsadat","orcid":"https://orcid.org/0009-0006-4301-1430"},"institutions":[{"id":"https://openalex.org/I55732556","display_name":"Arizona State University","ror":"https://ror.org/03efmqc40","country_code":"US","type":"education","lineage":["https://openalex.org/I55732556"]}],"countries":["US"],"is_corresponding":true,"raw_author_name":"Shayan Meshkat Alsadat","raw_affiliation_strings":["Arizona State University,Faculty of Mechanical Engineering,Tempe,Arizona,USA"],"affiliations":[{"raw_affiliation_string":"Arizona State University,Faculty of Mechanical Engineering,Tempe,Arizona,USA","institution_ids":["https://openalex.org/I55732556"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5013789785","display_name":"Zhe Xu","orcid":"https://orcid.org/0000-0002-0440-0912"},"institutions":[{"id":"https://openalex.org/I55732556","display_name":"Arizona State University","ror":"https://ror.org/03efmqc40","country_code":"US","type":"education","lineage":["https://openalex.org/I55732556"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Zhe Xu","raw_affiliation_strings":["Arizona State University,Faculty of Mechanical Engineering,Tempe,Arizona,USA"],"affiliations":[{"raw_affiliation_string":"Arizona State University,Faculty of Mechanical Engineering,Tempe,Arizona,USA","institution_ids":["https://openalex.org/I55732556"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":["https://openalex.org/A5093925782"],"corresponding_institution_ids":["https://openalex.org/I55732556"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.28967429,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"3473","last_page":"3478"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T12288","display_name":"Optimization and Search Problems","score":0.9990000128746033,"subfield":{"id":"https://openalex.org/subfields/1705","display_name":"Computer Networks and Communications"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T12288","display_name":"Optimization and Search Problems","score":0.9990000128746033,"subfield":{"id":"https://openalex.org/subfields/1705","display_name":"Computer Networks and Communications"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9799000024795532,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12784","display_name":"Modular Robots and Swarm Intelligence","score":0.9782999753952026,"subfield":{"id":"https://openalex.org/subfields/2210","display_name":"Mechanical Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.8369832634925842},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.8046630620956421},{"id":"https://openalex.org/keywords/learning-automata","display_name":"Learning automata","score":0.7174228429794312},{"id":"https://openalex.org/keywords/trajectory","display_name":"Trajectory","score":0.6007898449897766},{"id":"https://openalex.org/keywords/automaton","display_name":"Automaton","score":0.5561516880989075},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.5069706439971924},{"id":"https://openalex.org/keywords/learning-classifier-system","display_name":"Learning classifier system","score":0.41693899035453796},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.41156741976737976}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.8369832634925842},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.8046630620956421},{"id":"https://openalex.org/C2776807809","wikidata":"https://www.wikidata.org/wiki/Q6510160","display_name":"Learning automata","level":3,"score":0.7174228429794312},{"id":"https://openalex.org/C13662910","wikidata":"https://www.wikidata.org/wiki/Q193139","display_name":"Trajectory","level":2,"score":0.6007898449897766},{"id":"https://openalex.org/C112505250","wikidata":"https://www.wikidata.org/wiki/Q787116","display_name":"Automaton","level":2,"score":0.5561516880989075},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5069706439971924},{"id":"https://openalex.org/C199190896","wikidata":"https://www.wikidata.org/wiki/Q3509276","display_name":"Learning classifier system","level":3,"score":0.41693899035453796},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.41156741976737976},{"id":"https://openalex.org/C1276947","wikidata":"https://www.wikidata.org/wiki/Q333","display_name":"Astronomy","level":1,"score":0.0},{"id":"https://openalex.org/C121332964","wikidata":"https://www.wikidata.org/wiki/Q413","display_name":"Physics","level":0,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.23919/acc63710.2025.11107876","is_oa":false,"landing_page_url":"https://doi.org/10.23919/acc63710.2025.11107876","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 American Control Conference (ACC)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[{"id":"https://openalex.org/F4320306076","display_name":"National Science Foundation","ror":"https://ror.org/021nxhr62"},{"id":"https://openalex.org/F4320337345","display_name":"Office of Naval Research","ror":"https://ror.org/00rk2pe57"}],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":7,"referenced_works":["https://openalex.org/W2505717744","https://openalex.org/W2788862220","https://openalex.org/W2963129648","https://openalex.org/W2963411833","https://openalex.org/W3173218700","https://openalex.org/W3206540493","https://openalex.org/W4400624845"],"related_works":["https://openalex.org/W1966456942","https://openalex.org/W2124961391","https://openalex.org/W2489338148","https://openalex.org/W2754028433","https://openalex.org/W576785828","https://openalex.org/W3148138296","https://openalex.org/W1882507001","https://openalex.org/W2367922714","https://openalex.org/W1986508893","https://openalex.org/W2288872327"],"abstract_inverted_index":{"Offline":[0],"reinforcement":[1],"learning":[2,144,158],"(RL)":[3],"learns":[4],"a":[5,8,55,74,153,202],"policy":[6,39,128,143,235],"from":[7,105],"fixed":[9],"batch":[10],"of":[11,16,27,178,218],"data.":[12],"However,":[13],"the":[14,17,21,25,37,42,81,106,109,120,126,136,142,148,170,175,195,207,216,226,238],"overestimation":[15],"values":[18],"rooted":[19],"in":[20,32,108],"out-of-distribution":[22,132],"actions":[23],"limits":[24],"applicability":[26],"offline":[28,45,82,160,171,228,240],"RL.":[29,83,172],"It":[30],"results":[31],"methods":[33],"constraining":[34,117],"or":[35,61,99,116,118],"regularizing":[36,119],"learned":[38,121,127],"based":[40,146],"on":[41,80,147],"dataset.":[43],"Hence,":[44],"RL":[46,161,229,241],"algorithms":[47],"try":[48],"to":[49,68,86,92,140,182,193,209,225,232],"tackle":[50,69],"this":[51,70,167],"issue":[52],"by":[53,72,201,222],"adding":[54],"secondary":[56,114],"component,":[57],"e.g.,":[58],"new":[59,75],"hyperparameters":[60],"generative":[62],"models.":[63],"Our":[64],"proposed":[65,180,220],"method":[66,155,181,221],"aims":[67],"problem":[71],"taking":[73],"perspective":[76,168],"using":[77],"two":[78],"approaches":[79],"We":[84,134,151,173,214],"tend":[85],"use":[87,135],"deterministic":[88,96],"finite":[89,97],"automoton":[90],"(DFA)":[91],"learn":[93,194,210],"Offline-DFA":[94,137,188],"(offline":[95],"automaton)":[98],"ARM-DFA":[100],"(association":[101],"rule":[102],"mining":[103],"DFA)":[104],"trajectories":[107],"dataset":[110],"without":[111],"implementing":[112],"any":[113],"component":[115],"policy.":[122,185,213],"This":[123],"means":[124],"that":[125],"does":[129],"not":[130],"face":[131],"actions.":[133],"(or":[138,189],"ARM-DFA)":[139,190],"guide":[141],"process":[145],"dataset\u2019s":[149],"trajectories.":[150],"propose":[152],"novel":[154],"called":[156],"automata":[157],"for":[159],"with":[162],"q-learning":[163],"(ALOQ),":[164],"which":[165,205],"implements":[166],"into":[169],"show":[174],"convergence":[176],"guarantee":[177],"our":[179,219],"an":[183,211,233],"optimal":[184,212,234],"In":[186],"practice,":[187],"is":[191],"used":[192],"ground":[196],"truth":[197],"task,":[198],"i.e.,":[199],"encoded":[200],"reward":[203],"machine,":[204],"allows":[206],"agent":[208],"demonstrate":[215],"performance":[217],"comparing":[223],"it":[224],"existing":[227,239],"methods,":[230],"converging":[231],"faster":[236],"than":[237],"methods.":[242]},"counts_by_year":[],"updated_date":"2025-11-06T03:46:38.306776","created_date":"2025-10-10T00:00:00"}