{"id":"https://openalex.org/W7123360813","doi":"https://doi.org/10.1109/cdc57313.2025.11312563","title":"An Exploration-free Method for a Linear Stochastic Bandit Driven by a Linear Gaussian Dynamical System","display_name":"An Exploration-free Method for a Linear Stochastic Bandit Driven by a Linear Gaussian Dynamical System","publication_year":2025,"publication_date":"2025-12-09","ids":{"openalex":"https://openalex.org/W7123360813","doi":"https://doi.org/10.1109/cdc57313.2025.11312563"},"language":null,"primary_location":{"id":"doi:10.1109/cdc57313.2025.11312563","is_oa":false,"landing_page_url":"https://doi.org/10.1109/cdc57313.2025.11312563","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE 64th Conference on Decision and Control (CDC)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5111199137","display_name":"Jonathan Gornet","orcid":null},"institutions":[{"id":"https://openalex.org/I204465549","display_name":"Washington University in St. Louis","ror":"https://ror.org/01yc7t268","country_code":"US","type":"education","lineage":["https://openalex.org/I204465549"]}],"countries":["US"],"is_corresponding":true,"raw_author_name":"Jonathan Gornet","raw_affiliation_strings":["Washington University in St. Louis,Department of Electrical and Systems Engineering,St. Louis,MO,USA,63130"],"affiliations":[{"raw_affiliation_string":"Washington University in St. Louis,Department of Electrical and Systems Engineering,St. Louis,MO,USA,63130","institution_ids":["https://openalex.org/I204465549"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5122888154","display_name":"Yilin Mo","orcid":null},"institutions":[{"id":"https://openalex.org/I99065089","display_name":"Tsinghua University","ror":"https://ror.org/03cve4549","country_code":"CN","type":"education","lineage":["https://openalex.org/I99065089"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Yilin Mo","raw_affiliation_strings":["Tsinghua University,Department of Automation,Beijing,China,100084"],"affiliations":[{"raw_affiliation_string":"Tsinghua University,Department of Automation,Beijing,China,100084","institution_ids":["https://openalex.org/I99065089"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5027842202","display_name":"Bruno Sinopoli Sinopoli","orcid":null},"institutions":[{"id":"https://openalex.org/I204465549","display_name":"Washington University in St. Louis","ror":"https://ror.org/01yc7t268","country_code":"US","type":"education","lineage":["https://openalex.org/I204465549"]}],"countries":["US"],"is_corresponding":false,"raw_author_name":"Bruno Sinopoli","raw_affiliation_strings":["Washington University in St. Louis,Department of Electrical and Systems Engineering,St. Louis,MO,USA,63130"],"affiliations":[{"raw_affiliation_string":"Washington University in St. Louis,Department of Electrical and Systems Engineering,St. Louis,MO,USA,63130","institution_ids":["https://openalex.org/I204465549"]}]}],"institutions":[],"countries_distinct_count":2,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5111199137"],"corresponding_institution_ids":["https://openalex.org/I204465549"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.76913917,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"5493","last_page":"5500"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T12101","display_name":"Advanced Bandit Algorithms Research","score":0.9641000032424927,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},"topics":[{"id":"https://openalex.org/T12101","display_name":"Advanced Bandit Algorithms Research","score":0.9641000032424927,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.014399999752640724,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12814","display_name":"Gaussian Processes and Bayesian Inference","score":0.003800000064074993,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/observability","display_name":"Observability","score":0.7748000025749207},{"id":"https://openalex.org/keywords/linear-dynamical-system","display_name":"Linear dynamical system","score":0.7060999870300293},{"id":"https://openalex.org/keywords/gaussian","display_name":"Gaussian","score":0.5662999749183655},{"id":"https://openalex.org/keywords/kalman-filter","display_name":"Kalman filter","score":0.5576000213623047},{"id":"https://openalex.org/keywords/dynamical-systems-theory","display_name":"Dynamical systems theory","score":0.5343000292778015},{"id":"https://openalex.org/keywords/hyperparameter","display_name":"Hyperparameter","score":0.5087000131607056},{"id":"https://openalex.org/keywords/linear-quadratic-gaussian-control","display_name":"Linear-quadratic-Gaussian control","score":0.41589999198913574},{"id":"https://openalex.org/keywords/dynamical-system","display_name":"Dynamical system (definition)","score":0.3865000009536743}],"concepts":[{"id":"https://openalex.org/C36299963","wikidata":"https://www.wikidata.org/wiki/Q1369844","display_name":"Observability","level":2,"score":0.7748000025749207},{"id":"https://openalex.org/C114275822","wikidata":"https://www.wikidata.org/wiki/Q621512","display_name":"Linear dynamical system","level":3,"score":0.7060999870300293},{"id":"https://openalex.org/C163716315","wikidata":"https://www.wikidata.org/wiki/Q901177","display_name":"Gaussian","level":2,"score":0.5662999749183655},{"id":"https://openalex.org/C157286648","wikidata":"https://www.wikidata.org/wiki/Q846780","display_name":"Kalman filter","level":2,"score":0.5576000213623047},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.5435000061988831},{"id":"https://openalex.org/C79379906","wikidata":"https://www.wikidata.org/wiki/Q3174497","display_name":"Dynamical systems theory","level":2,"score":0.5343000292778015},{"id":"https://openalex.org/C8642999","wikidata":"https://www.wikidata.org/wiki/Q4171168","display_name":"Hyperparameter","level":2,"score":0.5087000131607056},{"id":"https://openalex.org/C204495892","wikidata":"https://www.wikidata.org/wiki/Q1798304","display_name":"Linear-quadratic-Gaussian control","level":3,"score":0.41589999198913574},{"id":"https://openalex.org/C33962884","wikidata":"https://www.wikidata.org/wiki/Q378637","display_name":"Dynamical system (definition)","level":3,"score":0.3865000009536743},{"id":"https://openalex.org/C28826006","wikidata":"https://www.wikidata.org/wiki/Q33521","display_name":"Applied mathematics","level":1,"score":0.3824999928474426},{"id":"https://openalex.org/C73602740","wikidata":"https://www.wikidata.org/wiki/Q7795822","display_name":"Thompson sampling","level":3,"score":0.37389999628067017},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.3619999885559082},{"id":"https://openalex.org/C6802819","wikidata":"https://www.wikidata.org/wiki/Q1072174","display_name":"Linear system","level":2,"score":0.353300005197525},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.34459999203681946},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.34360000491142273},{"id":"https://openalex.org/C163175372","wikidata":"https://www.wikidata.org/wiki/Q3339222","display_name":"Linear model","level":2,"score":0.335999995470047},{"id":"https://openalex.org/C57691317","wikidata":"https://www.wikidata.org/wiki/Q1289248","display_name":"Scalar (mathematics)","level":2,"score":0.31839999556541443},{"id":"https://openalex.org/C61326573","wikidata":"https://www.wikidata.org/wiki/Q1496376","display_name":"Gaussian process","level":3,"score":0.31679999828338623},{"id":"https://openalex.org/C47446073","wikidata":"https://www.wikidata.org/wiki/Q5165890","display_name":"Control theory (sociology)","level":3,"score":0.2921000123023987},{"id":"https://openalex.org/C4199805","wikidata":"https://www.wikidata.org/wiki/Q2725903","display_name":"Gaussian noise","level":2,"score":0.29030001163482666},{"id":"https://openalex.org/C41045048","wikidata":"https://www.wikidata.org/wiki/Q202843","display_name":"Linear programming","level":2,"score":0.2847999930381775},{"id":"https://openalex.org/C106131492","wikidata":"https://www.wikidata.org/wiki/Q3072260","display_name":"Filter (signal processing)","level":2,"score":0.2833999991416931},{"id":"https://openalex.org/C139722471","wikidata":"https://www.wikidata.org/wiki/Q2619517","display_name":"Linear filter","level":3,"score":0.2718000113964081}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/cdc57313.2025.11312563","is_oa":false,"landing_page_url":"https://doi.org/10.1109/cdc57313.2025.11312563","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 IEEE 64th Conference on Decision and Control (CDC)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"In":[0,39],"stochastic":[1,212],"multi-armed":[2,213],"bandits,":[3],"a":[4,44,55,62],"major":[5,106],"problem":[6,63],"the":[7,11,23,28,34,49,52,72,80,98,115,118,124,128,144,149,154,171,182,190,197,200],"learner":[8,191],"faces":[9],"is":[10,51,76,111,121,143,207],"trade-off":[12],"between":[13,148],"exploration":[14],"and":[15,153,159],"exploitation.":[16],"Recently,":[17],"exploration-free":[18,94],"methods\u2014methods":[19],"that":[20,96,114,186],"commit":[21],"to":[22,26,102,192,209,216],"action":[24,160,168],"predicted":[25],"return":[27],"highest":[29,150],"reward\u2014have":[30],"been":[31],"studied":[32],"from":[33],"perspective":[35],"of":[36,54,74,82,108,117,127,199],"linear":[37,45,56,130,172,201],"bandits.":[38],"this":[40,109],"paper,":[41],"we":[42,85,184],"introduce":[43],"bandit":[46,214],"setting":[47],"where":[48,71],"reward":[50,152,155],"output":[53],"Gaussian":[57,131,173,202],"dynamical":[58,132,174,203],"system.":[59,133,204],"Motivated":[60],"by":[61,157],"encountered":[64],"in":[65],"hyperparameter":[66],"optimization":[67],"for":[68],"reinforcement":[69],"learning,":[70],"number":[73,81],"actions":[75,194],"much":[77],"higher":[78],"than":[79],"training":[83],"iterations,":[84],"propose":[86],"Kalman":[87,99],"filter":[88,100],"Observability":[89],"Dependent":[90],"Exploration":[91],"(KODE),":[92],"an":[93],"method":[95,120,206],"utilizes":[97],"predictions":[101],"select":[103],"actions.":[104],"Our":[105],"contribution":[107],"work":[110],"our":[112,218],"discovery":[113],"performance":[116],"proposed":[119],"dependent":[122],"on":[123,181,196],"observability":[125,198],"properties":[126],"underlying":[129],"We":[134],"evaluate":[135],"KODE":[136,187],"via":[137],"two":[138],"different":[139],"metrics:":[140],"regret,":[141],"which":[142,162],"cumulative":[145],"expected":[146],"difference":[147],"possible":[151],"sampled":[156],"KODE,":[158],"alignment,":[161],"measures":[163],"how":[164],"closely":[165],"KODE\u2019s":[166],"chosen":[167],"aligns":[169],"with":[170],"system\u2019s":[175],"state":[176],"variable.":[177],"To":[178],"provide":[179],"intuition":[180],"performance,":[183],"prove":[185],"implicitly":[188],"encourages":[189],"explore":[193],"depending":[195],"This":[205],"compared":[208],"several":[210],"well-known":[211],"algorithms":[215],"validate":[217],"theoretical":[219],"results.":[220]},"counts_by_year":[],"updated_date":"2026-01-14T00:46:21.520733","created_date":"2026-01-14T00:00:00"}