{"id":"https://openalex.org/W7148872251","doi":"https://doi.org/10.48550/arxiv.2604.02260","title":"Model-Based Reinforcement Learning for Control under Time-Varying Dynamics","display_name":"Model-Based Reinforcement Learning for Control under Time-Varying Dynamics","publication_year":2026,"publication_date":"2026-04-02","ids":{"openalex":"https://openalex.org/W7148872251","doi":"https://doi.org/10.48550/arxiv.2604.02260"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2604.02260","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.02260","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2604.02260","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5132835883","display_name":"Klemens Iten","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Iten, Klemens","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5132901772","display_name":"Bruce Lee","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Lee, Bruce","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5132897317","display_name":"Chenhao Li","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Li, Chenhao","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5051876989","display_name":"Lenart Treven","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Treven, Lenart","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5132888169","display_name":"Andreas Krause","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Krause, Andreas","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5132885378","display_name":"Bhavya Sukhija","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Sukhija, Bhavya","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":6,"corresponding_author_ids":["https://openalex.org/A5132835883"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.42590001225471497,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.42590001225471497,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12101","display_name":"Advanced Bandit Algorithms Research","score":0.2870999872684479,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},{"id":"https://openalex.org/T12814","display_name":"Gaussian Processes and Bayesian Inference","score":0.08470000326633453,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.8125},{"id":"https://openalex.org/keywords/regret","display_name":"Regret","score":0.6424999833106995},{"id":"https://openalex.org/keywords/control","display_name":"Control (management)","score":0.5532000064849854},{"id":"https://openalex.org/keywords/process","display_name":"Process (computing)","score":0.5045999884605408},{"id":"https://openalex.org/keywords/system-dynamics","display_name":"System dynamics","score":0.4765999913215637},{"id":"https://openalex.org/keywords/gaussian-process","display_name":"Gaussian process","score":0.44839999079704285},{"id":"https://openalex.org/keywords/dynamics","display_name":"Dynamics (music)","score":0.43320000171661377},{"id":"https://openalex.org/keywords/frequentist-inference","display_name":"Frequentist inference","score":0.43070000410079956}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.8125},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6625999808311462},{"id":"https://openalex.org/C50817715","wikidata":"https://www.wikidata.org/wiki/Q79895177","display_name":"Regret","level":2,"score":0.6424999833106995},{"id":"https://openalex.org/C2775924081","wikidata":"https://www.wikidata.org/wiki/Q55608371","display_name":"Control (management)","level":2,"score":0.5532000064849854},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.5045999884605408},{"id":"https://openalex.org/C77405623","wikidata":"https://www.wikidata.org/wiki/Q598451","display_name":"System dynamics","level":2,"score":0.4765999913215637},{"id":"https://openalex.org/C61326573","wikidata":"https://www.wikidata.org/wiki/Q1496376","display_name":"Gaussian process","level":3,"score":0.44839999079704285},{"id":"https://openalex.org/C145912823","wikidata":"https://www.wikidata.org/wiki/Q113558","display_name":"Dynamics (music)","level":2,"score":0.43320000171661377},{"id":"https://openalex.org/C162376815","wikidata":"https://www.wikidata.org/wiki/Q2158281","display_name":"Frequentist inference","level":4,"score":0.43070000410079956},{"id":"https://openalex.org/C188198153","wikidata":"https://www.wikidata.org/wiki/Q1613840","display_name":"Limiting","level":2,"score":0.4253000020980835},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.4187000095844269},{"id":"https://openalex.org/C91575142","wikidata":"https://www.wikidata.org/wiki/Q1971426","display_name":"Optimal control","level":2,"score":0.36309999227523804},{"id":"https://openalex.org/C112972136","wikidata":"https://www.wikidata.org/wiki/Q7595718","display_name":"Stability (learning theory)","level":2,"score":0.36239999532699585},{"id":"https://openalex.org/C107464732","wikidata":"https://www.wikidata.org/wiki/Q235781","display_name":"Adaptive control","level":3,"score":0.3564000129699707},{"id":"https://openalex.org/C17500928","wikidata":"https://www.wikidata.org/wiki/Q959968","display_name":"Control system","level":2,"score":0.3303000032901764},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.3255000114440918},{"id":"https://openalex.org/C47446073","wikidata":"https://www.wikidata.org/wiki/Q5165890","display_name":"Control theory (sociology)","level":3,"score":0.3215000033378601},{"id":"https://openalex.org/C2987333383","wikidata":"https://www.wikidata.org/wiki/Q1649571","display_name":"Process dynamics","level":3,"score":0.3133000135421753},{"id":"https://openalex.org/C199190896","wikidata":"https://www.wikidata.org/wiki/Q3509276","display_name":"Learning classifier system","level":3,"score":0.28380000591278076},{"id":"https://openalex.org/C79379906","wikidata":"https://www.wikidata.org/wiki/Q3174497","display_name":"Dynamical systems theory","level":2,"score":0.26100000739097595},{"id":"https://openalex.org/C33962884","wikidata":"https://www.wikidata.org/wiki/Q378637","display_name":"Dynamical system (definition)","level":3,"score":0.2513999938964844},{"id":"https://openalex.org/C196340769","wikidata":"https://www.wikidata.org/wiki/Q7698910","display_name":"Temporal difference learning","level":3,"score":0.25049999356269836}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2604.02260","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.02260","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2604.02260","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.02260","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[{"score":0.475744366645813,"id":"https://metadata.un.org/sdg/16","display_name":"Peace, Justice and strong institutions"}],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Learning-based":[0],"control":[1,28,117],"methods":[2],"typically":[3],"assume":[4],"stationary":[5],"system":[6,50],"dynamics,":[7],"an":[8,42],"assumption":[9],"often":[10],"violated":[11],"in":[12,40],"real-world":[13],"systems":[14],"due":[15],"to":[16,84],"drift,":[17],"wear,":[18],"or":[19],"changing":[20],"operating":[21],"conditions.":[22],"We":[23,32,57],"study":[24],"reinforcement":[25,37,103],"learning":[26,38,104],"for":[27],"under":[29,66],"time-varying":[30],"dynamics.":[31,121],"consider":[33],"a":[34,48,99],"continual":[35],"model-based":[36,102],"setting":[39],"which":[41],"agent":[43],"repeatedly":[44],"learns":[45],"and":[46,88,111],"controls":[47],"dynamical":[49],"whose":[51],"transition":[52],"dynamics":[53,64],"evolve":[54],"across":[55],"episodes.":[56],"analyze":[58],"the":[59,79],"problem":[60],"using":[61],"Gaussian":[62],"process":[63],"models":[65],"frequentist":[67],"variation-budget":[68],"assumptions.":[69],"Our":[70],"analysis":[71],"shows":[72],"that":[73],"persistent":[74],"non-stationarity":[75],"requires":[76],"explicitly":[77],"limiting":[78],"influence":[80],"of":[81],"outdated":[82],"data":[83,108],"maintain":[85],"calibrated":[86],"uncertainty":[87],"meaningful":[89],"dynamic":[90],"regret":[91],"guarantees.":[92],"Motivated":[93],"by":[94],"these":[95],"insights,":[96],"we":[97],"propose":[98],"practical":[100],"optimistic":[101],"algorithm":[105],"with":[106,119],"adaptive":[107],"buffer":[109],"mechanisms":[110],"demonstrate":[112],"improved":[113],"performance":[114],"on":[115],"continuous":[116],"benchmarks":[118],"non-stationary":[120]},"counts_by_year":[],"updated_date":"2026-04-04T06:15:33.020886","created_date":"2026-04-04T00:00:00"}