{"id":"https://openalex.org/W7135024738","doi":"https://doi.org/10.48550/arxiv.2603.10895","title":"Ergodicity in reinforcement learning","display_name":"Ergodicity in reinforcement learning","publication_year":2026,"publication_date":"2026-03-11","ids":{"openalex":"https://openalex.org/W7135024738","doi":"https://doi.org/10.48550/arxiv.2603.10895"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2603.10895","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.10895","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2603.10895","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5029621528","display_name":"Dominik Baumann","orcid":"https://orcid.org/0000-0001-7340-2180"},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Baumann, Dominik","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5051837539","display_name":"Erfaun Noorani","orcid":"https://orcid.org/0000-0002-5171-122X"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Noorani, Erfaun","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5010731821","display_name":"Arsenii Mustafin","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Mustafin, Arsenii","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5128919167","display_name":"Xinyi Sheng","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Sheng, Xinyi","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5090985941","display_name":"Bert Verbruggen","orcid":"https://orcid.org/0000-0001-9776-2420"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Verbruggen, Bert","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5091421820","display_name":"Arne Vanhoyweghen","orcid":"https://orcid.org/0000-0003-0103-4715"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Vanhoyweghen, Arne","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5128814176","display_name":"Vincent Ginis","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Ginis, Vincent","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5083090794","display_name":"Thomas B. Sch\u00f6n","orcid":"https://orcid.org/0000-0001-5183-234X"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Sch\u00f6n, Thomas B.","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":8,"corresponding_author_ids":["https://openalex.org/A5029621528"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9013000130653381,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9013000130653381,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12101","display_name":"Advanced Bandit Algorithms Research","score":0.024700000882148743,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},{"id":"https://openalex.org/T11031","display_name":"Game Theory and Applications","score":0.008700000122189522,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/ergodicity","display_name":"Ergodicity","score":0.7723000049591064},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7439000010490417},{"id":"https://openalex.org/keywords/ergodic-theory","display_name":"Ergodic theory","score":0.633400022983551},{"id":"https://openalex.org/keywords/markov-process","display_name":"Markov process","score":0.535099983215332},{"id":"https://openalex.org/keywords/markov-chain","display_name":"Markov chain","score":0.5117999911308289},{"id":"https://openalex.org/keywords/markov-decision-process","display_name":"Markov decision process","score":0.4851999878883362}],"concepts":[{"id":"https://openalex.org/C201779956","wikidata":"https://www.wikidata.org/wiki/Q5426803","display_name":"Ergodicity","level":2,"score":0.7723000049591064},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7439000010490417},{"id":"https://openalex.org/C122044880","wikidata":"https://www.wikidata.org/wiki/Q5498822","display_name":"Ergodic theory","level":2,"score":0.633400022983551},{"id":"https://openalex.org/C159886148","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov process","level":2,"score":0.535099983215332},{"id":"https://openalex.org/C98763669","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov chain","level":2,"score":0.5117999911308289},{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.4851999878883362},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.4675000011920929},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.46709999442100525},{"id":"https://openalex.org/C2776291640","wikidata":"https://www.wikidata.org/wiki/Q2912517","display_name":"Value (mathematics)","level":2,"score":0.45840001106262207},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.39590001106262207},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.3937999904155731},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.32249999046325684},{"id":"https://openalex.org/C188116033","wikidata":"https://www.wikidata.org/wiki/Q2664563","display_name":"Q-learning","level":3,"score":0.31150001287460327},{"id":"https://openalex.org/C8272713","wikidata":"https://www.wikidata.org/wiki/Q176737","display_name":"Stochastic process","level":2,"score":0.29670000076293945},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.2721000015735626},{"id":"https://openalex.org/C163540672","wikidata":"https://www.wikidata.org/wiki/Q1115431","display_name":"Markov renewal process","level":5,"score":0.25429999828338623}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2603.10895","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.10895","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2603.10895","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.10895","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[{"display_name":"Reduced inequalities","score":0.4934856593608856,"id":"https://metadata.un.org/sdg/10"}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"In":[0,78],"reinforcement":[1,90],"learning,":[2],"we":[3,59,81],"typically":[4],"aim":[5],"to":[6,104],"optimize":[7,118],"the":[8,12,24,31,35,48,63,69,83,98],"expected":[9,32,70],"value":[10,71],"of":[11,14,85,100,109,121],"sum":[13],"rewards":[15,28],"an":[16,94],"agent":[17,65],"collects":[18],"over":[19,37,50],"a":[20,42,51,74],"trajectory.":[21,56],"However,":[22],"if":[23,58],"process":[25],"generating":[26],"these":[27],"is":[29,45,72],"non-ergodic,":[30],"value,":[33],"i.e.,":[34],"average":[36,49],"infinitely":[38,54],"many":[39],"trajectories":[40,123],"with":[41],"given":[43],"policy,":[44],"uninformative":[46],"for":[47],"single,":[52],"but":[53],"long":[55],"Thus,":[57],"care":[60],"about":[61],"how":[62],"individual":[64,122],"performs":[66],"during":[67],"deployment,":[68],"not":[73],"good":[75],"optimization":[76],"objective.":[77],"this":[79],"paper,":[80],"discuss":[82],"impact":[84],"non-ergodic":[86,125],"reward":[87,102,126],"processes":[88,103],"on":[89],"learning":[91],"agents":[92],"through":[93],"instructive":[95],"example,":[96],"relate":[97],"notion":[99],"ergodic":[101,110],"more":[105],"widely":[106],"used":[107],"notions":[108],"Markov":[111],"chains,":[112],"and":[113],"present":[114],"existing":[115],"solutions":[116],"that":[117],"long-term":[119],"performance":[120],"under":[124],"dynamics.":[127]},"counts_by_year":[],"updated_date":"2026-03-13T14:25:03.468858","created_date":"2026-03-13T00:00:00"}