{"id":"https://openalex.org/W7131112821","doi":"https://doi.org/10.48550/arxiv.2602.18117","title":"Flow Matching with Injected Noise for Offline-to-Online Reinforcement Learning","display_name":"Flow Matching with Injected Noise for Offline-to-Online Reinforcement Learning","publication_year":2026,"publication_date":"2026-02-20","ids":{"openalex":"https://openalex.org/W7131112821","doi":"https://doi.org/10.48550/arxiv.2602.18117"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2602.18117","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2602.18117","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2602.18117","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5126598318","display_name":"Yongjae Shin","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Shin, Yongjae","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5126607501","display_name":"Jongseong Chae","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Chae, Jongseong","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5089047952","display_name":"Jongeui Park","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Park, Jongeui","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5081852919","display_name":"Youngchul Sung","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Sung, Youngchul","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":4,"corresponding_author_ids":["https://openalex.org/A5126598318"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.7358999848365784,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.7358999848365784,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12535","display_name":"Machine Learning and Data Classification","score":0.02459999918937683,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11307","display_name":"Domain Adaptation and Few-Shot Learning","score":0.021900000050663948,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7537999749183655},{"id":"https://openalex.org/keywords/noise","display_name":"Noise (video)","score":0.6735000014305115},{"id":"https://openalex.org/keywords/matching","display_name":"Matching (statistics)","score":0.6699000000953674},{"id":"https://openalex.org/keywords/key","display_name":"Key (lock)","score":0.5864999890327454},{"id":"https://openalex.org/keywords/flow","display_name":"Flow (mathematics)","score":0.5540000200271606},{"id":"https://openalex.org/keywords/sample","display_name":"Sample (material)","score":0.47510001063346863},{"id":"https://openalex.org/keywords/range","display_name":"Range (aeronautics)","score":0.4699000120162964},{"id":"https://openalex.org/keywords/generative-grammar","display_name":"Generative grammar","score":0.43389999866485596},{"id":"https://openalex.org/keywords/continuation","display_name":"Continuation","score":0.39590001106262207}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7537999749183655},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7182999849319458},{"id":"https://openalex.org/C99498987","wikidata":"https://www.wikidata.org/wiki/Q2210247","display_name":"Noise (video)","level":3,"score":0.6735000014305115},{"id":"https://openalex.org/C165064840","wikidata":"https://www.wikidata.org/wiki/Q1321061","display_name":"Matching (statistics)","level":2,"score":0.6699000000953674},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.5864999890327454},{"id":"https://openalex.org/C38349280","wikidata":"https://www.wikidata.org/wiki/Q1434290","display_name":"Flow (mathematics)","level":2,"score":0.5540000200271606},{"id":"https://openalex.org/C198531522","wikidata":"https://www.wikidata.org/wiki/Q485146","display_name":"Sample (material)","level":2,"score":0.47510001063346863},{"id":"https://openalex.org/C204323151","wikidata":"https://www.wikidata.org/wiki/Q905424","display_name":"Range (aeronautics)","level":2,"score":0.4699000120162964},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.4535999894142151},{"id":"https://openalex.org/C39890363","wikidata":"https://www.wikidata.org/wiki/Q36108","display_name":"Generative grammar","level":2,"score":0.43389999866485596},{"id":"https://openalex.org/C88626702","wikidata":"https://www.wikidata.org/wiki/Q1128903","display_name":"Continuation","level":2,"score":0.39590001106262207},{"id":"https://openalex.org/C167966045","wikidata":"https://www.wikidata.org/wiki/Q5532625","display_name":"Generative model","level":3,"score":0.3873000144958496},{"id":"https://openalex.org/C2780490138","wikidata":"https://www.wikidata.org/wiki/Q7079636","display_name":"Offline learning","level":3,"score":0.38269999623298645},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.35269999504089355},{"id":"https://openalex.org/C140779682","wikidata":"https://www.wikidata.org/wiki/Q210868","display_name":"Sampling (signal processing)","level":3,"score":0.34940001368522644},{"id":"https://openalex.org/C2780102126","wikidata":"https://www.wikidata.org/wiki/Q10928179","display_name":"Online and offline","level":2,"score":0.33219999074935913},{"id":"https://openalex.org/C13662910","wikidata":"https://www.wikidata.org/wiki/Q193139","display_name":"Trajectory","level":2,"score":0.3253999948501587},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.323199987411499},{"id":"https://openalex.org/C2986087404","wikidata":"https://www.wikidata.org/wiki/Q15946010","display_name":"Online learning","level":2,"score":0.30230000615119934},{"id":"https://openalex.org/C136197465","wikidata":"https://www.wikidata.org/wiki/Q1729295","display_name":"Variety (cybernetics)","level":2,"score":0.2971000075340271},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.2913999855518341},{"id":"https://openalex.org/C2778445095","wikidata":"https://www.wikidata.org/wiki/Q18354077","display_name":"Sample complexity","level":2,"score":0.28450000286102295},{"id":"https://openalex.org/C2778029271","wikidata":"https://www.wikidata.org/wiki/Q5421931","display_name":"Extension (predicate logic)","level":2,"score":0.28299999237060547},{"id":"https://openalex.org/C110121322","wikidata":"https://www.wikidata.org/wiki/Q865811","display_name":"Distribution (mathematics)","level":2,"score":0.2572000026702881}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2602.18117","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2602.18117","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2602.18117","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2602.18117","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Generative":[0],"models":[1],"have":[2,22],"recently":[3],"demonstrated":[4],"remarkable":[5],"success":[6],"across":[7,139],"diverse":[8],"domains,":[9],"motivating":[10],"their":[11,37],"adoption":[12],"as":[13,46],"expressive":[14],"policies":[15,78],"in":[16,26,106],"reinforcement":[17],"learning":[18],"(RL).":[19],"While":[20],"they":[21],"shown":[23],"strong":[24],"performance":[25,149],"offline":[27,51,108],"RL,":[28],"particularly":[29],"where":[30],"the":[31,107,129],"target":[32],"distribution":[33],"is":[34],"well":[35],"defined,":[36],"extension":[38],"to":[39,79,112,123,131],"online":[40,136,152],"fine-tuning":[41],"has":[42],"largely":[43],"been":[44],"treated":[45],"a":[47,71,98],"direct":[48],"continuation":[49],"of":[50,101],"pre-training,":[52],"leaving":[53],"key":[54],"challenges":[55],"unaddressed.":[56],"In":[57,110],"this":[58],"paper,":[59],"we":[60,117],"propose":[61],"Flow":[62],"Matching":[63],"with":[64],"Injected":[65],"Noise":[66],"for":[67,83],"Offline-to-Online":[68],"RL":[69],"(FINO),":[70],"novel":[72],"method":[73],"that":[74,144],"leverages":[75],"flow":[76,114],"matching-based":[77],"enhance":[80],"sample":[81],"efficiency":[82],"offline-to-online":[84],"RL.":[85],"FINO":[86,145],"facilitates":[87],"effective":[88],"exploration":[89,125],"by":[90],"injecting":[91],"noise":[92],"into":[93],"policy":[94,115,130],"training,":[95,116],"thereby":[96],"encouraging":[97],"broader":[99],"range":[100],"actions":[102],"beyond":[103],"those":[104],"observed":[105],"dataset.":[109],"addition":[111],"exploration-enhanced":[113],"combine":[118],"an":[119],"entropy-guided":[120],"sampling":[121],"mechanism":[122],"balance":[124],"and":[126],"exploitation,":[127],"allowing":[128],"adapt":[132],"its":[133],"behavior":[134],"throughout":[135],"fine-tuning.":[137],"Experiments":[138],"diverse,":[140],"challenging":[141],"tasks":[142],"demonstrate":[143],"consistently":[146],"achieves":[147],"superior":[148],"under":[150],"limited":[151],"budgets.":[153]},"counts_by_year":[],"updated_date":"2026-02-24T06:20:37.074948","created_date":"2026-02-24T00:00:00"}