{"id":"https://openalex.org/W7128503656","doi":"https://doi.org/10.48550/arxiv.2602.08054","title":"Epigraph-Guided Flow Matching for Safe and Performant Offline Reinforcement Learning","display_name":"Epigraph-Guided Flow Matching for Safe and Performant Offline Reinforcement Learning","publication_year":2026,"publication_date":"2026-02-08","ids":{"openalex":"https://openalex.org/W7128503656","doi":"https://doi.org/10.48550/arxiv.2602.08054"},"language":null,"primary_location":{"id":"pmh:doi:10.48550/arxiv.2602.08054","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":null,"any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5059362138","display_name":"Manan Tayal","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Tayal, Manan","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5125583249","display_name":"Mumuksh Tayal","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Tayal, Mumuksh","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":2,"corresponding_author_ids":["https://openalex.org/A5059362138"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.5228000283241272,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.5228000283241272,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Machine Learning","score":0.149399995803833,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12794","display_name":"Adaptive Dynamic Programming Control","score":0.04390000179409981,"subfield":{"id":"https://openalex.org/subfields/1703","display_name":"Computational Theory and Mathematics"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7847999930381775},{"id":"https://openalex.org/keywords/function","display_name":"Function (biology)","score":0.5242999792098999},{"id":"https://openalex.org/keywords/matching","display_name":"Matching (statistics)","score":0.4819999933242798},{"id":"https://openalex.org/keywords/bellman-equation","display_name":"Bellman equation","score":0.45739999413490295},{"id":"https://openalex.org/keywords/offline-learning","display_name":"Offline learning","score":0.4327999949455261},{"id":"https://openalex.org/keywords/control","display_name":"Control (management)","score":0.4074000120162964},{"id":"https://openalex.org/keywords/flow","display_name":"Flow (mathematics)","score":0.3840000033378601},{"id":"https://openalex.org/keywords/value","display_name":"Value (mathematics)","score":0.3610999882221222},{"id":"https://openalex.org/keywords/empirical-distribution-function","display_name":"Empirical distribution function","score":0.35740000009536743}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7847999930381775},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7253999710083008},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5396000146865845},{"id":"https://openalex.org/C14036430","wikidata":"https://www.wikidata.org/wiki/Q3736076","display_name":"Function (biology)","level":2,"score":0.5242999792098999},{"id":"https://openalex.org/C165064840","wikidata":"https://www.wikidata.org/wiki/Q1321061","display_name":"Matching (statistics)","level":2,"score":0.4819999933242798},{"id":"https://openalex.org/C14646407","wikidata":"https://www.wikidata.org/wiki/Q1430750","display_name":"Bellman equation","level":2,"score":0.45739999413490295},{"id":"https://openalex.org/C2780490138","wikidata":"https://www.wikidata.org/wiki/Q7079636","display_name":"Offline learning","level":3,"score":0.4327999949455261},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.4253000020980835},{"id":"https://openalex.org/C2775924081","wikidata":"https://www.wikidata.org/wiki/Q55608371","display_name":"Control (management)","level":2,"score":0.4074000120162964},{"id":"https://openalex.org/C38349280","wikidata":"https://www.wikidata.org/wiki/Q1434290","display_name":"Flow (mathematics)","level":2,"score":0.3840000033378601},{"id":"https://openalex.org/C2776291640","wikidata":"https://www.wikidata.org/wiki/Q2912517","display_name":"Value (mathematics)","level":2,"score":0.3610999882221222},{"id":"https://openalex.org/C98385598","wikidata":"https://www.wikidata.org/wiki/Q1339385","display_name":"Empirical distribution function","level":2,"score":0.35740000009536743},{"id":"https://openalex.org/C17192189","wikidata":"https://www.wikidata.org/wiki/Q1347059","display_name":"Epigraph","level":2,"score":0.3513000011444092},{"id":"https://openalex.org/C39890363","wikidata":"https://www.wikidata.org/wiki/Q36108","display_name":"Generative grammar","level":2,"score":0.34549999237060547},{"id":"https://openalex.org/C2780440489","wikidata":"https://www.wikidata.org/wiki/Q5227278","display_name":"Data-driven","level":2,"score":0.3449999988079071},{"id":"https://openalex.org/C2780102126","wikidata":"https://www.wikidata.org/wiki/Q10928179","display_name":"Online and offline","level":2,"score":0.3273000121116638},{"id":"https://openalex.org/C167966045","wikidata":"https://www.wikidata.org/wiki/Q5532625","display_name":"Generative model","level":3,"score":0.3158000111579895},{"id":"https://openalex.org/C114809511","wikidata":"https://www.wikidata.org/wiki/Q1412924","display_name":"Flow network","level":2,"score":0.31439998745918274},{"id":"https://openalex.org/C108583219","wikidata":"https://www.wikidata.org/wiki/Q197536","display_name":"Deep learning","level":2,"score":0.2881999909877777},{"id":"https://openalex.org/C45374587","wikidata":"https://www.wikidata.org/wiki/Q12525525","display_name":"Computation","level":2,"score":0.28189998865127563},{"id":"https://openalex.org/C43214815","wikidata":"https://www.wikidata.org/wiki/Q7310987","display_name":"Reliability (semiconductor)","level":3,"score":0.2754000127315521},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.2718999981880188},{"id":"https://openalex.org/C196921405","wikidata":"https://www.wikidata.org/wiki/Q786431","display_name":"Online algorithm","level":2,"score":0.2669999897480011},{"id":"https://openalex.org/C91575142","wikidata":"https://www.wikidata.org/wiki/Q1971426","display_name":"Optimal control","level":2,"score":0.2590999901294708},{"id":"https://openalex.org/C177769412","wikidata":"https://www.wikidata.org/wiki/Q278090","display_name":"Prior probability","level":3,"score":0.2531999945640564}],"mesh":[],"locations_count":2,"locations":[{"id":"pmh:doi:10.48550/arxiv.2602.08054","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},{"id":"doi:10.48550/arxiv.2602.08054","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2602.08054","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"pmh:doi:10.48550/arxiv.2602.08054","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},"sustainable_development_goals":[{"score":0.6832267045974731,"id":"https://metadata.un.org/sdg/16","display_name":"Peace, Justice and strong institutions"}],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Offline":[0],"reinforcement":[1],"learning":[2],"(RL)":[3],"provides":[4],"a":[5,72,80,92,134],"compelling":[6],"paradigm":[7],"for":[8],"training":[9],"autonomous":[10],"systems":[11],"without":[12],"the":[13,60,102,108,123,161],"risks":[14],"of":[15,101,163],"online":[16],"exploration,":[17],"particularly":[18],"in":[19,115],"safety-critical":[20,146],"domains.":[21],"However,":[22],"jointly":[23],"achieving":[24],"strong":[25],"safety":[26,87,158],"and":[27,57,88,132],"performance":[28],"from":[29,97],"fixed":[30],"datasets":[31],"remains":[32],"challenging.":[33],"Existing":[34],"safe":[35,76],"offline":[36,77],"RL":[37,78],"methods":[38],"often":[39],"rely":[40],"on":[41,127],"soft":[42],"constraints":[43],"that":[44,74],"allow":[45],"violations,":[46,159],"introduce":[47],"excessive":[48],"conservatism,":[49],"or":[50,111],"struggle":[51],"to":[52,59,85],"balance":[53],"safety,":[54],"reward":[55],"optimization,":[56],"adherence":[58],"data":[61],"distribution.":[62],"To":[63],"address":[64],"this,":[65],"we":[66],"propose":[67],"Epigraph-Guided":[68],"Flow":[69],"Matching":[70],"(EpiFlow),":[71],"framework":[73],"formulates":[75],"as":[79],"state-constrained":[81],"optimal":[82,103],"control":[83,104],"problem":[84],"co-optimize":[86],"performance.":[89],"We":[90],"learn":[91],"feasibility":[93],"value":[94,130],"function":[95,131],"derived":[96],"an":[98],"epigraph":[99,129],"reformulation":[100],"problem,":[105],"thereby":[106],"avoiding":[107],"decoupled":[109],"objectives":[110],"post-hoc":[112],"filtering":[113],"common":[114],"prior":[116],"work.":[117],"Policies":[118],"are":[119],"synthesized":[120],"by":[121],"reweighting":[122],"behavior":[124],"distribution":[125],"based":[126],"this":[128],"fitting":[133],"generative":[135],"policy":[136,165],"via":[137],"flow":[138],"matching,":[139],"enabling":[140],"efficient,":[141],"distribution-consistent":[142],"sampling.":[143],"Across":[144],"various":[145],"tasks,":[147],"including":[148],"Safety-Gymnasium":[149],"benchmarks,":[150],"EpiFlow":[151],"achieves":[152],"competitive":[153],"returns":[154],"with":[155],"near-zero":[156],"empirical":[157],"demonstrating":[160],"effectiveness":[162],"epigraph-guided":[164],"synthesis.":[166]},"counts_by_year":[],"updated_date":"2026-04-04T16:13:02.066488","created_date":"2026-02-11T00:00:00"}