{"id":"https://openalex.org/W7161044806","doi":"https://doi.org/10.48550/arxiv.2605.12416","title":"Aligning Flow Map Policies with Optimal Q-Guidance","display_name":"Aligning Flow Map Policies with Optimal Q-Guidance","publication_year":2026,"publication_date":"2026-05-12","ids":{"openalex":"https://openalex.org/W7161044806","doi":"https://doi.org/10.48550/arxiv.2605.12416"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2605.12416","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.12416","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2605.12416","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5134155195","display_name":"Christos Ziakas","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Ziakas, Christos","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5046462940","display_name":"Alessandra Russo","orcid":"https://orcid.org/0000-0002-3318-8711"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Russo, Alessandra","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5136016971","display_name":"Avishek Joey Bose","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Bose, Avishek Joey","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":3,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.7814000248908997,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.7814000248908997,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10653","display_name":"Robot Manipulation and Learning","score":0.08190000057220459,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10775","display_name":"Generative Adversarial Networks and Image Synthesis","score":0.016300000250339508,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.6765999794006348},{"id":"https://openalex.org/keywords/generative-model","display_name":"Generative model","score":0.6097000241279602},{"id":"https://openalex.org/keywords/inference","display_name":"Inference","score":0.5547999739646912},{"id":"https://openalex.org/keywords/generative-grammar","display_name":"Generative grammar","score":0.508899986743927},{"id":"https://openalex.org/keywords/action-selection","display_name":"Action selection","score":0.4542999863624573},{"id":"https://openalex.org/keywords/action","display_name":"Action (physics)","score":0.45260000228881836},{"id":"https://openalex.org/keywords/flow","display_name":"Flow (mathematics)","score":0.4343999922275543},{"id":"https://openalex.org/keywords/structured-prediction","display_name":"Structured prediction","score":0.40470001101493835}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7218000292778015},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.6765999794006348},{"id":"https://openalex.org/C167966045","wikidata":"https://www.wikidata.org/wiki/Q5532625","display_name":"Generative model","level":3,"score":0.6097000241279602},{"id":"https://openalex.org/C2776214188","wikidata":"https://www.wikidata.org/wiki/Q408386","display_name":"Inference","level":2,"score":0.5547999739646912},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5214999914169312},{"id":"https://openalex.org/C39890363","wikidata":"https://www.wikidata.org/wiki/Q36108","display_name":"Generative grammar","level":2,"score":0.508899986743927},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.4657000005245209},{"id":"https://openalex.org/C166109690","wikidata":"https://www.wikidata.org/wiki/Q4677422","display_name":"Action selection","level":3,"score":0.4542999863624573},{"id":"https://openalex.org/C2780791683","wikidata":"https://www.wikidata.org/wiki/Q846785","display_name":"Action (physics)","level":2,"score":0.45260000228881836},{"id":"https://openalex.org/C38349280","wikidata":"https://www.wikidata.org/wiki/Q1434290","display_name":"Flow (mathematics)","level":2,"score":0.4343999922275543},{"id":"https://openalex.org/C22367795","wikidata":"https://www.wikidata.org/wiki/Q7625208","display_name":"Structured prediction","level":2,"score":0.40470001101493835},{"id":"https://openalex.org/C25902001","wikidata":"https://www.wikidata.org/wiki/Q1024820","display_name":"Flow map","level":3,"score":0.38499999046325684},{"id":"https://openalex.org/C184408114","wikidata":"https://www.wikidata.org/wiki/Q1502022","display_name":"Generative Design","level":3,"score":0.35740000009536743},{"id":"https://openalex.org/C91575142","wikidata":"https://www.wikidata.org/wiki/Q1971426","display_name":"Optimal control","level":2,"score":0.32420000433921814},{"id":"https://openalex.org/C81917197","wikidata":"https://www.wikidata.org/wiki/Q628760","display_name":"Selection (genetic algorithm)","level":2,"score":0.31769999861717224},{"id":"https://openalex.org/C139807058","wikidata":"https://www.wikidata.org/wiki/Q352374","display_name":"Adaptation (eye)","level":2,"score":0.3151000142097473},{"id":"https://openalex.org/C2775924081","wikidata":"https://www.wikidata.org/wiki/Q55608371","display_name":"Control (management)","level":2,"score":0.31369999051094055},{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.30550000071525574},{"id":"https://openalex.org/C34413123","wikidata":"https://www.wikidata.org/wiki/Q170978","display_name":"Robotics","level":3,"score":0.30059999227523804},{"id":"https://openalex.org/C2777212361","wikidata":"https://www.wikidata.org/wiki/Q5127848","display_name":"Class (philosophy)","level":2,"score":0.2858000099658966},{"id":"https://openalex.org/C131675550","wikidata":"https://www.wikidata.org/wiki/Q7646884","display_name":"Surrogate model","level":2,"score":0.2824000120162964},{"id":"https://openalex.org/C2777851325","wikidata":"https://www.wikidata.org/wiki/Q7094102","display_name":"Online model","level":2,"score":0.28130000829696655},{"id":"https://openalex.org/C2986087404","wikidata":"https://www.wikidata.org/wiki/Q15946010","display_name":"Online learning","level":2,"score":0.272599995136261},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.25920000672340393}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2605.12416","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.12416","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2605.12416","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.12416","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[{"score":0.804111897945404,"display_name":"Peace, Justice and strong institutions","id":"https://metadata.un.org/sdg/16"}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Generative":[0],"policies":[1,61,87,134],"based":[2],"on":[3,193],"expressive":[4],"model":[5],"classes,":[6],"such":[7],"as":[8,97],"diffusion":[9],"and":[10,93,167,172],"flow":[11,53,85,132],"matching,":[12],"are":[13],"well-suited":[14],"to":[15,69,110,157],"complex":[16],"control":[17],"problems":[18],"with":[19,154],"highly":[20],"multimodal":[21],"action":[22,35,65],"distributions.":[23],"Their":[24],"expressivity,":[25],"however,":[26],"comes":[27],"at":[28],"a":[29,56,98,121,136,147,188],"significant":[30],"inference":[31],"cost:":[32],"generating":[33],"each":[34],"typically":[36],"requires":[37],"simulating":[38],"many":[39],"steps":[40],"of":[41,59,79,191],"the":[42,76,104,111,182,194],"generative":[43,60,77],"process,":[44],"compounding":[45],"latency":[46],"across":[47],"sequential":[48],"decision-making":[49],"rollouts.":[50],"We":[51,83,114,140],"introduce":[52,142],"map":[54,86,133],"policies,":[55],"novel":[57],"class":[58],"designed":[62],"for":[63,88,129],"fast":[64],"generation":[66],"by":[67,187],"learning":[68,91,124],"take":[70],"arbitrary-size":[71],"jumps":[72],"including":[73],"one-step":[74,184],"jumps-across":[75],"dynamics":[78],"existing":[80],"flow-based":[81],"policies.":[82],"instantiate":[84],"offline-to-online":[89,179],"reinforcement":[90],"(RL)":[92],"formulate":[94],"online":[95],"adaptation":[96],"trust-region":[99,138],"optimization":[100],"problem":[101],"that":[102,126,151],"improves":[103],"critic's":[105],"Q-value":[106],"while":[107],"remaining":[108],"close":[109],"offline":[112,131],"policy.":[113],"theoretically":[115],"derive":[116],"FLOW":[117],"MAP":[118],"Q-GUIDANCE":[119],"(FMQ),":[120],"principled":[122],"closed-form":[123],"target":[125],"is":[127],"optimal":[128],"adapting":[130],"under":[135],"critic-guided":[137],"constraint.":[139],"further":[141],"Q-GUIDED":[143],"BEAM":[144],"SEARCH":[145],"(QGBS),":[146],"stochastic":[148],"flow-map":[149],"sampler":[150],"combines":[152],"renoising":[153],"beam":[155],"search":[156],"enable":[158],"iterative":[159],"inference-time":[160],"refinement.":[161],"Across":[162],"12":[163],"challenging":[164],"robotic":[165],"manipulation":[166],"locomotion":[168],"tasks":[169],"from":[170],"OGBench":[171],"RoboMimic,":[173],"FMQ":[174],"achieves":[175],"state-of-the-art":[176],"performance":[177],"in":[178],"RL,":[180],"outperforming":[181],"previous":[183],"policy":[185],"MVP":[186],"relative":[189],"improvement":[190],"21.3%":[192],"average":[195],"success":[196],"rate.":[197]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2026-05-14T00:00:00"}