{"id":"https://openalex.org/W7138344025","doi":"https://doi.org/10.48550/arxiv.2603.14245","title":"GoldenStart: Q-Guided Priors and Entropy Control for Distilling Flow Policies","display_name":"GoldenStart: Q-Guided Priors and Entropy Control for Distilling Flow Policies","publication_year":2026,"publication_date":"2026-03-15","ids":{"openalex":"https://openalex.org/W7138344025","doi":"https://doi.org/10.48550/arxiv.2603.14245"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2603.14245","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.14245","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2603.14245","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5129674017","display_name":"He Zhang","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Zhang, He","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5129696553","display_name":"Ying Sun","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Sun, Ying","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5129687760","display_name":"Hui Xiong","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Xiong, Hui","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5129674017"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.6711000204086304,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.6711000204086304,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Machine Learning","score":0.039500001817941666,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10775","display_name":"Generative Adversarial Networks and Image Synthesis","score":0.037300001829862595,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/prior-probability","display_name":"Prior probability","score":0.6190999746322632},{"id":"https://openalex.org/keywords/entropy","display_name":"Entropy (arrow of time)","score":0.49140000343322754},{"id":"https://openalex.org/keywords/randomness","display_name":"Randomness","score":0.4189999997615814},{"id":"https://openalex.org/keywords/initialization","display_name":"Initialization","score":0.41200000047683716},{"id":"https://openalex.org/keywords/inference","display_name":"Inference","score":0.41190001368522644},{"id":"https://openalex.org/keywords/robustness","display_name":"Robustness (evolution)","score":0.38760000467300415},{"id":"https://openalex.org/keywords/generative-grammar","display_name":"Generative grammar","score":0.38589999079704285},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.3643999993801117}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6902999877929688},{"id":"https://openalex.org/C177769412","wikidata":"https://www.wikidata.org/wiki/Q278090","display_name":"Prior probability","level":3,"score":0.6190999746322632},{"id":"https://openalex.org/C106301342","wikidata":"https://www.wikidata.org/wiki/Q4117933","display_name":"Entropy (arrow of time)","level":2,"score":0.49140000343322754},{"id":"https://openalex.org/C125112378","wikidata":"https://www.wikidata.org/wiki/Q176640","display_name":"Randomness","level":2,"score":0.4189999997615814},{"id":"https://openalex.org/C114466953","wikidata":"https://www.wikidata.org/wiki/Q6034165","display_name":"Initialization","level":2,"score":0.41200000047683716},{"id":"https://openalex.org/C2776214188","wikidata":"https://www.wikidata.org/wiki/Q408386","display_name":"Inference","level":2,"score":0.41190001368522644},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.41040000319480896},{"id":"https://openalex.org/C63479239","wikidata":"https://www.wikidata.org/wiki/Q7353546","display_name":"Robustness (evolution)","level":3,"score":0.38760000467300415},{"id":"https://openalex.org/C39890363","wikidata":"https://www.wikidata.org/wiki/Q36108","display_name":"Generative grammar","level":2,"score":0.38589999079704285},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.3682999908924103},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.367000013589859},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.3643999993801117},{"id":"https://openalex.org/C185429906","wikidata":"https://www.wikidata.org/wiki/Q1130160","display_name":"Estimator","level":2,"score":0.34779998660087585},{"id":"https://openalex.org/C8272713","wikidata":"https://www.wikidata.org/wiki/Q176737","display_name":"Stochastic process","level":2,"score":0.34389999508857727},{"id":"https://openalex.org/C9679016","wikidata":"https://www.wikidata.org/wiki/Q1417473","display_name":"Principle of maximum entropy","level":2,"score":0.31859999895095825},{"id":"https://openalex.org/C196083921","wikidata":"https://www.wikidata.org/wiki/Q7915758","display_name":"Variance (accounting)","level":2,"score":0.31150001287460327},{"id":"https://openalex.org/C149441793","wikidata":"https://www.wikidata.org/wiki/Q200726","display_name":"Probability distribution","level":2,"score":0.31029999256134033},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.302700012922287},{"id":"https://openalex.org/C167966045","wikidata":"https://www.wikidata.org/wiki/Q5532625","display_name":"Generative model","level":3,"score":0.29019999504089355},{"id":"https://openalex.org/C174348530","wikidata":"https://www.wikidata.org/wiki/Q188635","display_name":"Bridging (networking)","level":2,"score":0.2890999913215637},{"id":"https://openalex.org/C125252325","wikidata":"https://www.wikidata.org/wiki/Q1345213","display_name":"Entropy rate","level":4,"score":0.2799000144004822},{"id":"https://openalex.org/C58166","wikidata":"https://www.wikidata.org/wiki/Q224821","display_name":"Fuzzy logic","level":2,"score":0.2522999942302704}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2603.14245","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.14245","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2603.14245","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.14245","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[{"id":"https://metadata.un.org/sdg/16","display_name":"Peace, Justice and strong institutions","score":0.6466606259346008}],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Flow-matching":[0],"policies":[1],"hold":[2],"great":[3],"promise":[4],"for":[5,37,71,140],"reinforcement":[6],"learning":[7],"(RL)":[8],"by":[9,22,108,162,181],"capturing":[10],"complex,":[11],"multi-modal":[12],"action":[13],"distributions.":[14],"However,":[15],"their":[16],"practical":[17,206],"application":[18],"is":[19,160,192],"often":[20],"hindered":[21],"prohibitive":[23],"inference":[24],"latency":[25],"and":[26,91,186,197,204,215],"ineffective":[27],"online":[28,142,216],"exploration.":[29,175],"Although":[30],"recent":[31],"works":[32],"have":[33],"employed":[34],"one-step":[35,121],"distillation":[36,86],"fast":[38],"inference,":[39],"the":[40,43,61,116,120,134,166,183,201,205],"structure":[41],"of":[42,63,96,119,155],"initial":[44],"noise":[45],"distribution":[46,153],"remains":[47],"an":[48],"overlooked":[49,57],"factor":[50],"that":[51,132,180],"presents":[52],"significant":[53],"untapped":[54],"potential.":[55],"This":[56,112,159],"factor,":[58],"along":[59],"with":[60,88],"challenge":[62],"controlling":[64,188],"policy":[65,85,135,167,189],"stochasticity,":[66],"constitutes":[67],"two":[68],"critical":[69],"areas":[70],"advancing":[72],"distilled":[73,147],"flow-matching":[74],"policies.":[75],"To":[76],"overcome":[77],"these":[78],"limitations,":[79],"we":[80,102,144],"propose":[81],"GoldenStart":[82],"(GSFlow),":[83],"a":[84,104,109,129,151,156],"method":[87,222],"Q-guided":[89,105],"priors":[90],"explicit":[92],"entropy":[93,163],"control.":[94],"Instead":[95],"initializing":[97],"generation":[98,122],"from":[99,170],"uninformed":[100],"noise,":[101],"introduce":[103],"prior":[106,114,225],"modeled":[107],"conditional":[110],"VAE.":[111],"state-conditioned":[113],"repositions":[115],"starting":[117],"points":[118],"process":[123],"into":[124],"high-Q":[125],"regions,":[126],"effectively":[127],"providing":[128],"\"golden":[130],"start\"":[131],"shortcuts":[133],"to":[136,149,168,173,194],"promising":[137],"actions.":[138],"Furthermore,":[139],"effective":[141],"exploration,":[143],"enable":[145],"our":[146,221],"actor":[148],"output":[150],"stochastic":[152],"instead":[154],"deterministic":[157],"point.":[158],"governed":[161],"regularization,":[164],"allowing":[165],"shift":[169],"pure":[171],"exploitation":[172],"principled":[174],"Our":[176],"integrated":[177],"framework":[178],"demonstrates":[179],"designing":[182],"generative":[184,202],"startpoint":[185],"explicitly":[187],"entropy,":[190],"it":[191],"possible":[193],"achieve":[195],"efficient":[196],"exploratory":[198],"policies,":[199],"bridging":[200],"models":[203],"actor-critic":[207],"methods.":[208],"We":[209],"conduct":[210],"extensive":[211],"experiments":[212],"on":[213],"offline":[214],"continuous":[217],"control":[218],"benchmarks,":[219],"where":[220],"significantly":[223],"outperforms":[224],"state-of-the-art":[226],"approaches.":[227],"Code":[228],"will":[229],"be":[230],"available":[231],"at":[232],"https://github.com/ZhHe11/GSFlow-RL.":[233]},"counts_by_year":[],"updated_date":"2026-03-18T06:31:55.123368","created_date":"2026-03-18T00:00:00"}