{"id":"https://openalex.org/W7155414628","doi":"https://doi.org/10.48550/arxiv.2604.20328","title":"Hybrid Latent Reasoning with Decoupled Policy Optimization","display_name":"Hybrid Latent Reasoning with Decoupled Policy Optimization","publication_year":2026,"publication_date":"2026-04-22","ids":{"openalex":"https://openalex.org/W7155414628","doi":"https://doi.org/10.48550/arxiv.2604.20328"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2604.20328","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.20328","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2604.20328","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5134364825","display_name":"Tao Cheng","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Cheng, Tao","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5108259288","display_name":"Shi\u2010zhe Chen","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Chen, Shi-Zhe","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5134372835","display_name":"Hao Zhang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhang, Hao","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5112928277","display_name":"Yixin Qin","orcid":"https://orcid.org/0009-0004-1067-062X"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Qin, Yixin","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5134397933","display_name":"Jinwen Luo","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Luo, Jinwen","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5134403959","display_name":"Zheng Wei","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Wei, Zheng","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":6,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.9574999809265137,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.9574999809265137,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10028","display_name":"Topic Modeling","score":0.006899999920278788,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T13702","display_name":"Machine Learning in Healthcare","score":0.002899999963119626,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/action","display_name":"Action (physics)","score":0.5576000213623047},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.5109000205993652},{"id":"https://openalex.org/keywords/visual-reasoning","display_name":"Visual reasoning","score":0.48420000076293945},{"id":"https://openalex.org/keywords/perception","display_name":"Perception","score":0.4636000096797943},{"id":"https://openalex.org/keywords/code","display_name":"Code (set theory)","score":0.4228000044822693},{"id":"https://openalex.org/keywords/encoding","display_name":"Encoding (memory)","score":0.4002000093460083},{"id":"https://openalex.org/keywords/latent-variable","display_name":"Latent variable","score":0.4002000093460083},{"id":"https://openalex.org/keywords/key","display_name":"Key (lock)","score":0.3921000063419342}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7405999898910522},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5928000211715698},{"id":"https://openalex.org/C2780791683","wikidata":"https://www.wikidata.org/wiki/Q846785","display_name":"Action (physics)","level":2,"score":0.5576000213623047},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.5109000205993652},{"id":"https://openalex.org/C2777508537","wikidata":"https://www.wikidata.org/wiki/Q7936620","display_name":"Visual reasoning","level":2,"score":0.48420000076293945},{"id":"https://openalex.org/C26760741","wikidata":"https://www.wikidata.org/wiki/Q160402","display_name":"Perception","level":2,"score":0.4636000096797943},{"id":"https://openalex.org/C2776760102","wikidata":"https://www.wikidata.org/wiki/Q5139990","display_name":"Code (set theory)","level":3,"score":0.4228000044822693},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.42089998722076416},{"id":"https://openalex.org/C51167844","wikidata":"https://www.wikidata.org/wiki/Q4422623","display_name":"Latent variable","level":2,"score":0.4002000093460083},{"id":"https://openalex.org/C125411270","wikidata":"https://www.wikidata.org/wiki/Q18653","display_name":"Encoding (memory)","level":2,"score":0.4002000093460083},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.3921000063419342},{"id":"https://openalex.org/C184337299","wikidata":"https://www.wikidata.org/wiki/Q1437428","display_name":"Semantics (computer science)","level":2,"score":0.3912000060081482},{"id":"https://openalex.org/C2778572836","wikidata":"https://www.wikidata.org/wiki/Q380933","display_name":"Space (punctuation)","level":2,"score":0.34450000524520874},{"id":"https://openalex.org/C170133592","wikidata":"https://www.wikidata.org/wiki/Q1806883","display_name":"Latent semantic analysis","level":2,"score":0.3303999900817871},{"id":"https://openalex.org/C2779436431","wikidata":"https://www.wikidata.org/wiki/Q30672407","display_name":"Policy learning","level":2,"score":0.3203999996185303},{"id":"https://openalex.org/C112933361","wikidata":"https://www.wikidata.org/wiki/Q2845258","display_name":"Probabilistic latent semantic analysis","level":2,"score":0.2957000136375427},{"id":"https://openalex.org/C61797465","wikidata":"https://www.wikidata.org/wiki/Q1188986","display_name":"Term (time)","level":2,"score":0.29440000653266907},{"id":"https://openalex.org/C178253425","wikidata":"https://www.wikidata.org/wiki/Q162668","display_name":"Visual perception","level":3,"score":0.29179999232292175},{"id":"https://openalex.org/C43126263","wikidata":"https://www.wikidata.org/wiki/Q128751","display_name":"Source code","level":2,"score":0.2874000072479248},{"id":"https://openalex.org/C2776359362","wikidata":"https://www.wikidata.org/wiki/Q2145286","display_name":"Representation (politics)","level":3,"score":0.27950000762939453},{"id":"https://openalex.org/C49937458","wikidata":"https://www.wikidata.org/wiki/Q2599292","display_name":"Probabilistic logic","level":2,"score":0.2678999900817871},{"id":"https://openalex.org/C112972136","wikidata":"https://www.wikidata.org/wiki/Q7595718","display_name":"Stability (learning theory)","level":2,"score":0.2653000056743622},{"id":"https://openalex.org/C36464697","wikidata":"https://www.wikidata.org/wiki/Q451553","display_name":"Visualization","level":2,"score":0.2524999976158142}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2604.20328","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.20328","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2604.20328","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.20328","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[{"id":"https://metadata.un.org/sdg/16","score":0.517302393913269,"display_name":"Peace, Justice and strong institutions"}],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Chain-of-Thought":[0],"(CoT)":[1],"reasoning":[2,47,54,153],"significantly":[3],"elevates":[4],"the":[5,64,119,128],"complex":[6],"problem-solving":[7],"capabilities":[8],"of":[9],"multimodal":[10,160],"large":[11],"language":[12],"models":[13],"(MLLMs).":[14],"However,":[15],"adapting":[16],"CoT":[17],"to":[18,23,48,59,108,127],"vision":[19],"typically":[20],"discretizes":[21],"signals":[22],"fit":[24],"LLM":[25],"inputs,":[26],"causing":[27],"early":[28],"semantic":[29],"collapse":[30],"and":[31,130,150,158],"discarding":[32],"fine-grained":[33,156],"details.":[34],"While":[35],"external":[36],"tools":[37],"can":[38],"mitigate":[39],"this,":[40],"they":[41],"introduce":[42,103],"a":[43,81],"rigid":[44],"bottleneck,":[45],"confining":[46],"predefined":[49],"operations.":[50],"Although":[51],"recent":[52],"latent":[53,92,131,152],"paradigms":[55],"internalize":[56],"visual":[57,91],"states":[58],"overcome":[60],"these":[61],"limitations,":[62],"optimizing":[63],"resulting":[65],"hybrid":[66,115],"discrete-continuous":[67],"action":[68],"space":[69],"remains":[70],"challenging.":[71],"In":[72],"this":[73,114],"work,":[74],"we":[75,102],"propose":[76],"HyLaR":[77,146],"(Hybrid":[78],"Latent":[79],"Reasoning),":[80],"framework":[82],"that":[83,145],"seamlessly":[84],"interleaves":[85],"discrete":[86],"text":[87],"generation":[88],"with":[89],"continuous":[90],"representations.":[93],"Specifically,":[94],"following":[95],"an":[96,134],"initial":[97],"cold-start":[98],"supervised":[99],"fine-tuning":[100],"(SFT),":[101],"DePO":[104,117],"(Decoupled":[105],"Policy":[106],"Optimization)":[107],"enable":[109],"effective":[110],"reinforcement":[111],"learning":[112],"within":[113],"space.":[116],"decomposes":[118],"policy":[120],"gradient":[121],"objective,":[122],"applying":[123],"independent":[124],"trust-region":[125],"constraints":[126],"textual":[129],"components,":[132],"alongside":[133],"exact":[135],"closed-form":[136],"von":[137],"Mises-Fisher":[138],"(vMF)":[139],"KL":[140],"regularizer.":[141],"Extensive":[142],"experiments":[143],"demonstrate":[144],"outperforms":[147],"standard":[148],"MLLMs":[149],"state-of-the-art":[151],"approaches":[154],"across":[155],"perception":[157],"general":[159],"understanding":[161],"benchmarks.":[162],"Code":[163],"is":[164],"available":[165],"at":[166],"https://github.com/EthenCheng/HyLaR.":[167]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2026-04-24T00:00:00"}