{"id":"https://openalex.org/W7160251421","doi":"https://doi.org/10.48550/arxiv.2605.01862","title":"QHyer: Q-conditioned Hybrid Attention-mamba Transformer for Offline Goal-conditioned RL","display_name":"QHyer: Q-conditioned Hybrid Attention-mamba Transformer for Offline Goal-conditioned RL","publication_year":2026,"publication_date":"2026-05-03","ids":{"openalex":"https://openalex.org/W7160251421","doi":"https://doi.org/10.48550/arxiv.2605.01862"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2605.01862","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.01862","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2605.01862","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5135288456","display_name":"Xing Lei","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Lei, Xing","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5135389283","display_name":"Jincheng Wang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Wang, Jincheng","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5135300296","display_name":"Xuetao Zhang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhang, Xuetao","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5135416527","display_name":"Donglin Wang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Wang, Donglin","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":4,"corresponding_author_ids":["https://openalex.org/A5135288456"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10775","display_name":"Generative Adversarial Networks and Image Synthesis","score":0.2854999899864197,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10775","display_name":"Generative Adversarial Networks and Image Synthesis","score":0.2854999899864197,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T13702","display_name":"Machine Learning in Healthcare","score":0.1395999938249588,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11307","display_name":"Domain Adaptation and Few-Shot Learning","score":0.12200000137090683,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/image-stitching","display_name":"Image stitching","score":0.6424000263214111},{"id":"https://openalex.org/keywords/markov-process","display_name":"Markov process","score":0.5414000153541565},{"id":"https://openalex.org/keywords/dependency","display_name":"Dependency (UML)","score":0.5153999924659729},{"id":"https://openalex.org/keywords/transformer","display_name":"Transformer","score":0.45260000228881836},{"id":"https://openalex.org/keywords/context","display_name":"Context (archaeology)","score":0.44339999556541443},{"id":"https://openalex.org/keywords/markov-chain","display_name":"Markov chain","score":0.44209998846054077},{"id":"https://openalex.org/keywords/partially-observable-markov-decision-process","display_name":"Partially observable Markov decision process","score":0.4341000020503998},{"id":"https://openalex.org/keywords/key","display_name":"Key (lock)","score":0.41679999232292175},{"id":"https://openalex.org/keywords/sequence","display_name":"Sequence (biology)","score":0.3686000108718872}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7867000102996826},{"id":"https://openalex.org/C29081049","wikidata":"https://www.wikidata.org/wiki/Q1364242","display_name":"Image stitching","level":2,"score":0.6424000263214111},{"id":"https://openalex.org/C159886148","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov process","level":2,"score":0.5414000153541565},{"id":"https://openalex.org/C19768560","wikidata":"https://www.wikidata.org/wiki/Q320727","display_name":"Dependency (UML)","level":2,"score":0.5153999924659729},{"id":"https://openalex.org/C66322947","wikidata":"https://www.wikidata.org/wiki/Q11658","display_name":"Transformer","level":3,"score":0.45260000228881836},{"id":"https://openalex.org/C2779343474","wikidata":"https://www.wikidata.org/wiki/Q3109175","display_name":"Context (archaeology)","level":2,"score":0.44339999556541443},{"id":"https://openalex.org/C98763669","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov chain","level":2,"score":0.44209998846054077},{"id":"https://openalex.org/C17098449","wikidata":"https://www.wikidata.org/wiki/Q176814","display_name":"Partially observable Markov decision process","level":4,"score":0.4341000020503998},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.41679999232292175},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.4000000059604645},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.37529999017715454},{"id":"https://openalex.org/C2778112365","wikidata":"https://www.wikidata.org/wiki/Q3511065","display_name":"Sequence (biology)","level":2,"score":0.3686000108718872},{"id":"https://openalex.org/C78548338","wikidata":"https://www.wikidata.org/wiki/Q2493","display_name":"Data compression","level":2,"score":0.3666999936103821},{"id":"https://openalex.org/C125411270","wikidata":"https://www.wikidata.org/wiki/Q18653","display_name":"Encoding (memory)","level":2,"score":0.35179999470710754},{"id":"https://openalex.org/C23224414","wikidata":"https://www.wikidata.org/wiki/Q176769","display_name":"Hidden Markov model","level":2,"score":0.3427000045776367},{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.33009999990463257},{"id":"https://openalex.org/C80444323","wikidata":"https://www.wikidata.org/wiki/Q2878974","display_name":"Theoretical computer science","level":1,"score":0.31679999828338623},{"id":"https://openalex.org/C168167062","wikidata":"https://www.wikidata.org/wiki/Q1117970","display_name":"Component (thermodynamics)","level":2,"score":0.3165000081062317},{"id":"https://openalex.org/C32848918","wikidata":"https://www.wikidata.org/wiki/Q845789","display_name":"Observable","level":2,"score":0.30329999327659607},{"id":"https://openalex.org/C63479239","wikidata":"https://www.wikidata.org/wiki/Q7353546","display_name":"Robustness (evolution)","level":3,"score":0.29750001430511475},{"id":"https://openalex.org/C183322885","wikidata":"https://www.wikidata.org/wiki/Q17007702","display_name":"Context model","level":3,"score":0.28540000319480896},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.2838999927043915},{"id":"https://openalex.org/C77618280","wikidata":"https://www.wikidata.org/wiki/Q1155772","display_name":"Scheme (mathematics)","level":2,"score":0.2671999931335449},{"id":"https://openalex.org/C180016635","wikidata":"https://www.wikidata.org/wiki/Q2712821","display_name":"Compression (physics)","level":2,"score":0.2556999921798706},{"id":"https://openalex.org/C152124472","wikidata":"https://www.wikidata.org/wiki/Q1204361","display_name":"Redundancy (engineering)","level":2,"score":0.2538999915122986}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2605.01862","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.01862","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2605.01862","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.01862","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[{"display_name":"Reduced inequalities","id":"https://metadata.un.org/sdg/10","score":0.7147194743156433}],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Offline":[0],"goal-conditioned":[1],"RL":[2,29],"(GCRL)":[3],"learns":[4],"goal-reaching":[5,126,144],"policies":[6],"from":[7,128],"static":[8],"datasets,":[9,180],"but":[10],"real-world":[11],"datasets":[12],"are":[13,39],"often":[14,93],"partially":[15],"observable":[16],"and":[17,24,52,59,151,178],"history-dependent,":[18],"exhibiting":[19],"a":[20,40,108,141,153],"mix":[21],"of":[22],"Markovian":[23,57,179],"non-Markovian":[25,177],"that":[26,158,170],"violate":[27],"standard":[28],"assumptions.":[30],"History-aware":[31],"sequence":[32],"models":[33],"such":[34],"as":[35],"Decision":[36],"Transformer":[37],"(DT)":[38],"natural":[41],"fit":[42],"for":[43,124,184],"long-term":[44],"dependency":[45,87],"modeling,":[46,76],"yet":[47],"pure":[48],"attention":[49],"is":[50],"inefficient":[51],"brittle":[53],"when":[54],"handling":[55],"local":[56,70,74,165],"structure":[58],"long-range":[60,95],"context":[61,96],"simultaneously.":[62],"Although":[63],"recent":[64],"hybrid":[65],"architectures":[66],"(e.g.,":[67],"LSDT)":[68],"introduce":[69],"extractors":[71],"to":[72,85,146],"improve":[73],"dependencies":[75],"the":[77],"fixed-window":[78],"extraction":[79],"cannot":[80],"adapt":[81],"its":[82,100,182],"effective":[83],"memory":[84],"varying":[86],"lengths":[88],"in":[89],"temporally":[90],"heterogeneous":[91],"settings,":[92],"truncating":[94],"rather":[97],"than":[98],"compressing":[99],"content":[101],"adaptively.":[102],"Moreover,":[103],"sequential":[104],"offline":[105],"GCRL":[106],"faces":[107],"key":[109],"bottleneck:":[110],"under":[111],"sparse":[112],"rewards,":[113],"return-to-go":[114],"(RTG)":[115],"becomes":[116],"non-discriminative":[117],"across":[118,149],"sub-trajectories,":[119],"providing":[120],"little":[121],"guidance":[122],"signal":[123],"stitching":[125,148],"behaviors":[127],"diverse":[129,185],"demonstrations.":[130],"To":[131],"address":[132],"these,":[133],"we":[134],"propose":[135],"\\textbf{QHyer},":[136],"which":[137],"replaces":[138],"RTG":[139],"with":[140],"flow-parameterized,":[142],"state-conditioned":[143],"Q-estimator":[145],"support":[147],"demonstrations,":[150],"introduces":[152],"gated":[154],"Hybrid":[155],"Attention-Mamba":[156],"backbone":[157],"performs":[159],"content-adaptive":[160],"history":[161],"compression":[162],"while":[163],"preserving":[164],"dynamics.":[166],"Extensive":[167],"experiments":[168],"demonstrate":[169],"\\textbf{QHyer}":[171],"achieves":[172],"state-of-the-art":[173],"performance":[174],"on":[175],"both":[176],"validating":[181],"effectiveness":[183],"scenarios.":[186]},"counts_by_year":[],"updated_date":"2026-05-06T06:10:43.113611","created_date":"2026-05-06T00:00:00"}