{"id":"https://openalex.org/W7128505838","doi":"https://doi.org/10.48550/arxiv.2602.07889","title":"Efficient Anti-exploration via VQVAE and Fuzzy Clustering in Offline Reinforcement Learning","display_name":"Efficient Anti-exploration via VQVAE and Fuzzy Clustering in Offline Reinforcement Learning","publication_year":2026,"publication_date":"2026-02-08","ids":{"openalex":"https://openalex.org/W7128505838","doi":"https://doi.org/10.48550/arxiv.2602.07889"},"language":null,"primary_location":{"id":"pmh:doi:10.48550/arxiv.2602.07889","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"publisher-specific-oa","license_id":"https://openalex.org/licenses/publisher-specific-oa","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":null,"any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5125552748","display_name":"Long Chen","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Chen, Long","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5125498866","display_name":"Yinkui Liu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Liu, Yinkui","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5125589372","display_name":"Shen Li","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Li, Shen","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5125585567","display_name":"Bo Tang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Tang, Bo","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":null,"display_name":"Hu, Xuemin","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Hu, Xuemin","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":5,"corresponding_author_ids":["https://openalex.org/A5125552748"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.8392000198364258,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.8392000198364258,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12794","display_name":"Adaptive Dynamic Programming Control","score":0.03180000185966492,"subfield":{"id":"https://openalex.org/subfields/1703","display_name":"Computational Theory and Mathematics"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Machine Learning","score":0.014800000004470348,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.6858000159263611},{"id":"https://openalex.org/keywords/discretization","display_name":"Discretization","score":0.67330002784729},{"id":"https://openalex.org/keywords/cluster-analysis","display_name":"Cluster analysis","score":0.6516000032424927},{"id":"https://openalex.org/keywords/autoencoder","display_name":"Autoencoder","score":0.5615000128746033},{"id":"https://openalex.org/keywords/dimension","display_name":"Dimension (graph theory)","score":0.5152000188827515},{"id":"https://openalex.org/keywords/benchmark","display_name":"Benchmark (surveying)","score":0.49970000982284546},{"id":"https://openalex.org/keywords/fuzzy-logic","display_name":"Fuzzy logic","score":0.41530001163482666},{"id":"https://openalex.org/keywords/fuzzy-clustering","display_name":"Fuzzy clustering","score":0.36169999837875366}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.6858000159263611},{"id":"https://openalex.org/C73000952","wikidata":"https://www.wikidata.org/wiki/Q17007827","display_name":"Discretization","level":2,"score":0.67330002784729},{"id":"https://openalex.org/C73555534","wikidata":"https://www.wikidata.org/wiki/Q622825","display_name":"Cluster analysis","level":2,"score":0.6516000032424927},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6362000107765198},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5935999751091003},{"id":"https://openalex.org/C101738243","wikidata":"https://www.wikidata.org/wiki/Q786435","display_name":"Autoencoder","level":3,"score":0.5615000128746033},{"id":"https://openalex.org/C33676613","wikidata":"https://www.wikidata.org/wiki/Q13415176","display_name":"Dimension (graph theory)","level":2,"score":0.5152000188827515},{"id":"https://openalex.org/C185798385","wikidata":"https://www.wikidata.org/wiki/Q1161707","display_name":"Benchmark (surveying)","level":2,"score":0.49970000982284546},{"id":"https://openalex.org/C58166","wikidata":"https://www.wikidata.org/wiki/Q224821","display_name":"Fuzzy logic","level":2,"score":0.41530001163482666},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.4124000072479248},{"id":"https://openalex.org/C124101348","wikidata":"https://www.wikidata.org/wiki/Q172491","display_name":"Data mining","level":1,"score":0.36820000410079956},{"id":"https://openalex.org/C17212007","wikidata":"https://www.wikidata.org/wiki/Q5511111","display_name":"Fuzzy clustering","level":3,"score":0.36169999837875366},{"id":"https://openalex.org/C127759330","wikidata":"https://www.wikidata.org/wiki/Q637416","display_name":"Codebook","level":2,"score":0.33340001106262207},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.32100000977516174},{"id":"https://openalex.org/C2780150128","wikidata":"https://www.wikidata.org/wiki/Q21948731","display_name":"Extreme learning machine","level":3,"score":0.30730000138282776},{"id":"https://openalex.org/C189430467","wikidata":"https://www.wikidata.org/wiki/Q7293293","display_name":"Ranking (information retrieval)","level":2,"score":0.2784000039100647},{"id":"https://openalex.org/C52622490","wikidata":"https://www.wikidata.org/wiki/Q1026626","display_name":"Feature extraction","level":2,"score":0.2696000039577484},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.2671000063419342},{"id":"https://openalex.org/C125411270","wikidata":"https://www.wikidata.org/wiki/Q18653","display_name":"Encoding (memory)","level":2,"score":0.2540000081062317},{"id":"https://openalex.org/C153180895","wikidata":"https://www.wikidata.org/wiki/Q7148389","display_name":"Pattern recognition (psychology)","level":2,"score":0.2524999976158142}],"mesh":[],"locations_count":2,"locations":[{"id":"pmh:doi:10.48550/arxiv.2602.07889","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"publisher-specific-oa","license_id":"https://openalex.org/licenses/publisher-specific-oa","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},{"id":"doi:10.48550/arxiv.2602.07889","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2602.07889","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"pmh:doi:10.48550/arxiv.2602.07889","is_oa":true,"landing_page_url":null,"pdf_url":null,"source":{"id":"https://openalex.org/S4406922384","display_name":"Open MIND","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":"publisher-specific-oa","license_id":"https://openalex.org/licenses/publisher-specific-oa","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"Article"},"sustainable_development_goals":[{"score":0.8085706830024719,"id":"https://metadata.un.org/sdg/13","display_name":"Climate action"}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Pseudo-count":[0],"is":[1,86,140,163],"an":[2,91,106],"effective":[3],"anti-exploration":[4,28,71],"method":[5,72,94,110,116,162,183],"in":[6,50,83,149,156,191],"offline":[7,84,107],"reinforcement":[8],"learning":[9,126],"(RL)":[10],"by":[11,34],"counting":[12],"state-action":[13,24,32,102],"pairs":[14,33],"and":[15,47,57,60,80,104,123,176,186],"imposing":[16],"a":[17,69,130],"large":[18],"penalty":[19],"on":[20,74,96,112,135,165],"rare":[21],"or":[22],"unseen":[23],"pair":[25],"data.":[26],"Existing":[27],"methods":[29],"count":[30],"continuous":[31],"discretizing":[35],"these":[36],"data,":[37],"but":[38],"often":[39],"suffer":[40],"from":[41],"the":[42,51,97,113,119,125,144,152,157,166,181],"issues":[43],"of":[44,63,147,168],"dimension":[45,120],"disaster":[46,121],"information":[48,153],"loss":[49,154],"discretization":[52,158],"process,":[53],"leading":[54],"to":[55,100,117,142,196],"efficiency":[56],"performance":[58],"reduction,":[59],"even":[61],"failure":[62],"policy":[64],"learning.":[65],"In":[66,128],"this":[67],"paper,":[68],"novel":[70],"based":[73,95,111,134],"Vector":[75],"Quantized":[76],"Variational":[77],"Autoencoder":[78],"(VQVAE)":[79],"fuzzy":[81,136],"clustering":[82,139],"RL":[85,108],"proposed.":[87],"We":[88],"first":[89],"propose":[90],"efficient":[92],"pseudo-count":[93,115],"multi-codebook":[98],"VQVAE":[99],"discretize":[101],"pairs,":[103],"design":[105],"anti-exploitation":[109],"proposed":[114,161,182],"handle":[118],"issue":[122,155],"improve":[124,143],"efficiency.":[127],"addition,":[129],"codebook":[131],"update":[132],"mechanism":[133],"C-means":[137],"(FCM)":[138],"developed":[141],"use":[145],"rate":[146],"vectors":[148],"codebooks,":[150],"addressing":[151],"process.":[159],"The":[160],"evaluated":[164],"benchmark":[167],"Datasets":[169],"for":[170],"Deep":[171],"Data-Driven":[172],"Reinforcement":[173],"Learning":[174],"(D4RL),":[175],"experimental":[177],"results":[178],"show":[179],"that":[180],"performs":[184],"better":[185],"requires":[187],"less":[188],"computing":[189],"cost":[190],"multiple":[192],"complex":[193],"tasks":[194],"compared":[195],"state-of-the-art":[197],"(SOTA)":[198],"methods.":[199]},"counts_by_year":[],"updated_date":"2026-04-04T16:13:02.066488","created_date":"2026-02-11T00:00:00"}