{"id":"https://openalex.org/W4415707245","doi":"https://doi.org/10.1109/tnnls.2025.3614724","title":"Enhancing the Policy Generalization on OOD Tasks via Latent Variable Distribution Enhancement Sampler","display_name":"Enhancing the Policy Generalization on OOD Tasks via Latent Variable Distribution Enhancement Sampler","publication_year":2025,"publication_date":"2025-10-30","ids":{"openalex":"https://openalex.org/W4415707245","doi":"https://doi.org/10.1109/tnnls.2025.3614724","pmid":"https://pubmed.ncbi.nlm.nih.gov/41166630"},"language":"en","primary_location":{"id":"doi:10.1109/tnnls.2025.3614724","is_oa":false,"landing_page_url":"https://doi.org/10.1109/tnnls.2025.3614724","pdf_url":null,"source":{"id":"https://openalex.org/S4210175523","display_name":"IEEE Transactions on Neural Networks and Learning Systems","issn_l":"2162-237X","issn":["2162-237X","2162-2388"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310319808","host_organization_name":"Institute of Electrical and Electronics Engineers","host_organization_lineage":["https://openalex.org/P4310319808"],"host_organization_lineage_names":["Institute of Electrical and Electronics Engineers"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"IEEE Transactions on Neural Networks and Learning Systems","raw_type":"journal-article"},"type":"article","indexed_in":["crossref","pubmed"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":null,"display_name":"Shaobo Li","orcid":"https://orcid.org/0009-0003-8470-010X"},"institutions":[{"id":"https://openalex.org/I87445476","display_name":"Xi'an Jiaotong University","ror":"https://ror.org/017zhmm22","country_code":"CN","type":"education","lineage":["https://openalex.org/I87445476"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Shaobo Li","raw_affiliation_strings":["Xi&#x2019;an Jiaotong University, Xi&#x2019;an, China"],"raw_orcid":"https://orcid.org/0009-0003-8470-010X","affiliations":[{"raw_affiliation_string":"Xi&#x2019;an Jiaotong University, Xi&#x2019;an, China","institution_ids":["https://openalex.org/I87445476"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5070371129","display_name":"Jie Lin","orcid":"https://orcid.org/0000-0003-3476-110X"},"institutions":[{"id":"https://openalex.org/I87445476","display_name":"Xi'an Jiaotong University","ror":"https://ror.org/017zhmm22","country_code":"CN","type":"education","lineage":["https://openalex.org/I87445476"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Jie Lin","raw_affiliation_strings":["Xi&#x2019;an Jiaotong University, Xi&#x2019;an, China"],"raw_orcid":"https://orcid.org/0000-0003-3476-110X","affiliations":[{"raw_affiliation_string":"Xi&#x2019;an Jiaotong University, Xi&#x2019;an, China","institution_ids":["https://openalex.org/I87445476"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5102711735","display_name":"Xiangyuan Yang","orcid":"https://orcid.org/0000-0003-3036-6022"},"institutions":[{"id":"https://openalex.org/I87445476","display_name":"Xi'an Jiaotong University","ror":"https://ror.org/017zhmm22","country_code":"CN","type":"education","lineage":["https://openalex.org/I87445476"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Xiangyuan Yang","raw_affiliation_strings":["Xi&#x2019;an Jiaotong University, Xi&#x2019;an, China"],"raw_orcid":"https://orcid.org/0000-0003-3036-6022","affiliations":[{"raw_affiliation_string":"Xi&#x2019;an Jiaotong University, Xi&#x2019;an, China","institution_ids":["https://openalex.org/I87445476"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5101598769","display_name":"Hanlin Zhang","orcid":"https://orcid.org/0000-0001-8869-6863"},"institutions":[{"id":"https://openalex.org/I108688024","display_name":"Qingdao University","ror":"https://ror.org/021cj6z65","country_code":"CN","type":"education","lineage":["https://openalex.org/I108688024"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Hanlin Zhang","raw_affiliation_strings":["Qingdao University, Qingdao, China"],"raw_orcid":"https://orcid.org/0000-0001-8869-6863","affiliations":[{"raw_affiliation_string":"Qingdao University, Qingdao, China","institution_ids":["https://openalex.org/I108688024"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5010106841","display_name":"Peng Zhao","orcid":"https://orcid.org/0000-0001-7033-9315"},"institutions":[{"id":"https://openalex.org/I87445476","display_name":"Xi'an Jiaotong University","ror":"https://ror.org/017zhmm22","country_code":"CN","type":"education","lineage":["https://openalex.org/I87445476"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Peng Zhao","raw_affiliation_strings":["Xi&#x2019;an Jiaotong University, Xi&#x2019;an, China"],"raw_orcid":"https://orcid.org/0000-0001-7033-9315","affiliations":[{"raw_affiliation_string":"Xi&#x2019;an Jiaotong University, Xi&#x2019;an, China","institution_ids":["https://openalex.org/I87445476"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":5,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.1485356,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":"37","issue":"3","first_page":"1477","last_page":"1491"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11307","display_name":"Domain Adaptation and Few-Shot Learning","score":0.6098999977111816,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11307","display_name":"Domain Adaptation and Few-Shot Learning","score":0.6098999977111816,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.12759999930858612,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10775","display_name":"Generative Adversarial Networks and Image Synthesis","score":0.039900001138448715,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/generalization","display_name":"Generalization","score":0.8743000030517578},{"id":"https://openalex.org/keywords/task","display_name":"Task (project management)","score":0.71670001745224},{"id":"https://openalex.org/keywords/representation","display_name":"Representation (politics)","score":0.6714000105857849},{"id":"https://openalex.org/keywords/latent-variable","display_name":"Latent variable","score":0.607699990272522},{"id":"https://openalex.org/keywords/inference","display_name":"Inference","score":0.5318999886512756},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.4442000091075897},{"id":"https://openalex.org/keywords/trajectory","display_name":"Trajectory","score":0.4438000023365021},{"id":"https://openalex.org/keywords/space","display_name":"Space (punctuation)","score":0.39399999380111694}],"concepts":[{"id":"https://openalex.org/C177148314","wikidata":"https://www.wikidata.org/wiki/Q170084","display_name":"Generalization","level":2,"score":0.8743000030517578},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.71670001745224},{"id":"https://openalex.org/C2776359362","wikidata":"https://www.wikidata.org/wiki/Q2145286","display_name":"Representation (politics)","level":3,"score":0.6714000105857849},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6686000227928162},{"id":"https://openalex.org/C51167844","wikidata":"https://www.wikidata.org/wiki/Q4422623","display_name":"Latent variable","level":2,"score":0.607699990272522},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5925999879837036},{"id":"https://openalex.org/C2776214188","wikidata":"https://www.wikidata.org/wiki/Q408386","display_name":"Inference","level":2,"score":0.5318999886512756},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.48980000615119934},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.4442000091075897},{"id":"https://openalex.org/C13662910","wikidata":"https://www.wikidata.org/wiki/Q193139","display_name":"Trajectory","level":2,"score":0.4438000023365021},{"id":"https://openalex.org/C2778572836","wikidata":"https://www.wikidata.org/wiki/Q380933","display_name":"Space (punctuation)","level":2,"score":0.39399999380111694},{"id":"https://openalex.org/C182365436","wikidata":"https://www.wikidata.org/wiki/Q50701","display_name":"Variable (mathematics)","level":2,"score":0.38690000772476196},{"id":"https://openalex.org/C175154964","wikidata":"https://www.wikidata.org/wiki/Q380077","display_name":"Task analysis","level":3,"score":0.38260000944137573},{"id":"https://openalex.org/C65965080","wikidata":"https://www.wikidata.org/wiki/Q1806885","display_name":"Latent variable model","level":3,"score":0.35269999504089355},{"id":"https://openalex.org/C2779436431","wikidata":"https://www.wikidata.org/wiki/Q30672407","display_name":"Policy learning","level":2,"score":0.3499999940395355},{"id":"https://openalex.org/C110121322","wikidata":"https://www.wikidata.org/wiki/Q865811","display_name":"Distribution (mathematics)","level":2,"score":0.31119999289512634},{"id":"https://openalex.org/C28006648","wikidata":"https://www.wikidata.org/wiki/Q6934509","display_name":"Multi-task learning","level":3,"score":0.30979999899864197},{"id":"https://openalex.org/C149441793","wikidata":"https://www.wikidata.org/wiki/Q200726","display_name":"Probability distribution","level":2,"score":0.28630000352859497},{"id":"https://openalex.org/C51632099","wikidata":"https://www.wikidata.org/wiki/Q3985153","display_name":"Training set","level":2,"score":0.26510000228881836}],"mesh":[],"locations_count":2,"locations":[{"id":"doi:10.1109/tnnls.2025.3614724","is_oa":false,"landing_page_url":"https://doi.org/10.1109/tnnls.2025.3614724","pdf_url":null,"source":{"id":"https://openalex.org/S4210175523","display_name":"IEEE Transactions on Neural Networks and Learning Systems","issn_l":"2162-237X","issn":["2162-237X","2162-2388"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310319808","host_organization_name":"Institute of Electrical and Electronics Engineers","host_organization_lineage":["https://openalex.org/P4310319808"],"host_organization_lineage_names":["Institute of Electrical and Electronics Engineers"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"IEEE Transactions on Neural Networks and Learning Systems","raw_type":"journal-article"},{"id":"pmid:41166630","is_oa":false,"landing_page_url":"https://pubmed.ncbi.nlm.nih.gov/41166630","pdf_url":null,"source":{"id":"https://openalex.org/S4306525036","display_name":"PubMed","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I1299303238","host_organization_name":"National Institutes of Health","host_organization_lineage":["https://openalex.org/I1299303238"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"IEEE transactions on neural networks and learning systems","raw_type":null}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":13,"referenced_works":["https://openalex.org/W2129905273","https://openalex.org/W2131953535","https://openalex.org/W2158782408","https://openalex.org/W2989847975","https://openalex.org/W3027406032","https://openalex.org/W3036353678","https://openalex.org/W4244614463","https://openalex.org/W4319165238","https://openalex.org/W4390873745","https://openalex.org/W4390874193","https://openalex.org/W4399849504","https://openalex.org/W4407316266","https://openalex.org/W7133213520"],"related_works":[],"abstract_inverted_index":{"In":[0],"standard":[1],"reinforcement":[2],"learning,":[3],"since":[4],"the":[5,15,18,24,36,46,56,71,95,117,149,195,201,219,230,240,255,266],"uncertainty":[6],"of":[7,42,49,58,121,200,221,244],"task":[8,50,104,125,129,142,152,169,188,241],"objectives":[9],"is":[10,145,250],"not":[11],"adequately":[12],"considered":[13],"in":[14,52,62,224,263],"policy":[16,19,72,96,110,139,173,177,181,202,279],"training,":[17],"achieves":[20],"poor":[21],"generalization":[22,37,97,199,280],"for":[23,38,113,171,203],"out-of-distribution":[25],"(OOD)":[26],"tasks.":[27,115,184,283],"Although":[28],"considerable":[29],"efforts":[30],"have":[31],"been":[32],"made":[33],"to":[34,147,182,217],"enhance":[35],"OOD":[39,99,114,204,248,282],"tasks,":[40],"most":[41,267],"these":[43],"methods":[44,228],"overlook":[45],"structural":[47],"information":[48],"representations":[51],"latent":[53,87,133],"space":[54,106,159,190],"during":[55],"generation":[57],"extrapolative":[59],"data,":[60,194],"resulting":[61],"biased":[63],"and":[64,107,137,191,198,232],"blurred":[65],"data":[66,112],"embeddings,":[67],"which":[68,93,271],"then":[69],"affect":[70],"generalization.":[73],"To":[74],"address":[75],"this":[76],"issue,":[77],"we":[78],"propose":[79],"a":[80,124,128,132,138,157,180],"context-based":[81],"meta-reinforcement":[82],"learning":[83],"(meta-RL)":[84],"method,":[85,270],"namely":[86],"variable":[88],"distribution":[89],"enhancement":[90,134],"sampler":[91],"(LVDES),":[92],"enhances":[94],"on":[98,229,247,281],"tasks":[100,205,249],"by":[101,209,252,261],"providing":[102],"efficient":[103,187],"representation":[105,158,189],"accurate":[108],"augmentation":[109],"training":[111,174],"Specifically,":[116],"proposed":[118],"LVDES":[119,211,246,275],"consists":[120],"four":[122],"modules:":[123],"inference":[126,143],"module,":[127,131],"separation":[130,153],"module":[135,144,154,178],"(LEM),":[136],"module.":[140],"The":[141,151,164,176,235],"used":[146],"identify":[148],"task.":[150],"(TSM)":[155],"learns":[156,179],"with":[160,226,254,265],"highly":[161],"structured":[162],"separability.":[163],"LEM":[165],"generates":[166],"relevant":[167],"additional":[168],"trajectories":[170],"augmenting":[172],"data.":[175],"solve":[183],"By":[185],"using":[186],"augmented":[192],"trajectory":[193],"exploration":[196,257],"efficiency":[197],"can":[206,276],"be":[207],"enhanced":[208],"our":[210,222,245,274],"method.":[212],"Extensive":[213],"experiments":[214],"are":[215],"conducted":[216],"demonstrate":[218],"effectiveness":[220],"method":[223],"comparison":[225,264],"existing":[227],"MuJoCo":[231],"Meta-World":[233],"benchmarks.":[234],"experimental":[236],"results":[237],"show":[238],"that":[239,273],"completion":[242],"accuracy":[243],"increased":[251],"60.20%,":[253],"average":[256],"time":[258],"being":[259],"reduced":[260],"62.99%":[262],"effective":[268],"current":[269],"demonstrates":[272],"achieve":[277],"great":[278]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2025-10-30T00:00:00"}