{"id":"https://openalex.org/W4413754996","doi":"https://doi.org/10.1109/tetci.2025.3593841","title":"From Wasserstein to Maximum Mean Discrepancy Barycenters: A Novel Framework for Uncertainty Propagation in Model-Free Reinforcement Learning","display_name":"From Wasserstein to Maximum Mean Discrepancy Barycenters: A Novel Framework for Uncertainty Propagation in Model-Free Reinforcement Learning","publication_year":2025,"publication_date":"2025-08-27","ids":{"openalex":"https://openalex.org/W4413754996","doi":"https://doi.org/10.1109/tetci.2025.3593841"},"language":"en","primary_location":{"id":"doi:10.1109/tetci.2025.3593841","is_oa":false,"landing_page_url":"https://doi.org/10.1109/tetci.2025.3593841","pdf_url":null,"source":{"id":"https://openalex.org/S4210210251","display_name":"IEEE Transactions on Emerging Topics in Computational Intelligence","issn_l":"2471-285X","issn":["2471-285X"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310319808","host_organization_name":"Institute of Electrical and Electronics Engineers","host_organization_lineage":["https://openalex.org/P4310319808"],"host_organization_lineage_names":["Institute of Electrical and Electronics Engineers"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"IEEE Transactions on Emerging Topics in Computational Intelligence","raw_type":"journal-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5075656144","display_name":"Srinjoy Roy","orcid":null},"institutions":[{"id":"https://openalex.org/I19149307","display_name":"Chennai Mathematical Institute","ror":"https://ror.org/04zp24820","country_code":"IN","type":"education","lineage":["https://openalex.org/I19149307"]}],"countries":["IN"],"is_corresponding":false,"raw_author_name":"Srinjoy Roy","raw_affiliation_strings":["Chennai Mathematical Institute, Siruseri, India"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Chennai Mathematical Institute, Siruseri, India","institution_ids":["https://openalex.org/I19149307"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5041620416","display_name":"Subhajit Saha","orcid":"https://orcid.org/0000-0002-9955-2176"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Subhajit Saha","raw_affiliation_strings":["Institute for Advancing Intelligence, TCG-CREST, Kolkata, India"],"raw_orcid":"https://orcid.org/0000-0002-9955-2176","affiliations":[{"raw_affiliation_string":"Institute for Advancing Intelligence, TCG-CREST, Kolkata, India","institution_ids":[]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5000078546","display_name":"Swagatam Das","orcid":"https://orcid.org/0000-0001-6843-4508"},"institutions":[{"id":"https://openalex.org/I6498739","display_name":"Indian Statistical Institute","ror":"https://ror.org/00q2w1j53","country_code":"IN","type":"education","lineage":["https://openalex.org/I6498739"]}],"countries":["IN"],"is_corresponding":false,"raw_author_name":"Swagatam Das","raw_affiliation_strings":["Electronics and Communication Sciences Unit, Indian Statistical Institute, Kolkata, India"],"raw_orcid":"https://orcid.org/0000-0001-6843-4508","affiliations":[{"raw_affiliation_string":"Electronics and Communication Sciences Unit, Indian Statistical Institute, Kolkata, India","institution_ids":["https://openalex.org/I6498739"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":1.396,"has_fulltext":false,"cited_by_count":1,"citation_normalized_percentile":{"value":0.85603582,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":91,"max":95},"biblio":{"volume":"10","issue":"1","first_page":"594","last_page":"606"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Machine Learning","score":0.9728000164031982,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Machine Learning","score":0.9728000164031982,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9078999757766724,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7638901472091675},{"id":"https://openalex.org/keywords/reinforcement","display_name":"Reinforcement","score":0.5553888082504272},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.4474402666091919},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.39238640666007996},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.37610360980033875},{"id":"https://openalex.org/keywords/psychology","display_name":"Psychology","score":0.15759626030921936},{"id":"https://openalex.org/keywords/social-psychology","display_name":"Social psychology","score":0.11416029930114746}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7638901472091675},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.5553888082504272},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.4474402666091919},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.39238640666007996},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.37610360980033875},{"id":"https://openalex.org/C15744967","wikidata":"https://www.wikidata.org/wiki/Q9418","display_name":"Psychology","level":0,"score":0.15759626030921936},{"id":"https://openalex.org/C77805123","wikidata":"https://www.wikidata.org/wiki/Q161272","display_name":"Social psychology","level":1,"score":0.11416029930114746}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/tetci.2025.3593841","is_oa":false,"landing_page_url":"https://doi.org/10.1109/tetci.2025.3593841","pdf_url":null,"source":{"id":"https://openalex.org/S4210210251","display_name":"IEEE Transactions on Emerging Topics in Computational Intelligence","issn_l":"2471-285X","issn":["2471-285X"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310319808","host_organization_name":"Institute of Electrical and Electronics Engineers","host_organization_lineage":["https://openalex.org/P4310319808"],"host_organization_lineage_names":["Institute of Electrical and Electronics Engineers"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"IEEE Transactions on Emerging Topics in Computational Intelligence","raw_type":"journal-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":18,"referenced_works":["https://openalex.org/W1867103660","https://openalex.org/W1988526405","https://openalex.org/W2096825593","https://openalex.org/W2097931172","https://openalex.org/W2129670787","https://openalex.org/W2150468603","https://openalex.org/W2168405694","https://openalex.org/W2489939061","https://openalex.org/W2746553466","https://openalex.org/W2963403143","https://openalex.org/W2963797557","https://openalex.org/W2973214398","https://openalex.org/W4206024271","https://openalex.org/W4213251304","https://openalex.org/W4234228486","https://openalex.org/W4246270964","https://openalex.org/W4322729780","https://openalex.org/W4375928832"],"related_works":["https://openalex.org/W2899084033","https://openalex.org/W2748952813","https://openalex.org/W4391375266","https://openalex.org/W1979597421","https://openalex.org/W4310083477","https://openalex.org/W2328553770","https://openalex.org/W2920061524","https://openalex.org/W2007980826","https://openalex.org/W1977959518","https://openalex.org/W2038908348"],"abstract_inverted_index":{"Uncertainty":[0],"characterization":[1],"via":[2],"posteriors":[3,47],"followed":[4],"by":[5,23],"Bayesian":[6,25],"updates":[7],"is":[8,99],"an":[9],"acclaimed":[10],"way":[11],"to":[12,35,143,155],"aid":[13],"the":[14,24,37,46,58,86,109,124,137,174,180],"exploration":[15],"of":[16,81,97,126,139,177,182],"model-free":[17],"Reinforcement":[18],"Learning":[19],"(RL)":[20],"algorithms.":[21,130],"Motivated":[22],"RL":[26,135],"literature,":[27],"we":[28,147],"build":[29],"Maximum":[30,59,156],"Mean":[31,60,157],"Discrepancy":[32,61,158],"Q-Learning":[33,40],"(MMD-QL)":[34],"enhance":[36],"well-known":[38],"Wasserstein":[39,87],"(WQL)":[41],"for":[42,65,185],"more":[43,78],"accurately":[44],"estimating":[45],"and,":[48],"as":[49,64],"a":[50,77,93,164],"result,":[51],"accomplish":[52],"even":[53],"better":[54,172],"exploration.":[55],"MMD-QL":[56,98,121,140],"leverages":[57],"(MMD)":[62],"barycenter,":[63],"many":[66,132],"positive":[67],"semi-definite":[68],"kernels":[69],"that":[70,92,120,169],"induce":[71],"smooth":[72],"function":[73,144],"classes,":[74],"MMD":[75,183],"offers":[76],"precise":[79],"notion":[80],"distance":[82],"between":[83],"distributions":[84],"than":[85,173],"distance.":[88],"We":[89],"analytically":[90],"prove":[91],"slightly":[94],"modified":[95],"version":[96],"Probably":[100],"Approximately":[101],"Correct":[102],"in":[103,188],"Markov":[104],"Decision":[105],"Processes":[106],"(PAC-MDP)":[107],"under":[108],"average":[110],"loss":[111],"metric.":[112],"Thorough":[113],"experiments":[114,162],"on":[115,163],"several":[116],"tabular":[117],"domains":[118],"illustrate":[119],"mainly":[122],"surpasses":[123],"performance":[125],"WQL":[127],"and":[128],"other":[129],"Unlike":[131],"provably":[133],"efficient":[134],"algorithms,":[136],"framework":[138],"can":[141],"extend":[142],"approximation.":[145],"Specifically,":[146],"incorporate":[148],"Bootstrapped":[149],"DQN-style":[150],"deep":[151,175],"networks,":[152],"giving":[153],"rise":[154],"Q-Network":[159],"(MMD-QN).":[160],"Our":[161],"few":[165],"Atari":[166],"games":[167],"reveal":[168],"MMD-QN":[170],"delivers":[171],"equivalent":[176],"WQL,":[178],"emphasizing":[179],"efficacy":[181],"barycenters":[184],"propagating":[186],"uncertainty":[187],"environments":[189],"with":[190],"large":[191],"state-action":[192],"space":[193],"size.":[194]},"counts_by_year":[{"year":2025,"cited_by_count":1}],"updated_date":"2026-01-25T23:04:38.658462","created_date":"2025-10-10T00:00:00"}