{"id":"https://openalex.org/W4416252074","doi":"https://doi.org/10.1109/ijcnn64981.2025.11227830","title":"Multi-Reward Fusion: Learning from Other Policies through Distillation","display_name":"Multi-Reward Fusion: Learning from Other Policies through Distillation","publication_year":2025,"publication_date":"2025-06-30","ids":{"openalex":"https://openalex.org/W4416252074","doi":"https://doi.org/10.1109/ijcnn64981.2025.11227830"},"language":null,"primary_location":{"id":"doi:10.1109/ijcnn64981.2025.11227830","is_oa":false,"landing_page_url":"https://doi.org/10.1109/ijcnn64981.2025.11227830","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 International Joint Conference on Neural Networks (IJCNN)","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5100932514","display_name":"Yiwen Zhu","orcid":null},"institutions":[{"id":"https://openalex.org/I76130692","display_name":"Zhejiang University","ror":"https://ror.org/00a2xv884","country_code":"CN","type":"education","lineage":["https://openalex.org/I76130692"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Yiwen Zhu","raw_affiliation_strings":["Zhejiang University,Hangzhou,China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Zhejiang University,Hangzhou,China","institution_ids":["https://openalex.org/I76130692"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5100766555","display_name":"Jinyi Liu","orcid":"https://orcid.org/0009-0001-9838-238X"},"institutions":[{"id":"https://openalex.org/I162868743","display_name":"Tianjin University","ror":"https://ror.org/012tb2g32","country_code":"CN","type":"education","lineage":["https://openalex.org/I162868743"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Jinyi Liu","raw_affiliation_strings":["Tianjin University,China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Tianjin University,China","institution_ids":["https://openalex.org/I162868743"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5107939736","display_name":"Wenya Wei","orcid":"https://orcid.org/0000-0001-8041-4577"},"institutions":[{"id":"https://openalex.org/I76130692","display_name":"Zhejiang University","ror":"https://ror.org/00a2xv884","country_code":"CN","type":"education","lineage":["https://openalex.org/I76130692"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Wenya Wei","raw_affiliation_strings":["Zhejiang University,Hangzhou,China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Zhejiang University,Hangzhou,China","institution_ids":["https://openalex.org/I76130692"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5101884673","display_name":"Zhou Fang","orcid":"https://orcid.org/0000-0001-7006-7006"},"institutions":[{"id":"https://openalex.org/I76130692","display_name":"Zhejiang University","ror":"https://ror.org/00a2xv884","country_code":"CN","type":"education","lineage":["https://openalex.org/I76130692"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Zhou Fang","raw_affiliation_strings":["Zhejiang University,Hangzhou,China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Zhejiang University,Hangzhou,China","institution_ids":["https://openalex.org/I76130692"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"8"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.45100000500679016,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.45100000500679016,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Machine Learning","score":0.07259999960660934,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12026","display_name":"Explainable Artificial Intelligence (XAI)","score":0.07079999893903732,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7053999900817871},{"id":"https://openalex.org/keywords/process","display_name":"Process (computing)","score":0.5374000072479248},{"id":"https://openalex.org/keywords/representation","display_name":"Representation (politics)","score":0.48820000886917114},{"id":"https://openalex.org/keywords/distillation","display_name":"Distillation","score":0.47850000858306885},{"id":"https://openalex.org/keywords/sample","display_name":"Sample (material)","score":0.42489999532699585},{"id":"https://openalex.org/keywords/baseline","display_name":"Baseline (sea)","score":0.42100000381469727},{"id":"https://openalex.org/keywords/dual","display_name":"Dual (grammatical number)","score":0.3709999918937683}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7127000093460083},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7053999900817871},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.5374000072479248},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.499099999666214},{"id":"https://openalex.org/C2776359362","wikidata":"https://www.wikidata.org/wiki/Q2145286","display_name":"Representation (politics)","level":3,"score":0.48820000886917114},{"id":"https://openalex.org/C204030448","wikidata":"https://www.wikidata.org/wiki/Q101017","display_name":"Distillation","level":2,"score":0.47850000858306885},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.4722000062465668},{"id":"https://openalex.org/C198531522","wikidata":"https://www.wikidata.org/wiki/Q485146","display_name":"Sample (material)","level":2,"score":0.42489999532699585},{"id":"https://openalex.org/C12725497","wikidata":"https://www.wikidata.org/wiki/Q810247","display_name":"Baseline (sea)","level":2,"score":0.42100000381469727},{"id":"https://openalex.org/C2780980858","wikidata":"https://www.wikidata.org/wiki/Q110022","display_name":"Dual (grammatical number)","level":2,"score":0.3709999918937683},{"id":"https://openalex.org/C2779304628","wikidata":"https://www.wikidata.org/wiki/Q3503480","display_name":"Face (sociological concept)","level":2,"score":0.36469998955726624},{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.35929998755455017},{"id":"https://openalex.org/C2776291640","wikidata":"https://www.wikidata.org/wiki/Q2912517","display_name":"Value (mathematics)","level":2,"score":0.35659998655319214},{"id":"https://openalex.org/C18762648","wikidata":"https://www.wikidata.org/wiki/Q42213","display_name":"Work (physics)","level":2,"score":0.31540000438690186},{"id":"https://openalex.org/C174998907","wikidata":"https://www.wikidata.org/wiki/Q357662","display_name":"Work in process","level":2,"score":0.30649998784065247},{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.27730000019073486},{"id":"https://openalex.org/C147764199","wikidata":"https://www.wikidata.org/wiki/Q6865248","display_name":"Minification","level":2,"score":0.2759999930858612}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/ijcnn64981.2025.11227830","is_oa":false,"landing_page_url":"https://doi.org/10.1109/ijcnn64981.2025.11227830","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 International Joint Conference on Neural Networks (IJCNN)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":11,"referenced_works":["https://openalex.org/W2065356613","https://openalex.org/W2158969944","https://openalex.org/W2202549229","https://openalex.org/W2522489477","https://openalex.org/W2772337934","https://openalex.org/W2788455270","https://openalex.org/W2910851905","https://openalex.org/W2965307502","https://openalex.org/W3164005523","https://openalex.org/W4320800818","https://openalex.org/W4393147266"],"related_works":[],"abstract_inverted_index":{"Reward":[0],"design":[1],"constitutes":[2],"a":[3,21,56,80,135],"critical":[4],"challenge":[5],"in":[6,120],"practical":[7],"reinforcement":[8],"learning":[9],"applications.":[10],"While":[11],"shaping":[12,152],"rewards":[13,26],"could":[14],"theoretically":[15],"accelerate":[16],"agent":[17],"learning,":[18],"researchers":[19],"face":[20],"dual":[22],"dilemma:":[23],"manually":[24],"crafted":[25],"may":[27],"inadvertently":[28],"distort":[29],"the":[30,35,106],"original":[31],"optimization":[32,145],"objective,":[33],"and":[34,124,153],"fundamental":[36],"limitation":[37],"of":[38],"scalar":[39],"value":[40,154],"representations":[41],"often":[42],"impedes":[43],"effective":[44],"policy":[45,76],"learning.":[46],"To":[47],"address":[48],"these":[49,87],"limitations,":[50],"we":[51],"propose":[52],"Multi-Reward":[53],"Fusion":[54],"(MRF),":[55],"novel":[57],"framework":[58],"that":[59],"systematically":[60],"integrates":[61],"diverse":[62],"human-engineered":[63],"reward":[64,70,141,151],"signals.":[65],"MRF":[66],"leverages":[67],"multiple":[68,113,140],"task-aligned":[69],"components":[71],"to":[72,85,128],"simultaneously":[73],"learn":[74],"distinct":[75],"networks,":[77],"then":[78],"employs":[79],"hierarchical":[81],"knowledge":[82],"distillation":[83,107],"process":[84],"synthesize":[86],"specialized":[88],"policies":[89],"into":[90,150],"an":[91],"optimized":[92],"target":[93],"policy.":[94],"We":[95],"also":[96],"provide":[97],"rigorous":[98],"theoretical":[99],"analysis":[100],"establishing":[101],"formal":[102],"convergence":[103],"guarantees":[104],"for":[105,138],"mechanism.":[108],"Experimental":[109],"evaluations":[110],"conducted":[111],"across":[112],"standardized":[114],"benchmarks":[115],"demonstrate":[116],"statistically":[117],"significant":[118],"enhancements":[119],"both":[121],"sample":[122],"efficiency":[123],"asymptotic":[125],"performance":[126],"relative":[127],"advanced":[129],"baseline":[130],"approaches.":[131],"This":[132],"work":[133],"provides":[134],"principled":[136],"approach":[137],"combining":[139],"perspectives":[142],"while":[143],"maintaining":[144],"integrity,":[146],"offering":[147],"new":[148],"insights":[149],"representation":[155],"challenges.":[156]},"counts_by_year":[],"updated_date":"2026-07-14T23:27:15.235271","created_date":"2025-11-14T00:00:00"}