{"id":"https://openalex.org/W7116780627","doi":"https://doi.org/10.1109/tetc.2025.3644748","title":"Multi-Discounting Reinforcement Learning Based on Reward Decomposition","display_name":"Multi-Discounting Reinforcement Learning Based on Reward Decomposition","publication_year":2025,"publication_date":"2025-12-22","ids":{"openalex":"https://openalex.org/W7116780627","doi":"https://doi.org/10.1109/tetc.2025.3644748"},"language":null,"primary_location":{"id":"doi:10.1109/tetc.2025.3644748","is_oa":false,"landing_page_url":"https://doi.org/10.1109/tetc.2025.3644748","pdf_url":null,"source":{"id":"https://openalex.org/S2496326734","display_name":"IEEE Transactions on Emerging Topics in Computing","issn_l":"2168-6750","issn":["2168-6750","2376-4562"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310319808","host_organization_name":"Institute of Electrical and Electronics Engineers","host_organization_lineage":["https://openalex.org/P4310319808"],"host_organization_lineage_names":["Institute of Electrical and Electronics Engineers"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"IEEE Transactions on Emerging Topics in Computing","raw_type":"journal-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5019552295","display_name":"Pengbin Chen","orcid":"https://orcid.org/0009-0007-4307-5618"},"institutions":[{"id":"https://openalex.org/I4210142539","display_name":"Guangdong Institute of Intelligent Manufacturing","ror":"https://ror.org/049jpjz09","country_code":"CN","type":"facility","lineage":["https://openalex.org/I4210142539"]}],"countries":["CN"],"is_corresponding":true,"raw_author_name":"Pengbin Chen","raw_affiliation_strings":["Guangdong Key Laboratory of Intelligent Morphing Mechanisms and Adaptive Robotics, School of Intelligence Science and Engineering, Harbin Institute of Technology Shenzhen, Shenzhen, China"],"raw_orcid":"https://orcid.org/0009-0007-4307-5618","affiliations":[{"raw_affiliation_string":"Guangdong Key Laboratory of Intelligent Morphing Mechanisms and Adaptive Robotics, School of Intelligence Science and Engineering, Harbin Institute of Technology Shenzhen, Shenzhen, China","institution_ids":["https://openalex.org/I4210142539"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5120948997","display_name":"Qi Liu","orcid":null},"institutions":[{"id":"https://openalex.org/I4210142539","display_name":"Guangdong Institute of Intelligent Manufacturing","ror":"https://ror.org/049jpjz09","country_code":"CN","type":"facility","lineage":["https://openalex.org/I4210142539"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Qi Liu","raw_affiliation_strings":["Guangdong Key Laboratory of Intelligent Morphing Mechanisms and Adaptive Robotics, School of Intelligence Science and Engineering, Harbin Institute of Technology Shenzhen, Shenzhen, China"],"raw_orcid":"https://orcid.org/0000-0001-7485-6344","affiliations":[{"raw_affiliation_string":"Guangdong Key Laboratory of Intelligent Morphing Mechanisms and Adaptive Robotics, School of Intelligence Science and Engineering, Harbin Institute of Technology Shenzhen, Shenzhen, China","institution_ids":["https://openalex.org/I4210142539"]}]},{"author_position":"middle","author":{"id":null,"display_name":"Yanjie Li","orcid":"https://orcid.org/0000-0001-7890-9677"},"institutions":[{"id":"https://openalex.org/I4210142539","display_name":"Guangdong Institute of Intelligent Manufacturing","ror":"https://ror.org/049jpjz09","country_code":"CN","type":"facility","lineage":["https://openalex.org/I4210142539"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Yanjie Li","raw_affiliation_strings":["Guangdong Key Laboratory of Intelligent Morphing Mechanisms and Adaptive Robotics, School of Intelligence Science and Engineering, Harbin Institute of Technology Shenzhen, Shenzhen, China"],"raw_orcid":"https://orcid.org/0000-0001-7890-9677","affiliations":[{"raw_affiliation_string":"Guangdong Key Laboratory of Intelligent Morphing Mechanisms and Adaptive Robotics, School of Intelligence Science and Engineering, Harbin Institute of Technology Shenzhen, Shenzhen, China","institution_ids":["https://openalex.org/I4210142539"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5033363064","display_name":"Kejian Yan","orcid":"https://orcid.org/0000-0002-7767-8157"},"institutions":[{"id":"https://openalex.org/I4210142539","display_name":"Guangdong Institute of Intelligent Manufacturing","ror":"https://ror.org/049jpjz09","country_code":"CN","type":"facility","lineage":["https://openalex.org/I4210142539"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Kejian Yan","raw_affiliation_strings":["Guangdong Key Laboratory of Intelligent Morphing Mechanisms and Adaptive Robotics, School of Intelligence Science and Engineering, Harbin Institute of Technology Shenzhen, Shenzhen, China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Guangdong Key Laboratory of Intelligent Morphing Mechanisms and Adaptive Robotics, School of Intelligence Science and Engineering, Harbin Institute of Technology Shenzhen, Shenzhen, China","institution_ids":["https://openalex.org/I4210142539"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5120962196","display_name":"Shuangkang Ma","orcid":null},"institutions":[{"id":"https://openalex.org/I4210142539","display_name":"Guangdong Institute of Intelligent Manufacturing","ror":"https://ror.org/049jpjz09","country_code":"CN","type":"facility","lineage":["https://openalex.org/I4210142539"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Shuangkang Ma","raw_affiliation_strings":["Guangdong Key Laboratory of Intelligent Morphing Mechanisms and Adaptive Robotics, School of Intelligence Science and Engineering, Harbin Institute of Technology Shenzhen, Shenzhen, China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Guangdong Key Laboratory of Intelligent Morphing Mechanisms and Adaptive Robotics, School of Intelligence Science and Engineering, Harbin Institute of Technology Shenzhen, Shenzhen, China","institution_ids":["https://openalex.org/I4210142539"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":5,"corresponding_author_ids":["https://openalex.org/A5019552295"],"corresponding_institution_ids":["https://openalex.org/I4210142539"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.79640147,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":"14","issue":"1","first_page":"94","last_page":"104"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.8646000027656555,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.8646000027656555,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12026","display_name":"Explainable Artificial Intelligence (XAI)","score":0.018200000748038292,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10042","display_name":"Neural and Behavioral Psychology Studies","score":0.012400000356137753,"subfield":{"id":"https://openalex.org/subfields/2805","display_name":"Cognitive Neuroscience"},"field":{"id":"https://openalex.org/fields/28","display_name":"Neuroscience"},"domain":{"id":"https://openalex.org/domains/1","display_name":"Life Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.8222000002861023},{"id":"https://openalex.org/keywords/markov-decision-process","display_name":"Markov decision process","score":0.7300999760627747},{"id":"https://openalex.org/keywords/flexibility","display_name":"Flexibility (engineering)","score":0.7128000259399414},{"id":"https://openalex.org/keywords/set","display_name":"Set (abstract data type)","score":0.5774999856948853},{"id":"https://openalex.org/keywords/decomposition","display_name":"Decomposition","score":0.4569999873638153},{"id":"https://openalex.org/keywords/process","display_name":"Process (computing)","score":0.4474000036716461},{"id":"https://openalex.org/keywords/action","display_name":"Action (physics)","score":0.4415999948978424},{"id":"https://openalex.org/keywords/markov-process","display_name":"Markov process","score":0.4408000111579895},{"id":"https://openalex.org/keywords/function","display_name":"Function (biology)","score":0.42419999837875366}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.8222000002861023},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7875999808311462},{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.7300999760627747},{"id":"https://openalex.org/C2780598303","wikidata":"https://www.wikidata.org/wiki/Q65921492","display_name":"Flexibility (engineering)","level":2,"score":0.7128000259399414},{"id":"https://openalex.org/C177264268","wikidata":"https://www.wikidata.org/wiki/Q1514741","display_name":"Set (abstract data type)","level":2,"score":0.5774999856948853},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.47440001368522644},{"id":"https://openalex.org/C124681953","wikidata":"https://www.wikidata.org/wiki/Q339062","display_name":"Decomposition","level":2,"score":0.4569999873638153},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.4474000036716461},{"id":"https://openalex.org/C2780791683","wikidata":"https://www.wikidata.org/wiki/Q846785","display_name":"Action (physics)","level":2,"score":0.4415999948978424},{"id":"https://openalex.org/C159886148","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov process","level":2,"score":0.4408000111579895},{"id":"https://openalex.org/C14036430","wikidata":"https://www.wikidata.org/wiki/Q3736076","display_name":"Function (biology)","level":2,"score":0.42419999837875366},{"id":"https://openalex.org/C2781039887","wikidata":"https://www.wikidata.org/wiki/Q1391724","display_name":"Factor (programming language)","level":2,"score":0.42170000076293945},{"id":"https://openalex.org/C6177178","wikidata":"https://www.wikidata.org/wiki/Q10998070","display_name":"Discounting","level":2,"score":0.41290000081062317},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.41200000047683716},{"id":"https://openalex.org/C2778572836","wikidata":"https://www.wikidata.org/wiki/Q380933","display_name":"Space (punctuation)","level":2,"score":0.4009999930858612},{"id":"https://openalex.org/C14646407","wikidata":"https://www.wikidata.org/wiki/Q1430750","display_name":"Bellman equation","level":2,"score":0.3801000118255615},{"id":"https://openalex.org/C98763669","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov chain","level":2,"score":0.3765999972820282},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.3614000082015991},{"id":"https://openalex.org/C72434380","wikidata":"https://www.wikidata.org/wiki/Q230930","display_name":"State space","level":2,"score":0.3573000133037567},{"id":"https://openalex.org/C188116033","wikidata":"https://www.wikidata.org/wiki/Q2664563","display_name":"Q-learning","level":3,"score":0.35679998993873596},{"id":"https://openalex.org/C166109690","wikidata":"https://www.wikidata.org/wiki/Q4677422","display_name":"Action selection","level":3,"score":0.3555999994277954},{"id":"https://openalex.org/C17098449","wikidata":"https://www.wikidata.org/wiki/Q176814","display_name":"Partially observable Markov decision process","level":4,"score":0.3009999990463257},{"id":"https://openalex.org/C28761237","wikidata":"https://www.wikidata.org/wiki/Q7805321","display_name":"Time horizon","level":2,"score":0.29249998927116394},{"id":"https://openalex.org/C196340769","wikidata":"https://www.wikidata.org/wiki/Q7698910","display_name":"Temporal difference learning","level":3,"score":0.2874000072479248},{"id":"https://openalex.org/C163836022","wikidata":"https://www.wikidata.org/wiki/Q6771326","display_name":"Markov model","level":3,"score":0.2840999960899353},{"id":"https://openalex.org/C23224414","wikidata":"https://www.wikidata.org/wiki/Q176769","display_name":"Hidden Markov model","level":2,"score":0.2806999981403351},{"id":"https://openalex.org/C137836250","wikidata":"https://www.wikidata.org/wiki/Q984063","display_name":"Optimization problem","level":2,"score":0.2773999869823456},{"id":"https://openalex.org/C55689738","wikidata":"https://www.wikidata.org/wiki/Q15963867","display_name":"Discrete time and continuous time","level":2,"score":0.25519999861717224}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/tetc.2025.3644748","is_oa":false,"landing_page_url":"https://doi.org/10.1109/tetc.2025.3644748","pdf_url":null,"source":{"id":"https://openalex.org/S2496326734","display_name":"IEEE Transactions on Emerging Topics in Computing","issn_l":"2168-6750","issn":["2168-6750","2376-4562"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310319808","host_organization_name":"Institute of Electrical and Electronics Engineers","host_organization_lineage":["https://openalex.org/P4310319808"],"host_organization_lineage_names":["Institute of Electrical and Electronics Engineers"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"IEEE Transactions on Emerging Topics in Computing","raw_type":"journal-article"}],"best_oa_location":null,"sustainable_development_goals":[{"id":"https://metadata.un.org/sdg/16","display_name":"Peace, Justice and strong institutions","score":0.6824881434440613}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":20,"referenced_works":["https://openalex.org/W2065365821","https://openalex.org/W2102660061","https://openalex.org/W2134247338","https://openalex.org/W2562788852","https://openalex.org/W2754517384","https://openalex.org/W2907306720","https://openalex.org/W2911036112","https://openalex.org/W2982316857","https://openalex.org/W2984168904","https://openalex.org/W2998494185","https://openalex.org/W3153573172","https://openalex.org/W3155580983","https://openalex.org/W3204760820","https://openalex.org/W3211583675","https://openalex.org/W4210870706","https://openalex.org/W4285141068","https://openalex.org/W4285588358","https://openalex.org/W4287266177","https://openalex.org/W4404278341","https://openalex.org/W7124320264"],"related_works":[],"abstract_inverted_index":{"The":[0,24,50],"standard":[1],"paradigm":[2],"of":[3,35,46,91,120,224],"reinforcement":[4],"learning":[5],"(RL)":[6],"is":[7,29],"the":[8,20,33,47,60,64,69,74,77,86,100,103,111,141,186,210,222,225],"Markov":[9],"Decision":[10],"Process":[11],"(MDP)":[12],"in":[13,27,63,102,109,116,161,217],"which":[14,67],"an":[15,172],"agent":[16],"learns":[17],"to":[18,41,85,139,147,177,185],"maximize":[19],"cumulative":[21],"discounted":[22],"rewards.":[23],"reward":[25,37,62,81,137,154,163],"function":[26],"MDP":[28,130],"generally":[30],"defined":[31],"as":[32],"sum":[34],"multiple":[36],"components,":[38],"each":[39],"designed":[40],"encapsulate":[42],"a":[43,117,132],"specific":[44,93],"aspect":[45],"expected":[48],"policy.":[49],"discount":[51,88,150],"factor":[52,89],"<inline-formula":[53],"xmlns:mml=\"http://www.w3.org/1998/Math/MathML\"":[54],"xmlns:xlink=\"http://www.w3.org/1999/xlink\"><tex-math":[55],"notation=\"LaTeX\">$\\gamma":[56],"\\in":[57],"[0,1)$</tex-math></inline-formula>":[58],"decreases":[59],"future":[61],"present":[65],"value,":[66],"determines":[68],"effective":[70],"time":[71],"horizon":[72],"for":[73,152,193,201],"agent.":[75],"In":[76],"conventional":[78],"MDP,":[79],"all":[80],"components":[82,164],"are":[83],"subject":[84],"same":[87],"regardless":[90],"their":[92],"meanings.":[94,125],"Although":[95],"this":[96,169],"convenient":[97],"configuration":[98],"simplifies":[99],"problem":[101,113],"algorithm":[104],"deployment,":[105],"it":[106,184],"sacrifices":[107],"precision":[108,216],"defining":[110],"optimization":[112],"and":[114,198,215],"results":[115,207],"temporal":[118],"mismatch":[119],"rewards":[121],"with":[122,228],"diverse":[123],"physical":[124],"This":[126,156],"paper":[127,170],"proposes":[128,171],"multi-discounting":[129,175,191,199],"(MDMDP),":[131],"novel":[133],"model":[134],"based":[135],"on":[136],"decomposition":[138],"solve":[140,178],"above":[142],"problems.":[143],"MDMDP":[144],"allows":[145],"practitioners":[146],"set":[148],"separate":[149],"factors":[151],"different":[153,166],"components.":[155],"capability":[157],"provides":[158],"great":[159],"flexibility":[160,214],"combining":[162],"at":[165],"timescales.":[167],"Furthermore,":[168],"RL":[173,188],"algorithm,":[174],"Q-learning,":[176],"finite":[179],"MDMDP.":[180],"Moreover,":[181],"we":[182],"extend":[183],"deep":[187],"version,":[189],"including":[190],"DQN":[192],"discrete":[194],"action":[195,203],"space":[196,204],"tasks":[197],"actor-critic":[200],"continuous":[202],"tasks.":[205],"Experimental":[206],"demonstrate":[208],"that":[209],"proposed":[211],"methods":[212],"improve":[213],"modeling":[218],"complex":[219],"tasks,":[220],"enhancing":[221],"alignment":[223],"agent's":[226],"policy":[227],"desired":[229],"objectives.":[230]},"counts_by_year":[],"updated_date":"2026-03-14T06:41:57.775601","created_date":"2025-12-22T00:00:00"}