{"id":"https://openalex.org/W4416582662","doi":"https://doi.org/10.1109/tsp.2025.3636071","title":"Multilinear Tensor Low-Rank Approximation for Policy-Gradient Methods in Reinforcement Learning","display_name":"Multilinear Tensor Low-Rank Approximation for Policy-Gradient Methods in Reinforcement Learning","publication_year":2025,"publication_date":"2025-01-01","ids":{"openalex":"https://openalex.org/W4416582662","doi":"https://doi.org/10.1109/tsp.2025.3636071"},"language":null,"primary_location":{"id":"doi:10.1109/tsp.2025.3636071","is_oa":true,"landing_page_url":"https://doi.org/10.1109/tsp.2025.3636071","pdf_url":null,"source":{"id":"https://openalex.org/S168680287","display_name":"IEEE Transactions on Signal Processing","issn_l":"1053-587X","issn":["1053-587X","1941-0476"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310319808","host_organization_name":"Institute of Electrical and Electronics Engineers","host_organization_lineage":["https://openalex.org/P4310319808"],"host_organization_lineage_names":["Institute of Electrical and Electronics Engineers"],"type":"journal"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"IEEE Transactions on Signal Processing","raw_type":"journal-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":true,"oa_status":"hybrid","oa_url":"https://doi.org/10.1109/tsp.2025.3636071","any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5077468628","display_name":"Sergio Rozada","orcid":"https://orcid.org/0000-0003-1042-7502"},"institutions":[{"id":"https://openalex.org/I182083151","display_name":"Universidad Rey Juan Carlos","ror":"https://ror.org/01v5cv687","country_code":"ES","type":"education","lineage":["https://openalex.org/I182083151"]}],"countries":["ES"],"is_corresponding":true,"raw_author_name":"Sergio Rozada","raw_affiliation_strings":["Department of Signal Theory and Comms., King Juan Carlos University, Madrid, Spain","Department of Signal Theory and Comms.,, King Juan Carlos University, Madrid, Spain"],"affiliations":[{"raw_affiliation_string":"Department of Signal Theory and Comms., King Juan Carlos University, Madrid, Spain","institution_ids":["https://openalex.org/I182083151"]},{"raw_affiliation_string":"Department of Signal Theory and Comms.,, King Juan Carlos University, Madrid, Spain","institution_ids":["https://openalex.org/I182083151"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5055166851","display_name":"Hoi-To Wai","orcid":"https://orcid.org/0000-0003-4796-4483"},"institutions":[{"id":"https://openalex.org/I177725633","display_name":"Chinese University of Hong Kong","ror":"https://ror.org/00t33hh48","country_code":"CN","type":"education","lineage":["https://openalex.org/I177725633"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Hoi-To Wai","raw_affiliation_strings":["Department of Systems Engineering and Engineering Management, The Chinese University of Hong Kong (CUHK), Hong Kong, China","Department of Systems Eng. and Eng. Management, The Chinese University of Hong Kong (CUHK), Hong Kong, China"],"affiliations":[{"raw_affiliation_string":"Department of Systems Engineering and Engineering Management, The Chinese University of Hong Kong (CUHK), Hong Kong, China","institution_ids":["https://openalex.org/I177725633"]},{"raw_affiliation_string":"Department of Systems Eng. and Eng. Management, The Chinese University of Hong Kong (CUHK), Hong Kong, China","institution_ids":["https://openalex.org/I177725633"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5054312245","display_name":"Antonio G. Marqu\u00e9s","orcid":"https://orcid.org/0000-0002-4642-7718"},"institutions":[{"id":"https://openalex.org/I182083151","display_name":"Universidad Rey Juan Carlos","ror":"https://ror.org/01v5cv687","country_code":"ES","type":"education","lineage":["https://openalex.org/I182083151"]}],"countries":["ES"],"is_corresponding":false,"raw_author_name":"Antonio G. Marques","raw_affiliation_strings":["Department of Signal Theory and Comms., King Juan Carlos University, Madrid, Spain","Department of Signal Theory and Comms.,, King Juan Carlos University, Madrid, Spain"],"affiliations":[{"raw_affiliation_string":"Department of Signal Theory and Comms., King Juan Carlos University, Madrid, Spain","institution_ids":["https://openalex.org/I182083151"]},{"raw_affiliation_string":"Department of Signal Theory and Comms.,, King Juan Carlos University, Madrid, Spain","institution_ids":["https://openalex.org/I182083151"]}]}],"institutions":[],"countries_distinct_count":2,"institutions_distinct_count":3,"corresponding_author_ids":["https://openalex.org/A5077468628"],"corresponding_institution_ids":["https://openalex.org/I182083151"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.20209624,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":"73","issue":null,"first_page":"4906","last_page":"4920"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.33809998631477356,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.33809998631477356,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12303","display_name":"Tensor decomposition and applications","score":0.17219999432563782,"subfield":{"id":"https://openalex.org/subfields/2605","display_name":"Computational Mathematics"},"field":{"id":"https://openalex.org/fields/26","display_name":"Mathematics"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12101","display_name":"Advanced Bandit Algorithms Research","score":0.1151999980211258,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/multilinear-map","display_name":"Multilinear map","score":0.9373000264167786},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.8026000261306763},{"id":"https://openalex.org/keywords/leverage","display_name":"Leverage (statistics)","score":0.703000009059906},{"id":"https://openalex.org/keywords/probabilistic-logic","display_name":"Probabilistic logic","score":0.5378000140190125},{"id":"https://openalex.org/keywords/artificial-neural-network","display_name":"Artificial neural network","score":0.49570000171661377},{"id":"https://openalex.org/keywords/tensor-decomposition","display_name":"Tensor decomposition","score":0.4602000117301941},{"id":"https://openalex.org/keywords/parametric-statistics","display_name":"Parametric statistics","score":0.45559999346733093},{"id":"https://openalex.org/keywords/decomposition","display_name":"Decomposition","score":0.4293000102043152}],"concepts":[{"id":"https://openalex.org/C84392682","wikidata":"https://www.wikidata.org/wiki/Q1952404","display_name":"Multilinear map","level":2,"score":0.9373000264167786},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.8026000261306763},{"id":"https://openalex.org/C153083717","wikidata":"https://www.wikidata.org/wiki/Q6535263","display_name":"Leverage (statistics)","level":2,"score":0.703000009059906},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.5656999945640564},{"id":"https://openalex.org/C49937458","wikidata":"https://www.wikidata.org/wiki/Q2599292","display_name":"Probabilistic logic","level":2,"score":0.5378000140190125},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5020999908447266},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.49570000171661377},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.47209998965263367},{"id":"https://openalex.org/C2986737658","wikidata":"https://www.wikidata.org/wiki/Q30103009","display_name":"Tensor decomposition","level":3,"score":0.4602000117301941},{"id":"https://openalex.org/C117251300","wikidata":"https://www.wikidata.org/wiki/Q1849855","display_name":"Parametric statistics","level":2,"score":0.45559999346733093},{"id":"https://openalex.org/C124681953","wikidata":"https://www.wikidata.org/wiki/Q339062","display_name":"Decomposition","level":2,"score":0.4293000102043152},{"id":"https://openalex.org/C155281189","wikidata":"https://www.wikidata.org/wiki/Q3518150","display_name":"Tensor (intrinsic definition)","level":2,"score":0.4250999987125397},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.42250001430511475},{"id":"https://openalex.org/C2779304628","wikidata":"https://www.wikidata.org/wiki/Q3503480","display_name":"Face (sociological concept)","level":2,"score":0.41839998960494995},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.41679999232292175},{"id":"https://openalex.org/C196340769","wikidata":"https://www.wikidata.org/wiki/Q7698910","display_name":"Temporal difference learning","level":3,"score":0.38440001010894775},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.32440000772476196},{"id":"https://openalex.org/C91873725","wikidata":"https://www.wikidata.org/wiki/Q3445816","display_name":"Function approximation","level":3,"score":0.3149999976158142},{"id":"https://openalex.org/C198531522","wikidata":"https://www.wikidata.org/wiki/Q485146","display_name":"Sample (material)","level":2,"score":0.28700000047683716},{"id":"https://openalex.org/C80444323","wikidata":"https://www.wikidata.org/wiki/Q2878974","display_name":"Theoretical computer science","level":1,"score":0.28119999170303345},{"id":"https://openalex.org/C171018156","wikidata":"https://www.wikidata.org/wiki/Q7370306","display_name":"Rotation formalisms in three dimensions","level":2,"score":0.2777999937534332},{"id":"https://openalex.org/C2780791683","wikidata":"https://www.wikidata.org/wiki/Q846785","display_name":"Action (physics)","level":2,"score":0.2736000120639801},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.2718999981880188},{"id":"https://openalex.org/C2780586882","wikidata":"https://www.wikidata.org/wiki/Q7520643","display_name":"Simple (philosophy)","level":2,"score":0.2565000057220459}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/tsp.2025.3636071","is_oa":true,"landing_page_url":"https://doi.org/10.1109/tsp.2025.3636071","pdf_url":null,"source":{"id":"https://openalex.org/S168680287","display_name":"IEEE Transactions on Signal Processing","issn_l":"1053-587X","issn":["1053-587X","1941-0476"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310319808","host_organization_name":"Institute of Electrical and Electronics Engineers","host_organization_lineage":["https://openalex.org/P4310319808"],"host_organization_lineage_names":["Institute of Electrical and Electronics Engineers"],"type":"journal"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"IEEE Transactions on Signal Processing","raw_type":"journal-article"}],"best_oa_location":{"id":"doi:10.1109/tsp.2025.3636071","is_oa":true,"landing_page_url":"https://doi.org/10.1109/tsp.2025.3636071","pdf_url":null,"source":{"id":"https://openalex.org/S168680287","display_name":"IEEE Transactions on Signal Processing","issn_l":"1053-587X","issn":["1053-587X","1941-0476"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310319808","host_organization_name":"Institute of Electrical and Electronics Engineers","host_organization_lineage":["https://openalex.org/P4310319808"],"host_organization_lineage_names":["Institute of Electrical and Electronics Engineers"],"type":"journal"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"IEEE Transactions on Signal Processing","raw_type":"journal-article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":32,"referenced_works":["https://openalex.org/W2004026774","https://openalex.org/W2024165284","https://openalex.org/W2107699930","https://openalex.org/W2119717200","https://openalex.org/W2119741678","https://openalex.org/W2469230926","https://openalex.org/W2500090022","https://openalex.org/W2561828331","https://openalex.org/W2568999269","https://openalex.org/W2766447205","https://openalex.org/W2951360122","https://openalex.org/W2963158258","https://openalex.org/W2963190258","https://openalex.org/W2963672698","https://openalex.org/W2964210434","https://openalex.org/W3023368031","https://openalex.org/W3092621452","https://openalex.org/W3100789280","https://openalex.org/W3109546547","https://openalex.org/W3127686539","https://openalex.org/W3128969903","https://openalex.org/W3163894240","https://openalex.org/W3207833002","https://openalex.org/W4206331184","https://openalex.org/W4206519735","https://openalex.org/W4221145216","https://openalex.org/W4375869306","https://openalex.org/W4377224968","https://openalex.org/W4391383035","https://openalex.org/W4392902809","https://openalex.org/W4392979614","https://openalex.org/W6922480057"],"related_works":[],"abstract_inverted_index":{"Reinforcement":[0],"learning":[1],"(RL)":[2],"aims":[3],"to":[4,8,30,42,50,69,93,109,131,173],"estimate":[5,95],"the":[6,15,39,78,81,96,99,106,121,142],"action":[7],"take":[9],"given":[10],"a":[11,19,44,59,125],"(time-varying)":[12],"state,":[13],"with":[14,38],"goal":[16],"of":[17,28,77,80,98,141],"maximizing":[18],"cumulative":[20],"reward":[21],"function.":[22],"Predominantly,":[23],"there":[24],"are":[25],"two":[26],"families":[27],"algorithms":[29],"solve":[31],"RL":[32,100],"problems:":[33],"value-based":[34],"and":[35,75,127,149,168],"policy-based":[36],"methods,":[37],"latter":[40],"designed":[41],"learn":[43],"probabilistic":[45],"parametric":[46],"policy":[47,57,122,147,164],"from":[48],"states":[49],"actions.":[51],"Most":[52],"contemporary":[53],"approaches":[54],"implement":[55],"this":[56],"using":[58],"neural":[60],"network":[61],"(NN).":[62],"However,":[63],"NNs":[64],"usually":[65],"face":[66],"issues":[67],"related":[68],"convergence,":[70],"architectural":[71],"suitability,":[72],"hyper-parameter":[73],"selection,":[74],"underutilization":[76],"redundancies":[79],"state-action":[82],"representations":[83],"(e.g.":[84],"locally":[85],"similar":[86,178],"states).":[87],"This":[88],"paper":[89],"postulates":[90],"multilinear":[91],"mappings":[92],"efficiently":[94],"parameters":[97,123],"policy.":[101],"More":[102],"precisely,":[103],"we":[104,157],"leverage":[105],"PARAFAC":[107],"decomposition":[108],"design":[110],"<italic":[111,133,160],"xmlns:mml=\"http://www.w3.org/1998/Math/MathML\"":[112,134,161],"xmlns:xlink=\"http://www.w3.org/1999/xlink\">tensor":[113,162],"low-rank</i>":[114,163],"policies.":[115],"The":[116],"key":[117],"idea":[118],"involves":[119],"collecting":[120],"into":[124],"tensor":[126],"leveraging":[128],"tensor-completion":[129],"techniques":[130],"enforce":[132],"xmlns:xlink=\"http://www.w3.org/1999/xlink\">low":[135],"rank</i>.":[136],"We":[137],"establish":[138],"theoretical":[139],"guarantees":[140],"proposed":[143],"methods":[144],"for":[145],"various":[146],"classes":[148],"validate":[150],"their":[151],"efficacy":[152],"through":[153],"numerical":[154],"experiments.":[155],"Specifically,":[156],"demonstrate":[158],"that":[159],"models":[165,175],"reduce":[166],"computational":[167],"sample":[169],"complexities":[170],"in":[171],"comparison":[172],"NN":[174],"while":[176],"achieving":[177],"rewards.":[179]},"counts_by_year":[],"updated_date":"2026-03-07T16:01:11.037858","created_date":"2025-11-25T00:00:00"}