{"id":"https://openalex.org/W4414084679","doi":"https://doi.org/10.1109/tnnls.2025.3605362","title":"Bicriteria Policy Optimization for High-Accuracy Reinforcement Learning","display_name":"Bicriteria Policy Optimization for High-Accuracy Reinforcement Learning","publication_year":2025,"publication_date":"2025-09-09","ids":{"openalex":"https://openalex.org/W4414084679","doi":"https://doi.org/10.1109/tnnls.2025.3605362","pmid":"https://pubmed.ncbi.nlm.nih.gov/40924517"},"language":"en","primary_location":{"id":"doi:10.1109/tnnls.2025.3605362","is_oa":false,"landing_page_url":"https://doi.org/10.1109/tnnls.2025.3605362","pdf_url":null,"source":{"id":"https://openalex.org/S4210175523","display_name":"IEEE Transactions on Neural Networks and Learning Systems","issn_l":"2162-237X","issn":["2162-237X","2162-2388"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310319808","host_organization_name":"Institute of Electrical and Electronics Engineers","host_organization_lineage":["https://openalex.org/P4310319808"],"host_organization_lineage_names":["Institute of Electrical and Electronics Engineers"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"IEEE Transactions on Neural Networks and Learning Systems","raw_type":"journal-article"},"type":"article","indexed_in":["crossref","pubmed"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5029301375","display_name":"Guojian Zhan","orcid":"https://orcid.org/0000-0002-1246-4860"},"institutions":[{"id":"https://openalex.org/I99065089","display_name":"Tsinghua University","ror":"https://ror.org/03cve4549","country_code":"CN","type":"education","lineage":["https://openalex.org/I99065089"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Guojian Zhan","raw_affiliation_strings":["School of Vehicle and Mobility, Tsinghua University, Beijing, China"],"raw_orcid":"https://orcid.org/0000-0002-1246-4860","affiliations":[{"raw_affiliation_string":"School of Vehicle and Mobility, Tsinghua University, Beijing, China","institution_ids":["https://openalex.org/I99065089"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5061121548","display_name":"Xiangteng Zhang","orcid":"https://orcid.org/0009-0001-4532-7467"},"institutions":[{"id":"https://openalex.org/I99065089","display_name":"Tsinghua University","ror":"https://ror.org/03cve4549","country_code":"CN","type":"education","lineage":["https://openalex.org/I99065089"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Xiangteng Zhang","raw_affiliation_strings":["School of Vehicle and Mobility, Tsinghua University, Beijing, China"],"raw_orcid":"https://orcid.org/0009-0001-4532-7467","affiliations":[{"raw_affiliation_string":"School of Vehicle and Mobility, Tsinghua University, Beijing, China","institution_ids":["https://openalex.org/I99065089"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5102322470","display_name":"Feihong Zhang","orcid":null},"institutions":[{"id":"https://openalex.org/I99065089","display_name":"Tsinghua University","ror":"https://ror.org/03cve4549","country_code":"CN","type":"education","lineage":["https://openalex.org/I99065089"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Feihong Zhang","raw_affiliation_strings":["School of Vehicle and Mobility, Tsinghua University, Beijing, China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"School of Vehicle and Mobility, Tsinghua University, Beijing, China","institution_ids":["https://openalex.org/I99065089"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5011635677","display_name":"Letian Tao","orcid":null},"institutions":[{"id":"https://openalex.org/I99065089","display_name":"Tsinghua University","ror":"https://ror.org/03cve4549","country_code":"CN","type":"education","lineage":["https://openalex.org/I99065089"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Letian Tao","raw_affiliation_strings":["School of Vehicle and Mobility, Tsinghua University, Beijing, China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"School of Vehicle and Mobility, Tsinghua University, Beijing, China","institution_ids":["https://openalex.org/I99065089"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5100747108","display_name":"Shengbo Eben Li","orcid":"https://orcid.org/0000-0003-4923-3633"},"institutions":[{"id":"https://openalex.org/I99065089","display_name":"Tsinghua University","ror":"https://ror.org/03cve4549","country_code":"CN","type":"education","lineage":["https://openalex.org/I99065089"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Shengbo Eben Li","raw_affiliation_strings":["School of Vehicle and Mobility and the College of Artificial Intelligence, Tsinghua University, Beijing, China"],"raw_orcid":"https://orcid.org/0000-0003-4923-3633","affiliations":[{"raw_affiliation_string":"School of Vehicle and Mobility and the College of Artificial Intelligence, Tsinghua University, Beijing, China","institution_ids":["https://openalex.org/I99065089"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":[],"corresponding_institution_ids":["https://openalex.org/I99065089"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.19556975,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":"37","issue":"1","first_page":"312","last_page":"326"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10409","display_name":"Fuel Cells and Related Materials","score":0.9868999719619751,"subfield":{"id":"https://openalex.org/subfields/2208","display_name":"Electrical and Electronic Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10409","display_name":"Fuel Cells and Related Materials","score":0.9868999719619751,"subfield":{"id":"https://openalex.org/subfields/2208","display_name":"Electrical and Electronic Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10502","display_name":"Advanced Memory and Neural Computing","score":0.9758999943733215,"subfield":{"id":"https://openalex.org/subfields/2208","display_name":"Electrical and Electronic Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10558","display_name":"Advancements in Semiconductor Devices and Circuit Design","score":0.9722999930381775,"subfield":{"id":"https://openalex.org/subfields/2208","display_name":"Electrical and Electronic Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.6632000207901001},{"id":"https://openalex.org/keywords/minimax","display_name":"Minimax","score":0.5708000063896179},{"id":"https://openalex.org/keywords/bellman-equation","display_name":"Bellman equation","score":0.5357000231742859},{"id":"https://openalex.org/keywords/maximization","display_name":"Maximization","score":0.5181999802589417},{"id":"https://openalex.org/keywords/convergence","display_name":"Convergence (economics)","score":0.4794999957084656},{"id":"https://openalex.org/keywords/optimal-control","display_name":"Optimal control","score":0.45879998803138733},{"id":"https://openalex.org/keywords/key","display_name":"Key (lock)","score":0.44190001487731934},{"id":"https://openalex.org/keywords/optimization-problem","display_name":"Optimization problem","score":0.4406999945640564},{"id":"https://openalex.org/keywords/smoothness","display_name":"Smoothness","score":0.4381999969482422},{"id":"https://openalex.org/keywords/function","display_name":"Function (biology)","score":0.4327000081539154}],"concepts":[{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.6980000138282776},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.6632000207901001},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.588699996471405},{"id":"https://openalex.org/C149728462","wikidata":"https://www.wikidata.org/wiki/Q751319","display_name":"Minimax","level":2,"score":0.5708000063896179},{"id":"https://openalex.org/C14646407","wikidata":"https://www.wikidata.org/wiki/Q1430750","display_name":"Bellman equation","level":2,"score":0.5357000231742859},{"id":"https://openalex.org/C2776330181","wikidata":"https://www.wikidata.org/wiki/Q18358244","display_name":"Maximization","level":2,"score":0.5181999802589417},{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.4794999957084656},{"id":"https://openalex.org/C91575142","wikidata":"https://www.wikidata.org/wiki/Q1971426","display_name":"Optimal control","level":2,"score":0.45879998803138733},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.44190001487731934},{"id":"https://openalex.org/C137836250","wikidata":"https://www.wikidata.org/wiki/Q984063","display_name":"Optimization problem","level":2,"score":0.4406999945640564},{"id":"https://openalex.org/C102634674","wikidata":"https://www.wikidata.org/wiki/Q868473","display_name":"Smoothness","level":2,"score":0.4381999969482422},{"id":"https://openalex.org/C14036430","wikidata":"https://www.wikidata.org/wiki/Q3736076","display_name":"Function (biology)","level":2,"score":0.4327000081539154},{"id":"https://openalex.org/C41045048","wikidata":"https://www.wikidata.org/wiki/Q202843","display_name":"Linear programming","level":2,"score":0.40720000863075256},{"id":"https://openalex.org/C153258448","wikidata":"https://www.wikidata.org/wiki/Q1199743","display_name":"Gradient descent","level":3,"score":0.3490999937057495},{"id":"https://openalex.org/C157972887","wikidata":"https://www.wikidata.org/wiki/Q463359","display_name":"Convex optimization","level":3,"score":0.3474000096321106},{"id":"https://openalex.org/C2775924081","wikidata":"https://www.wikidata.org/wiki/Q55608371","display_name":"Control (management)","level":2,"score":0.3312000036239624},{"id":"https://openalex.org/C48103436","wikidata":"https://www.wikidata.org/wiki/Q599031","display_name":"State (computer science)","level":2,"score":0.32839998602867126},{"id":"https://openalex.org/C145446738","wikidata":"https://www.wikidata.org/wiki/Q319913","display_name":"Convex function","level":3,"score":0.3208000063896179},{"id":"https://openalex.org/C2776650193","wikidata":"https://www.wikidata.org/wiki/Q264661","display_name":"Obstacle","level":2,"score":0.31130000948905945},{"id":"https://openalex.org/C61797465","wikidata":"https://www.wikidata.org/wiki/Q1188986","display_name":"Term (time)","level":2,"score":0.3098999857902527},{"id":"https://openalex.org/C58716799","wikidata":"https://www.wikidata.org/wiki/Q6035648","display_name":"Inner loop","level":3,"score":0.30469998717308044},{"id":"https://openalex.org/C89109886","wikidata":"https://www.wikidata.org/wiki/Q1535924","display_name":"Trust region","level":3,"score":0.3003999888896942},{"id":"https://openalex.org/C115680565","wikidata":"https://www.wikidata.org/wiki/Q5977448","display_name":"Gradient method","level":2,"score":0.28049999475479126},{"id":"https://openalex.org/C37404715","wikidata":"https://www.wikidata.org/wiki/Q380679","display_name":"Dynamic programming","level":2,"score":0.2802000045776367},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.27709999680519104},{"id":"https://openalex.org/C147764199","wikidata":"https://www.wikidata.org/wiki/Q6865248","display_name":"Minification","level":2,"score":0.27239999175071716},{"id":"https://openalex.org/C45374587","wikidata":"https://www.wikidata.org/wiki/Q12525525","display_name":"Computation","level":2,"score":0.2669000029563904},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.26409998536109924},{"id":"https://openalex.org/C112680207","wikidata":"https://www.wikidata.org/wiki/Q714886","display_name":"Regular polygon","level":2,"score":0.26260000467300415},{"id":"https://openalex.org/C148764684","wikidata":"https://www.wikidata.org/wiki/Q621751","display_name":"Approximation algorithm","level":2,"score":0.2614000141620636},{"id":"https://openalex.org/C6180225","wikidata":"https://www.wikidata.org/wiki/Q3411771","display_name":"Penalty method","level":2,"score":0.25619998574256897},{"id":"https://openalex.org/C2776291640","wikidata":"https://www.wikidata.org/wiki/Q2912517","display_name":"Value (mathematics)","level":2,"score":0.2529999911785126}],"mesh":[],"locations_count":2,"locations":[{"id":"doi:10.1109/tnnls.2025.3605362","is_oa":false,"landing_page_url":"https://doi.org/10.1109/tnnls.2025.3605362","pdf_url":null,"source":{"id":"https://openalex.org/S4210175523","display_name":"IEEE Transactions on Neural Networks and Learning Systems","issn_l":"2162-237X","issn":["2162-237X","2162-2388"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310319808","host_organization_name":"Institute of Electrical and Electronics Engineers","host_organization_lineage":["https://openalex.org/P4310319808"],"host_organization_lineage_names":["Institute of Electrical and Electronics Engineers"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"IEEE Transactions on Neural Networks and Learning Systems","raw_type":"journal-article"},{"id":"pmid:40924517","is_oa":false,"landing_page_url":"https://pubmed.ncbi.nlm.nih.gov/40924517","pdf_url":null,"source":{"id":"https://openalex.org/S4306525036","display_name":"PubMed","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I1299303238","host_organization_name":"National Institutes of Health","host_organization_lineage":["https://openalex.org/I1299303238"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"IEEE transactions on neural networks and learning systems","raw_type":null}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":25,"referenced_works":["https://openalex.org/W137575789","https://openalex.org/W1587799944","https://openalex.org/W2093831009","https://openalex.org/W2116488102","https://openalex.org/W2123871098","https://openalex.org/W2127470768","https://openalex.org/W2132858840","https://openalex.org/W2145339207","https://openalex.org/W2165726932","https://openalex.org/W2963411833","https://openalex.org/W3015082424","https://openalex.org/W3167264379","https://openalex.org/W3213557649","https://openalex.org/W4250589301","https://openalex.org/W4294891492","https://openalex.org/W4362650413","https://openalex.org/W4366158867","https://openalex.org/W4376631496","https://openalex.org/W4382935770","https://openalex.org/W4389666601","https://openalex.org/W4390933328","https://openalex.org/W4391217171","https://openalex.org/W4400770903","https://openalex.org/W4402836811","https://openalex.org/W4406983280"],"related_works":["https://openalex.org/W4391375266","https://openalex.org/W2899084033","https://openalex.org/W2748952813","https://openalex.org/W4310083477","https://openalex.org/W2328553770","https://openalex.org/W2920061524","https://openalex.org/W1977959518","https://openalex.org/W2038908348","https://openalex.org/W2107890255","https://openalex.org/W2106552856"],"abstract_inverted_index":{"In":[0],"essence,":[1],"reinforcement":[2],"learning":[3],"(RL)":[4],"solves":[5],"optimal":[6,19,46,96],"control":[7,36,41,265],"problem":[8,111,204,247,252],"(OCP)":[9],"by":[10],"employing":[11],"a":[12,86,94,117,177,236,249],"neural":[13],"network":[14],"(NN)":[15],"to":[16,23,39,76,99,115,136,180,191,211,225],"fit":[17],"the":[18,53,70,74,77,101,105,128,133,138,164,192,196,268,275],"policy":[20,28,88,102,221,279],"from":[21,109,127],"state":[22],"action.":[24],"The":[25,158],"accuracy":[26,276],"of":[27,55,167,270,278],"approximation":[29],"is":[30,51,58,126,135,176,188,205,223],"often":[31],"very":[32],"low":[33],"in":[34,63],"complex":[35],"tasks,":[37],"leading":[38],"unsatisfactory":[40],"performance":[42],"compared":[43],"with":[44,239,253],"online":[45],"controllers.":[47],"A":[48,201],"primary":[49],"reason":[50],"that":[52,173],"landscape":[54],"value":[56],"function":[57],"always":[59],"not":[60],"only":[61],"rugged":[62],"most":[64],"areas":[65],"but":[66],"also":[67],"flat":[68],"on":[69,260,274],"bottom,":[71],"which":[72,92,120],"damages":[73],"convergence":[75],"minimum":[78,165],"point.":[79],"To":[80],"address":[81],"this":[82,155,246],"issue,":[83],"we":[84,171,244],"develop":[85],"bicriteria":[87,118,156],"optimization":[89,203,233],"(BPO)":[90],"algorithm,":[91],"leverages":[93],"few":[95],"demonstration":[97,139],"trajectories":[98],"guide":[100],"search":[103],"at":[104,207],"gradient":[106,174],"level.":[107],"Different":[108],"conventional":[110],"definition,":[112],"BPO":[113,272],"seeks":[114],"solve":[116],"OCP,":[119],"has":[121],"two":[122,143,152,215],"homomorphic":[123,216],"objectives:":[124],"one":[125,146],"standard":[129],"reward":[130],"signals":[131],"and":[132,150,185,198,263],"other":[134],"align":[137],"trajectories.":[140],"We":[141],"introduce":[142],"co-state":[144],"variables,":[145],"for":[147,154,220],"each":[148,208],"objectives,":[149,217],"formulate":[151],"Hamiltonians":[153],"OCP.":[157],"resulting":[159],"new":[160],"optimality":[161],"condition":[162],"preserves":[163],"values":[166],"both":[168,183,261],"Hamiltonians.":[169],"Furthermore,":[170],"find":[172],"conflict":[175],"key":[178],"obstacle":[179],"simultaneously":[181],"descending":[182],"Hamiltonians,":[184],"its":[186,231],"impact":[187],"negatively":[189],"proportional":[190],"inner":[193,232],"product":[194],"between":[195,214],"ideal":[197],"actual":[199],"gradients.":[200],"minimax":[202],"built":[206],"RL":[209],"iteration":[210],"minimize":[212],"conflicts":[213],"whose":[218],"solution":[219],"updating":[222],"referred":[224],"as":[226],"harmonic":[227],"gradient.":[228],"By":[229],"converting":[230],"loop":[234],"into":[235,248],"linear":[237,262],"programming":[238],"convex":[240],"trust":[241],"region":[242],"constraint,":[243],"simplify":[245],"single-loop":[250],"maximization":[251],"much":[254],"increased":[255],"computational":[256],"efficiency.":[257],"Experiment":[258],"tests":[259],"nonlinear":[264],"tasks":[266],"validate":[267],"effectiveness":[269],"our":[271],"algorithm":[273],"improvement":[277],"network.":[280]},"counts_by_year":[],"updated_date":"2026-01-10T23:39:48.068659","created_date":"2025-10-10T00:00:00"}