{"id":"https://openalex.org/W7117244970","doi":"https://doi.org/10.1109/lra.2025.3648611","title":"<i>DoublyAware:</i> Dual Planning and Policy Awareness for Temporal Difference Learning in Humanoid Locomotion","display_name":"<i>DoublyAware:</i> Dual Planning and Policy Awareness for Temporal Difference Learning in Humanoid Locomotion","publication_year":2025,"publication_date":"2025-12-25","ids":{"openalex":"https://openalex.org/W7117244970","doi":"https://doi.org/10.1109/lra.2025.3648611"},"language":null,"primary_location":{"id":"doi:10.1109/lra.2025.3648611","is_oa":false,"landing_page_url":"https://doi.org/10.1109/lra.2025.3648611","pdf_url":null,"source":{"id":"https://openalex.org/S4210169774","display_name":"IEEE Robotics and Automation Letters","issn_l":"2377-3766","issn":["2377-3766"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310319808","host_organization_name":"Institute of Electrical and Electronics Engineers","host_organization_lineage":["https://openalex.org/P4310319808"],"host_organization_lineage_names":["Institute of Electrical and Electronics Engineers"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"IEEE Robotics and Automation Letters","raw_type":"journal-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5121289420","display_name":"Khang Nguyen","orcid":null},"institutions":[{"id":"https://openalex.org/I4210113480","display_name":"Mohamed bin Zayed University of Artificial Intelligence","ror":"https://ror.org/0258gkt32","country_code":"AE","type":"education","lineage":["https://openalex.org/I4210113480"]}],"countries":["AE"],"is_corresponding":true,"raw_author_name":"Khang Nguyen","raw_affiliation_strings":["Department of Robotics, Mohamed bin Zayed University of Artificial Intelligence (MBZUAI), Abu Dhabi, UAE"],"affiliations":[{"raw_affiliation_string":"Department of Robotics, Mohamed bin Zayed University of Artificial Intelligence (MBZUAI), Abu Dhabi, UAE","institution_ids":["https://openalex.org/I4210113480"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5102888876","display_name":"An T. Le","orcid":"https://orcid.org/0000-0003-0929-3316"},"institutions":[{"id":"https://openalex.org/I4210142044","display_name":"VinUniversity","ror":"https://ror.org/052dmdr17","country_code":"VN","type":"education","lineage":["https://openalex.org/I4210142044"]}],"countries":["VN"],"is_corresponding":false,"raw_author_name":"An T. Le","raw_affiliation_strings":["VinUniversity, Hanoi, Vietnam"],"affiliations":[{"raw_affiliation_string":"VinUniversity, Hanoi, Vietnam","institution_ids":["https://openalex.org/I4210142044"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5121291517","display_name":"Jan Peters","orcid":null},"institutions":[{"id":"https://openalex.org/I31512782","display_name":"Technical University of Darmstadt","ror":"https://ror.org/05n911h24","country_code":"DE","type":"education","lineage":["https://openalex.org/I31512782"]}],"countries":["DE"],"is_corresponding":false,"raw_author_name":"Jan Peters","raw_affiliation_strings":["Intelligent Autonomous Systems Lab, Hessian.AI, Technische Universit&#x00E4;t Darmstadt, Darmstadt, Germany"],"affiliations":[{"raw_affiliation_string":"Intelligent Autonomous Systems Lab, Hessian.AI, Technische Universit&#x00E4;t Darmstadt, Darmstadt, Germany","institution_ids":["https://openalex.org/I31512782"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5121268913","display_name":"Minh Nhat Vu","orcid":null},"institutions":[{"id":"https://openalex.org/I145847075","display_name":"TU Wien","ror":"https://ror.org/04d836q62","country_code":"AT","type":"education","lineage":["https://openalex.org/I145847075"]}],"countries":["AT"],"is_corresponding":false,"raw_author_name":"Minh Nhat Vu","raw_affiliation_strings":["Automation &amp; Control Institute (ACIN), Technische Universit&#x00E4;t Wien, Vienna, Austria"],"affiliations":[{"raw_affiliation_string":"Automation &amp; Control Institute (ACIN), Technische Universit&#x00E4;t Wien, Vienna, Austria","institution_ids":["https://openalex.org/I145847075"]}]}],"institutions":[],"countries_distinct_count":4,"institutions_distinct_count":4,"corresponding_author_ids":["https://openalex.org/A5121289420"],"corresponding_institution_ids":["https://openalex.org/I4210113480"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.83948597,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":"11","issue":"2","first_page":"2162","last_page":"2169"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.37279999256134033,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.37279999256134033,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10653","display_name":"Robot Manipulation and Learning","score":0.23819999396800995,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10879","display_name":"Robotic Locomotion and Control","score":0.22130000591278076,"subfield":{"id":"https://openalex.org/subfields/2204","display_name":"Biomedical Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.6241999864578247},{"id":"https://openalex.org/keywords/humanoid-robot","display_name":"Humanoid robot","score":0.5803999900817871},{"id":"https://openalex.org/keywords/robustness","display_name":"Robustness (evolution)","score":0.5587000250816345},{"id":"https://openalex.org/keywords/temporal-difference-learning","display_name":"Temporal difference learning","score":0.5551000237464905},{"id":"https://openalex.org/keywords/suite","display_name":"Suite","score":0.39980000257492065},{"id":"https://openalex.org/keywords/robot","display_name":"Robot","score":0.3878999948501587},{"id":"https://openalex.org/keywords/randomness","display_name":"Randomness","score":0.3709000051021576},{"id":"https://openalex.org/keywords/action","display_name":"Action (physics)","score":0.36910000443458557},{"id":"https://openalex.org/keywords/consistency","display_name":"Consistency (knowledge bases)","score":0.35199999809265137}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.6241999864578247},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6123999953269958},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5909000039100647},{"id":"https://openalex.org/C60692881","wikidata":"https://www.wikidata.org/wiki/Q584529","display_name":"Humanoid robot","level":3,"score":0.5803999900817871},{"id":"https://openalex.org/C63479239","wikidata":"https://www.wikidata.org/wiki/Q7353546","display_name":"Robustness (evolution)","level":3,"score":0.5587000250816345},{"id":"https://openalex.org/C196340769","wikidata":"https://www.wikidata.org/wiki/Q7698910","display_name":"Temporal difference learning","level":3,"score":0.5551000237464905},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.5544000267982483},{"id":"https://openalex.org/C79581498","wikidata":"https://www.wikidata.org/wiki/Q1367530","display_name":"Suite","level":2,"score":0.39980000257492065},{"id":"https://openalex.org/C90509273","wikidata":"https://www.wikidata.org/wiki/Q11012","display_name":"Robot","level":2,"score":0.3878999948501587},{"id":"https://openalex.org/C125112378","wikidata":"https://www.wikidata.org/wiki/Q176640","display_name":"Randomness","level":2,"score":0.3709000051021576},{"id":"https://openalex.org/C2780791683","wikidata":"https://www.wikidata.org/wiki/Q846785","display_name":"Action (physics)","level":2,"score":0.36910000443458557},{"id":"https://openalex.org/C2776436953","wikidata":"https://www.wikidata.org/wiki/Q5163215","display_name":"Consistency (knowledge bases)","level":2,"score":0.35199999809265137},{"id":"https://openalex.org/C49937458","wikidata":"https://www.wikidata.org/wiki/Q2599292","display_name":"Probabilistic logic","level":2,"score":0.3375999927520752},{"id":"https://openalex.org/C81074085","wikidata":"https://www.wikidata.org/wiki/Q366872","display_name":"Motion planning","level":3,"score":0.336899995803833},{"id":"https://openalex.org/C153083717","wikidata":"https://www.wikidata.org/wiki/Q6535263","display_name":"Leverage (statistics)","level":2,"score":0.32280001044273376},{"id":"https://openalex.org/C177769412","wikidata":"https://www.wikidata.org/wiki/Q278090","display_name":"Prior probability","level":3,"score":0.31540000438690186},{"id":"https://openalex.org/C2780980858","wikidata":"https://www.wikidata.org/wiki/Q110022","display_name":"Dual (grammatical number)","level":2,"score":0.31279999017715454},{"id":"https://openalex.org/C136389625","wikidata":"https://www.wikidata.org/wiki/Q334384","display_name":"Supervised learning","level":3,"score":0.2957000136375427},{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.2881999909877777},{"id":"https://openalex.org/C32230216","wikidata":"https://www.wikidata.org/wiki/Q7882499","display_name":"Uncertainty quantification","level":2,"score":0.2727999985218048},{"id":"https://openalex.org/C19966478","wikidata":"https://www.wikidata.org/wiki/Q4810574","display_name":"Mobile robot","level":3,"score":0.2700999975204468},{"id":"https://openalex.org/C61326573","wikidata":"https://www.wikidata.org/wiki/Q1496376","display_name":"Gaussian process","level":3,"score":0.26820001006126404},{"id":"https://openalex.org/C23224414","wikidata":"https://www.wikidata.org/wiki/Q176769","display_name":"Hidden Markov model","level":2,"score":0.265500009059906},{"id":"https://openalex.org/C166109690","wikidata":"https://www.wikidata.org/wiki/Q4677422","display_name":"Action selection","level":3,"score":0.2526000142097473},{"id":"https://openalex.org/C114289077","wikidata":"https://www.wikidata.org/wiki/Q3284399","display_name":"Statistical model","level":2,"score":0.2524000108242035},{"id":"https://openalex.org/C149441793","wikidata":"https://www.wikidata.org/wiki/Q200726","display_name":"Probability distribution","level":2,"score":0.2506999969482422}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/lra.2025.3648611","is_oa":false,"landing_page_url":"https://doi.org/10.1109/lra.2025.3648611","pdf_url":null,"source":{"id":"https://openalex.org/S4210169774","display_name":"IEEE Robotics and Automation Letters","issn_l":"2377-3766","issn":["2377-3766"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310319808","host_organization_name":"Institute of Electrical and Electronics Engineers","host_organization_lineage":["https://openalex.org/P4310319808"],"host_organization_lineage_names":["Institute of Electrical and Electronics Engineers"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"IEEE Robotics and Automation Letters","raw_type":"journal-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":19,"referenced_works":["https://openalex.org/W228343879","https://openalex.org/W1553101044","https://openalex.org/W2139716865","https://openalex.org/W2410617946","https://openalex.org/W3014596384","https://openalex.org/W3018928030","https://openalex.org/W4246038204","https://openalex.org/W4389666601","https://openalex.org/W4391021948","https://openalex.org/W4394872716","https://openalex.org/W4401415606","https://openalex.org/W4401416456","https://openalex.org/W4402354119","https://openalex.org/W4402354138","https://openalex.org/W4402830181","https://openalex.org/W4403919598","https://openalex.org/W4413918871","https://openalex.org/W4416749084","https://openalex.org/W4416749446"],"related_works":[],"abstract_inverted_index":{"Achieving":[0],"robust":[1],"robot":[2,152],"learning":[3,14,26,53,128],"for":[4,204],"humanoid":[5,211],"locomotion":[6,170,212],"is":[7],"a":[8,138],"fundamental":[9],"challenge":[10],"in":[11,36,49,143,209],"model-based":[12],"reinforcement":[13],"(MBRL),":[15],"where":[16],"environmental":[17],"stochasticity":[18],"and":[19,25,44,86,111,187,206],"randomness":[20],"can":[21,33],"hinder":[22],"efficient":[23],"exploration":[24,163],"stability.":[27],"The":[28],"environmental,":[29],"so-called":[30],"aleatoric,":[31],"uncertainty":[32,48,76,202],"be":[34],"amplified":[35],"high-dimensional":[37],"action":[38,146],"spaces":[39],"with":[40,46,130,172],"complex":[41],"contact":[42],"dynamics":[43],"entangled":[45],"epistemic":[47],"the":[50,91,127,144,151,168,173,198],"models":[51],"during":[52],"phases.":[54],"In":[55],"this":[56],"work,":[57],"we":[58],"propose":[59],"<italic":[60,82,94,178],"xmlns:mml=\"http://www.w3.org/1998/Math/MathML\"":[61,83,95,179],"xmlns:xlink=\"http://www.w3.org/1999/xlink\">DoublyAware</i>,":[62],"an":[63],"uncertainty-aware":[64],"extension":[65],"of":[66,200],"Temporal":[67],"Difference":[68],"Model":[69],"Predictive":[70],"Control":[71],"(TD-MPC)":[72],"that":[73],"explicitly":[74],"decomposes":[75],"into":[77],"two":[78],"disjoint,":[79],"interpretable":[80],"components,":[81],"xmlns:xlink=\"http://www.w3.org/1999/xlink\">i.e.</i>,":[84],"planning":[85,92],"policy":[87,117],"uncertainties.":[88],"To":[89],"handle":[90],"uncertainty,":[93],"xmlns:xlink=\"http://www.w3.org/1999/xlink\">DoublyAware</i>":[96,180],"employs":[97],"conformal":[98],"prediction":[99],"to":[100,125,154,192],"filter":[101],"candidate":[102],"trajectories":[103],"using":[104],"quantile-calibrated":[105],"risk":[106],"bounds,":[107],"ensuring":[108],"statistical":[109],"consistency":[110],"robustness":[112],"against":[113],"stochastic":[114],"dynamics.":[115],"Meanwhile,":[116],"rollouts":[118],"are":[119],"leveraged":[120],"as":[121],"structured":[122,201],"informative":[123],"priors":[124],"support":[126],"phase":[129],"Group-Relative":[131],"Policy":[132],"Constraint":[133],"(GRPC)":[134],"optimizers,":[135],"which":[136],"impose":[137],"group-based":[139],"adaptive":[140],"trust":[141],"region":[142],"latent":[145],"space.":[147],"This":[148],"combination":[149],"enables":[150],"agent":[153],"prioritize":[155],"high-confidence,":[156],"high-reward":[157],"behavior":[158],"while":[159],"maintaining":[160],"effective,":[161],"targeted":[162],"under":[164],"uncertainty.":[165],"Evaluated":[166],"on":[167],"HumanoidBench":[169],"suite":[171],"Unitree":[174],"26-DoF":[175],"H1-2":[176],"humanoid,":[177],"demonstrates":[181],"improved":[182],"sample":[183],"efficiency,":[184],"accelerated":[185],"convergence,":[186],"enhanced":[188],"motion":[189],"feasibility":[190],"compared":[191],"RL":[193],"baselines.":[194],"Our":[195],"results":[196],"emphasize":[197],"significance":[199],"modeling":[203],"data-efficient":[205],"reliable":[207],"decision-making":[208],"TD-MPC-based":[210],"learning.":[213]},"counts_by_year":[],"updated_date":"2026-01-08T20:05:33.558190","created_date":"2025-12-25T00:00:00"}