{"id":"https://openalex.org/W4415293253","doi":"https://doi.org/10.1109/lra.2025.3623012","title":"Learning-Based Joint Control With Hierarchical Reinforcement Learning and On-Device Execution","display_name":"Learning-Based Joint Control With Hierarchical Reinforcement Learning and On-Device Execution","publication_year":2025,"publication_date":"2025-10-17","ids":{"openalex":"https://openalex.org/W4415293253","doi":"https://doi.org/10.1109/lra.2025.3623012"},"language":"en","primary_location":{"id":"doi:10.1109/lra.2025.3623012","is_oa":true,"landing_page_url":"https://doi.org/10.1109/lra.2025.3623012","pdf_url":null,"source":{"id":"https://openalex.org/S4210169774","display_name":"IEEE Robotics and Automation Letters","issn_l":"2377-3766","issn":["2377-3766"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310319808","host_organization_name":"Institute of Electrical and Electronics Engineers","host_organization_lineage":["https://openalex.org/P4310319808"],"host_organization_lineage_names":["Institute of Electrical and Electronics Engineers"],"type":"journal"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"IEEE Robotics and Automation Letters","raw_type":"journal-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":true,"oa_status":"hybrid","oa_url":"https://doi.org/10.1109/lra.2025.3623012","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5027216065","display_name":"Satoshi Yagi","orcid":"https://orcid.org/0000-0002-9572-089X"},"institutions":[{"id":"https://openalex.org/I22299242","display_name":"Kyoto University","ror":"https://ror.org/02kpeqv85","country_code":"JP","type":"education","lineage":["https://openalex.org/I22299242"]},{"id":"https://openalex.org/I39012071","display_name":"Kyoto College of Graduate Studies for Informatics","ror":"https://ror.org/05mzj8a56","country_code":"JP","type":"education","lineage":["https://openalex.org/I39012071"]}],"countries":["JP"],"is_corresponding":false,"raw_author_name":"Satoshi Yagi","raw_affiliation_strings":["Learning Machines Group, Graduate School of Informatics, Kyoto University, Kyoto, Japan"],"raw_orcid":"https://orcid.org/0000-0002-9572-089X","affiliations":[{"raw_affiliation_string":"Learning Machines Group, Graduate School of Informatics, Kyoto University, Kyoto, Japan","institution_ids":["https://openalex.org/I22299242","https://openalex.org/I39012071"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5025458882","display_name":"Jun Morimoto","orcid":"https://orcid.org/0000-0002-4115-1919"},"institutions":[{"id":"https://openalex.org/I22299242","display_name":"Kyoto University","ror":"https://ror.org/02kpeqv85","country_code":"JP","type":"education","lineage":["https://openalex.org/I22299242"]},{"id":"https://openalex.org/I39012071","display_name":"Kyoto College of Graduate Studies for Informatics","ror":"https://ror.org/05mzj8a56","country_code":"JP","type":"education","lineage":["https://openalex.org/I39012071"]}],"countries":["JP"],"is_corresponding":false,"raw_author_name":"Jun Morimoto","raw_affiliation_strings":["Learning Machines Group, Graduate School of Informatics, Kyoto University, Kyoto, Japan"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Learning Machines Group, Graduate School of Informatics, Kyoto University, Kyoto, Japan","institution_ids":["https://openalex.org/I22299242","https://openalex.org/I39012071"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":1.7588,"has_fulltext":false,"cited_by_count":1,"citation_normalized_percentile":{"value":0.89033115,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":95,"max":98},"biblio":{"volume":"10","issue":"12","first_page":"12493","last_page":"12500"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.7346000075340271,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.7346000075340271,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T14011","display_name":"Elevator Systems and Control","score":0.6992999911308289,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7865999937057495},{"id":"https://openalex.org/keywords/robot","display_name":"Robot","score":0.521399974822998},{"id":"https://openalex.org/keywords/control","display_name":"Control (management)","score":0.5102999806404114},{"id":"https://openalex.org/keywords/decoupling","display_name":"Decoupling (probability)","score":0.5041999816894531},{"id":"https://openalex.org/keywords/position","display_name":"Position (finance)","score":0.4867999851703644},{"id":"https://openalex.org/keywords/generalization","display_name":"Generalization","score":0.4645000100135803},{"id":"https://openalex.org/keywords/joint","display_name":"Joint (building)","score":0.4505999982357025},{"id":"https://openalex.org/keywords/feed-forward","display_name":"Feed forward","score":0.4163999855518341}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7865999937057495},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.5800999999046326},{"id":"https://openalex.org/C90509273","wikidata":"https://www.wikidata.org/wiki/Q11012","display_name":"Robot","level":2,"score":0.521399974822998},{"id":"https://openalex.org/C2775924081","wikidata":"https://www.wikidata.org/wiki/Q55608371","display_name":"Control (management)","level":2,"score":0.5102999806404114},{"id":"https://openalex.org/C205606062","wikidata":"https://www.wikidata.org/wiki/Q5249645","display_name":"Decoupling (probability)","level":2,"score":0.5041999816894531},{"id":"https://openalex.org/C198082294","wikidata":"https://www.wikidata.org/wiki/Q3399648","display_name":"Position (finance)","level":2,"score":0.4867999851703644},{"id":"https://openalex.org/C177148314","wikidata":"https://www.wikidata.org/wiki/Q170084","display_name":"Generalization","level":2,"score":0.4645000100135803},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.4643000066280365},{"id":"https://openalex.org/C18555067","wikidata":"https://www.wikidata.org/wiki/Q8375051","display_name":"Joint (building)","level":2,"score":0.4505999982357025},{"id":"https://openalex.org/C38858127","wikidata":"https://www.wikidata.org/wiki/Q5441228","display_name":"Feed forward","level":2,"score":0.4163999855518341},{"id":"https://openalex.org/C17500928","wikidata":"https://www.wikidata.org/wiki/Q959968","display_name":"Control system","level":2,"score":0.38960000872612},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.37529999017715454},{"id":"https://openalex.org/C65401140","wikidata":"https://www.wikidata.org/wiki/Q7353385","display_name":"Robot control","level":4,"score":0.36340001225471497},{"id":"https://openalex.org/C127413603","wikidata":"https://www.wikidata.org/wiki/Q11023","display_name":"Engineering","level":0,"score":0.3425000011920929},{"id":"https://openalex.org/C47446073","wikidata":"https://www.wikidata.org/wiki/Q5165890","display_name":"Control theory (sociology)","level":3,"score":0.3393000066280365},{"id":"https://openalex.org/C133731056","wikidata":"https://www.wikidata.org/wiki/Q4917288","display_name":"Control engineering","level":1,"score":0.3301999866962433},{"id":"https://openalex.org/C188888258","wikidata":"https://www.wikidata.org/wiki/Q7353390","display_name":"Robot learning","level":4,"score":0.32199999690055847},{"id":"https://openalex.org/C34413123","wikidata":"https://www.wikidata.org/wiki/Q170978","display_name":"Robotics","level":3,"score":0.3215999901294708},{"id":"https://openalex.org/C124527596","wikidata":"https://www.wikidata.org/wiki/Q17029359","display_name":"Hierarchical control system","level":3,"score":0.32109999656677246},{"id":"https://openalex.org/C2776214188","wikidata":"https://www.wikidata.org/wiki/Q408386","display_name":"Inference","level":2,"score":0.32100000977516174},{"id":"https://openalex.org/C118974865","wikidata":"https://www.wikidata.org/wiki/Q7300773","display_name":"Real-time Control System","level":3,"score":0.2784999907016754},{"id":"https://openalex.org/C148043351","wikidata":"https://www.wikidata.org/wiki/Q4456944","display_name":"Current (fluid)","level":2,"score":0.25929999351501465}],"mesh":[],"locations_count":2,"locations":[{"id":"doi:10.1109/lra.2025.3623012","is_oa":true,"landing_page_url":"https://doi.org/10.1109/lra.2025.3623012","pdf_url":null,"source":{"id":"https://openalex.org/S4210169774","display_name":"IEEE Robotics and Automation Letters","issn_l":"2377-3766","issn":["2377-3766"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310319808","host_organization_name":"Institute of Electrical and Electronics Engineers","host_organization_lineage":["https://openalex.org/P4310319808"],"host_organization_lineage_names":["Institute of Electrical and Electronics Engineers"],"type":"journal"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"IEEE Robotics and Automation Letters","raw_type":"journal-article"},{"id":"pmh:oai:irdb.nii.ac.jp:01221:0007330566","is_oa":true,"landing_page_url":"http://hdl.handle.net/2433/300084","pdf_url":null,"source":{"id":"https://openalex.org/S7407056385","display_name":"Institutional Repositories DataBase (IRDB)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I184597095","host_organization_name":"National Institute of Informatics","host_organization_lineage":["https://openalex.org/I184597095"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"IEEE Robotics and Automation Letters","raw_type":"journal article"}],"best_oa_location":{"id":"doi:10.1109/lra.2025.3623012","is_oa":true,"landing_page_url":"https://doi.org/10.1109/lra.2025.3623012","pdf_url":null,"source":{"id":"https://openalex.org/S4210169774","display_name":"IEEE Robotics and Automation Letters","issn_l":"2377-3766","issn":["2377-3766"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310319808","host_organization_name":"Institute of Electrical and Electronics Engineers","host_organization_lineage":["https://openalex.org/P4310319808"],"host_organization_lineage_names":["Institute of Electrical and Electronics Engineers"],"type":"journal"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"IEEE Robotics and Automation Letters","raw_type":"journal-article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":19,"referenced_works":["https://openalex.org/W2109910161","https://openalex.org/W2121517924","https://openalex.org/W2167647761","https://openalex.org/W2590087162","https://openalex.org/W2980301669","https://openalex.org/W3039737909","https://openalex.org/W3095883371","https://openalex.org/W3181262779","https://openalex.org/W3201577242","https://openalex.org/W4252760031","https://openalex.org/W4293193594","https://openalex.org/W4308068457","https://openalex.org/W4379278308","https://openalex.org/W4385488313","https://openalex.org/W4385696544","https://openalex.org/W4388423523","https://openalex.org/W4402354103","https://openalex.org/W4406709398","https://openalex.org/W4407736373"],"related_works":[],"abstract_inverted_index":{"In":[0],"typical":[1],"robot":[2,21,52],"learning,":[3],"deep":[4],"reinforcement":[5,47],"learning":[6,48,88,110,127],"policies":[7],"are":[8,26],"employed":[9],"in":[10,28],"the":[11,29,80,84,89,93,100,143,146],"upper":[12],"control":[13,32,35,60,67,73,77,97,151,156],"layer":[14,33],"to":[15,34,82,103],"generate":[16],"target":[17,85,101],"joint":[18,37,53,59,107],"angles":[19],"for":[20,50],"motion,":[22],"while":[23,87],"conventional":[24],"controllers":[25],"used":[27],"fast":[30],"lower":[31],"each":[36],"motor.":[38],"This":[39],"paper":[40],"presents":[41],"a":[42,64,70,105,114,138,153],"fully":[43],"neural":[44],"network-based":[45],"hierarchical":[46],"approach":[49],"real-time":[51],"control.":[54],"The":[55,75,95],"proposed":[56,147],"method":[57,125],"divides":[58],"into":[61],"two":[62],"layers:":[63],"high-frequency":[65],"current":[66,76,86,102],"policy":[68,78,98,131,157],"and":[69,111,129],"low-frequency":[71],"position":[72,96,122,155],"policy.":[74],"drives":[79],"motor":[81,119],"follow":[83],"dynamic":[90],"characteristics":[91],"of":[92,145],"joint.":[94],"generates":[99],"achieve":[104],"desired":[106],"angle,":[108],"allowing":[109],"inference":[112],"at":[113],"slower":[115],"frequency.":[116],"By":[117],"decoupling":[118],"dynamics":[120],"from":[121],"control,":[123],"our":[124],"improves":[126],"performance":[128],"enables":[130],"generalization":[132],"across":[133,158],"joints.":[134,159],"Experimental":[135],"results":[136],"on":[137],"three-joint":[139],"robotic":[140],"arm":[141],"demonstrate":[142],"effectiveness":[144],"approach,":[148],"including":[149],"posture":[150],"using":[152],"shared":[154]},"counts_by_year":[{"year":2026,"cited_by_count":1}],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2025-10-18T00:00:00"}