{"id":"https://openalex.org/W2965685140","doi":"https://doi.org/10.1109/urai.2019.8768564","title":"Effects of Hyper-Parameters for Deep Reinforcement Learning in Robotic Motion Mimicry: A Preliminary Study","display_name":"Effects of Hyper-Parameters for Deep Reinforcement Learning in Robotic Motion Mimicry: A Preliminary Study","publication_year":2019,"publication_date":"2019-06-01","ids":{"openalex":"https://openalex.org/W2965685140","doi":"https://doi.org/10.1109/urai.2019.8768564","mag":"2965685140"},"language":"en","primary_location":{"id":"doi:10.1109/urai.2019.8768564","is_oa":false,"landing_page_url":"https://doi.org/10.1109/urai.2019.8768564","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2019 16th International Conference on Ubiquitous Robots (UR)","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5100400949","display_name":"Taewoo Kim","orcid":"https://orcid.org/0000-0002-7750-3736"},"institutions":[{"id":"https://openalex.org/I88761825","display_name":"Korea University of Science and Technology","ror":"https://ror.org/000qzf213","country_code":"KR","type":"education","lineage":["https://openalex.org/I88761825"]}],"countries":["KR"],"is_corresponding":false,"raw_author_name":"Taewoo Kim","raw_affiliation_strings":["Department of Computer Software and Engineering, Korea University of Science and Technology, Daejeon, Republic of Korea"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Department of Computer Software and Engineering, Korea University of Science and Technology, Daejeon, Republic of Korea","institution_ids":["https://openalex.org/I88761825"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5034140846","display_name":"Joo-Haeng Lee","orcid":"https://orcid.org/0000-0002-5788-712X"},"institutions":[{"id":"https://openalex.org/I142401562","display_name":"Electronics and Telecommunications Research Institute","ror":"https://ror.org/03ysstz10","country_code":"KR","type":"facility","lineage":["https://openalex.org/I142401562","https://openalex.org/I2801339556","https://openalex.org/I4210144908","https://openalex.org/I4387152098"]}],"countries":["KR"],"is_corresponding":false,"raw_author_name":"Joo-Haeng Lee","raw_affiliation_strings":["Human-Machine Interaction Research Group, Electronics and Telecommunications Research Institute, Daejeon, Republic of Korea"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Human-Machine Interaction Research Group, Electronics and Telecommunications Research Institute, Daejeon, Republic of Korea","institution_ids":["https://openalex.org/I142401562"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":4,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":"135","issue":null,"first_page":"228","last_page":"235"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9998000264167786,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9998000264167786,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10653","display_name":"Robot Manipulation and Learning","score":0.9998000264167786,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10879","display_name":"Robotic Locomotion and Control","score":0.9959999918937683,"subfield":{"id":"https://openalex.org/subfields/2204","display_name":"Biomedical Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7792650461196899},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.6858717799186707},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.6760424375534058},{"id":"https://openalex.org/keywords/motion","display_name":"Motion (physics)","score":0.5734931826591492},{"id":"https://openalex.org/keywords/convolutional-neural-network","display_name":"Convolutional neural network","score":0.5518178343772888},{"id":"https://openalex.org/keywords/robot","display_name":"Robot","score":0.5077239274978638},{"id":"https://openalex.org/keywords/handshaking","display_name":"Handshaking","score":0.5027234554290771},{"id":"https://openalex.org/keywords/hyperparameter","display_name":"Hyperparameter","score":0.49103856086730957},{"id":"https://openalex.org/keywords/action","display_name":"Action (physics)","score":0.4727364778518677},{"id":"https://openalex.org/keywords/artificial-neural-network","display_name":"Artificial neural network","score":0.44703590869903564},{"id":"https://openalex.org/keywords/quality","display_name":"Quality (philosophy)","score":0.4390585720539093},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.384387344121933}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7792650461196899},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6858717799186707},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6760424375534058},{"id":"https://openalex.org/C104114177","wikidata":"https://www.wikidata.org/wiki/Q79782","display_name":"Motion (physics)","level":2,"score":0.5734931826591492},{"id":"https://openalex.org/C81363708","wikidata":"https://www.wikidata.org/wiki/Q17084460","display_name":"Convolutional neural network","level":2,"score":0.5518178343772888},{"id":"https://openalex.org/C90509273","wikidata":"https://www.wikidata.org/wiki/Q11012","display_name":"Robot","level":2,"score":0.5077239274978638},{"id":"https://openalex.org/C58861099","wikidata":"https://www.wikidata.org/wiki/Q548838","display_name":"Handshaking","level":2,"score":0.5027234554290771},{"id":"https://openalex.org/C8642999","wikidata":"https://www.wikidata.org/wiki/Q4171168","display_name":"Hyperparameter","level":2,"score":0.49103856086730957},{"id":"https://openalex.org/C2780791683","wikidata":"https://www.wikidata.org/wiki/Q846785","display_name":"Action (physics)","level":2,"score":0.4727364778518677},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.44703590869903564},{"id":"https://openalex.org/C2779530757","wikidata":"https://www.wikidata.org/wiki/Q1207505","display_name":"Quality (philosophy)","level":2,"score":0.4390585720539093},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.384387344121933},{"id":"https://openalex.org/C31258907","wikidata":"https://www.wikidata.org/wiki/Q1301371","display_name":"Computer network","level":1,"score":0.0},{"id":"https://openalex.org/C121332964","wikidata":"https://www.wikidata.org/wiki/Q413","display_name":"Physics","level":0,"score":0.0},{"id":"https://openalex.org/C62520636","wikidata":"https://www.wikidata.org/wiki/Q944","display_name":"Quantum mechanics","level":1,"score":0.0},{"id":"https://openalex.org/C138885662","wikidata":"https://www.wikidata.org/wiki/Q5891","display_name":"Philosophy","level":0,"score":0.0},{"id":"https://openalex.org/C111472728","wikidata":"https://www.wikidata.org/wiki/Q9471","display_name":"Epistemology","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/urai.2019.8768564","is_oa":false,"landing_page_url":"https://doi.org/10.1109/urai.2019.8768564","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2019 16th International Conference on Ubiquitous Robots (UR)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":23,"referenced_works":["https://openalex.org/W1515851193","https://openalex.org/W2082511574","https://openalex.org/W2098516422","https://openalex.org/W2264426170","https://openalex.org/W2592538810","https://openalex.org/W2725320964","https://openalex.org/W2726187156","https://openalex.org/W2736601468","https://openalex.org/W2796290181","https://openalex.org/W2908684875","https://openalex.org/W2910672316","https://openalex.org/W2963669336","https://openalex.org/W2963802910","https://openalex.org/W2964043796","https://openalex.org/W2990747716","https://openalex.org/W3104515094","https://openalex.org/W4234821663","https://openalex.org/W4297818513","https://openalex.org/W6692846177","https://openalex.org/W6740023956","https://openalex.org/W6740222838","https://openalex.org/W6741002519","https://openalex.org/W6770858630"],"related_works":["https://openalex.org/W2882999853","https://openalex.org/W2059936816","https://openalex.org/W1997191995","https://openalex.org/W2351312779","https://openalex.org/W3004736401","https://openalex.org/W4206951940","https://openalex.org/W4281847915","https://openalex.org/W3000635674","https://openalex.org/W4382602594","https://openalex.org/W4387850423"],"abstract_inverted_index":{"When":[0],"applying":[1],"deep":[2,79],"reinforcement":[3,84],"learning":[4,29,85],"to":[5,111,176],"the":[6,18,43,54,66,93,96,106,132],"motion":[7,140,167,185],"mimicry":[8],"problem":[9],"between":[10,151],"teacher":[11,97],"and":[12,31,50,62,65,75,105,120,139,153,180],"student":[13],"robots,":[14],"this":[15,40],"paper":[16],"reports":[17],"initial":[19],"results":[20,125],"of":[21,28,33,45,56,68],"how":[22],"various":[23],"hyper-parameter":[24],"configurations":[25],"affect":[26],"performance":[27],"processes":[30],"quality":[32],"generated":[34],"motions.":[35],"The":[36,115],"hyperparameters":[37],"considered":[38],"in":[39,136],"study":[41],"include":[42,118],"structure":[44],"policies":[46],"such":[47,59,71],"as":[48,60,72],"convolutional":[49,133],"fully":[51,128],"connected":[52,129],"networks,":[53],"type":[55],"activation":[57,143],"functions":[58,182],"ReLU":[61],"hyperbolic":[63],"tangent,":[64],"number":[67],"input":[69],"sequences":[70],"one,":[73],"four":[74],"eight.":[76],"Under":[77],"these":[78],"neural":[80],"network":[81],"configurations,":[82],"PPO":[83],"algorithm":[86],"has":[87],"been":[88],"applied":[89],"for":[90,156,183],"learning.":[91],"In":[92],"simulator":[94],"environment,":[95],"NAO":[98,108],"robot":[99,109],"demonstrates":[100],"a":[101,158,172],"target":[102,116],"action":[103],"repeatedly,":[104],"learner":[107],"tries":[110],"learn":[112],"that":[113,127],"action.":[114],"actions":[117],"handshaking":[119],"two-arm":[121],"raising.":[122],"Our":[123],"experimental":[124],"show":[126],"networks":[130],"outperform":[131],"counterparts":[134],"both":[135],"training":[137,152],"statistics":[138],"quality.":[141],"For":[142],"functions,":[144],"however,":[145],"we":[146],"found":[147],"an":[148],"interesting":[149],"mismatch":[150],"evaluation":[154],"quality:":[155],"example,":[157],"configuration":[159],"with":[160],"higher":[161],"rewards":[162],"does":[163],"not":[164],"guarantee":[165],"less":[166],"discrepancy,":[168],"which":[169],"may":[170],"suggest":[171],"new":[173],"research":[174],"direction":[175],"design":[177],"better":[178],"loss":[179],"reward":[181],"robotic":[184],"mimicry.":[186]},"counts_by_year":[{"year":2022,"cited_by_count":2},{"year":2021,"cited_by_count":1},{"year":2020,"cited_by_count":1}],"updated_date":"2026-07-15T18:14:33.161393","created_date":"2025-10-10T00:00:00"}