{"id":"https://openalex.org/W4403535031","doi":"https://doi.org/10.1109/icarm62033.2024.10715884","title":"Hybrid Reinforcement Learning based on Human Preference and Advice for Efficient Robot Skill Learning","display_name":"Hybrid Reinforcement Learning based on Human Preference and Advice for Efficient Robot Skill Learning","publication_year":2024,"publication_date":"2024-07-08","ids":{"openalex":"https://openalex.org/W4403535031","doi":"https://doi.org/10.1109/icarm62033.2024.10715884"},"language":"en","primary_location":{"id":"doi:10.1109/icarm62033.2024.10715884","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icarm62033.2024.10715884","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2024 International Conference on Advanced Robotics and Mechatronics (ICARM)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5101757981","display_name":"Bingqian Li","orcid":"https://orcid.org/0000-0001-7103-9103"},"institutions":[{"id":"https://openalex.org/I17145004","display_name":"Northwestern Polytechnical University","ror":"https://ror.org/01y0j0j86","country_code":"CN","type":"education","lineage":["https://openalex.org/I17145004"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Bingqian Li","raw_affiliation_strings":["Northwestern Polytechnical University,Research Center for Intelligent Robotics, School of Astronautics,Xi&#x2019;an,China,710072"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Northwestern Polytechnical University,Research Center for Intelligent Robotics, School of Astronautics,Xi&#x2019;an,China,710072","institution_ids":["https://openalex.org/I17145004"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5100381466","display_name":"Xing Liu","orcid":"https://orcid.org/0000-0002-5327-4908"},"institutions":[{"id":"https://openalex.org/I17145004","display_name":"Northwestern Polytechnical University","ror":"https://ror.org/01y0j0j86","country_code":"CN","type":"education","lineage":["https://openalex.org/I17145004"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Xing Liu","raw_affiliation_strings":["Northwestern Polytechnical University,Research Center for Intelligent Robotics, School of Astronautics,Xi&#x2019;an,China,710072"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Northwestern Polytechnical University,Research Center for Intelligent Robotics, School of Astronautics,Xi&#x2019;an,China,710072","institution_ids":["https://openalex.org/I17145004"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5083493899","display_name":"Zhengxiong Liu","orcid":"https://orcid.org/0000-0002-9427-4066"},"institutions":[{"id":"https://openalex.org/I17145004","display_name":"Northwestern Polytechnical University","ror":"https://ror.org/01y0j0j86","country_code":"CN","type":"education","lineage":["https://openalex.org/I17145004"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Zhengxiong Liu","raw_affiliation_strings":["Northwestern Polytechnical University,Research Center for Intelligent Robotics, School of Astronautics,Xi&#x2019;an,China,710072"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Northwestern Polytechnical University,Research Center for Intelligent Robotics, School of Astronautics,Xi&#x2019;an,China,710072","institution_ids":["https://openalex.org/I17145004"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5109622737","display_name":"Panfeng Huang","orcid":"https://orcid.org/0000-0002-0766-2993"},"institutions":[{"id":"https://openalex.org/I17145004","display_name":"Northwestern Polytechnical University","ror":"https://ror.org/01y0j0j86","country_code":"CN","type":"education","lineage":["https://openalex.org/I17145004"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Panfeng Huang","raw_affiliation_strings":["Northwestern Polytechnical University,Research Center for Intelligent Robotics, School of Astronautics,Xi&#x2019;an,China,710072"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Northwestern Polytechnical University,Research Center for Intelligent Robotics, School of Astronautics,Xi&#x2019;an,China,710072","institution_ids":["https://openalex.org/I17145004"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":[],"corresponding_institution_ids":["https://openalex.org/I17145004"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.1513637,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"655","last_page":"661"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.8791999816894531,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.8791999816894531,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.8377245664596558},{"id":"https://openalex.org/keywords/advice","display_name":"Advice (programming)","score":0.7150390148162842},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.687104344367981},{"id":"https://openalex.org/keywords/preference","display_name":"Preference","score":0.6775389909744263},{"id":"https://openalex.org/keywords/robot","display_name":"Robot","score":0.6124731302261353},{"id":"https://openalex.org/keywords/robot-learning","display_name":"Robot learning","score":0.5532130002975464},{"id":"https://openalex.org/keywords/error-driven-learning","display_name":"Error-driven learning","score":0.5472989082336426},{"id":"https://openalex.org/keywords/preference-learning","display_name":"Preference learning","score":0.5375186204910278},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.48191192746162415},{"id":"https://openalex.org/keywords/reinforcement","display_name":"Reinforcement","score":0.4343441426753998},{"id":"https://openalex.org/keywords/human\u2013computer-interaction","display_name":"Human\u2013computer interaction","score":0.4184481203556061},{"id":"https://openalex.org/keywords/mobile-robot","display_name":"Mobile robot","score":0.23753619194030762},{"id":"https://openalex.org/keywords/psychology","display_name":"Psychology","score":0.11658784747123718},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.0595950186252594},{"id":"https://openalex.org/keywords/social-psychology","display_name":"Social psychology","score":0.05699688196182251}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.8377245664596558},{"id":"https://openalex.org/C2779955035","wikidata":"https://www.wikidata.org/wiki/Q4686785","display_name":"Advice (programming)","level":2,"score":0.7150390148162842},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.687104344367981},{"id":"https://openalex.org/C2781249084","wikidata":"https://www.wikidata.org/wiki/Q908656","display_name":"Preference","level":2,"score":0.6775389909744263},{"id":"https://openalex.org/C90509273","wikidata":"https://www.wikidata.org/wiki/Q11012","display_name":"Robot","level":2,"score":0.6124731302261353},{"id":"https://openalex.org/C188888258","wikidata":"https://www.wikidata.org/wiki/Q7353390","display_name":"Robot learning","level":4,"score":0.5532130002975464},{"id":"https://openalex.org/C47932503","wikidata":"https://www.wikidata.org/wiki/Q5395689","display_name":"Error-driven learning","level":3,"score":0.5472989082336426},{"id":"https://openalex.org/C181204326","wikidata":"https://www.wikidata.org/wiki/Q7239820","display_name":"Preference learning","level":3,"score":0.5375186204910278},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.48191192746162415},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.4343441426753998},{"id":"https://openalex.org/C107457646","wikidata":"https://www.wikidata.org/wiki/Q207434","display_name":"Human\u2013computer interaction","level":1,"score":0.4184481203556061},{"id":"https://openalex.org/C19966478","wikidata":"https://www.wikidata.org/wiki/Q4810574","display_name":"Mobile robot","level":3,"score":0.23753619194030762},{"id":"https://openalex.org/C15744967","wikidata":"https://www.wikidata.org/wiki/Q9418","display_name":"Psychology","level":0,"score":0.11658784747123718},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.0595950186252594},{"id":"https://openalex.org/C77805123","wikidata":"https://www.wikidata.org/wiki/Q161272","display_name":"Social psychology","level":1,"score":0.05699688196182251},{"id":"https://openalex.org/C105795698","wikidata":"https://www.wikidata.org/wiki/Q12483","display_name":"Statistics","level":1,"score":0.0},{"id":"https://openalex.org/C199360897","wikidata":"https://www.wikidata.org/wiki/Q9143","display_name":"Programming language","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/icarm62033.2024.10715884","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icarm62033.2024.10715884","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2024 International Conference on Advanced Robotics and Mechatronics (ICARM)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[{"id":"https://openalex.org/F4320321001","display_name":"National Natural Science Foundation of China","ror":"https://ror.org/01h0zpd94"}],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":21,"referenced_works":["https://openalex.org/W1977655452","https://openalex.org/W2121110499","https://openalex.org/W2126909264","https://openalex.org/W2156869222","https://openalex.org/W2157174816","https://openalex.org/W2158582431","https://openalex.org/W2401683402","https://openalex.org/W2735318784","https://openalex.org/W2799745602","https://openalex.org/W2973127235","https://openalex.org/W3022169065","https://openalex.org/W3133533407","https://openalex.org/W3138984732","https://openalex.org/W3167898434","https://openalex.org/W4385154526","https://openalex.org/W6604963999","https://openalex.org/W6674812091","https://openalex.org/W6676237905","https://openalex.org/W6761908843","https://openalex.org/W6766375498","https://openalex.org/W6796168157"],"related_works":["https://openalex.org/W2126211886","https://openalex.org/W3153786280","https://openalex.org/W3127551068","https://openalex.org/W2371091044","https://openalex.org/W3165944253","https://openalex.org/W4220829754","https://openalex.org/W87513465","https://openalex.org/W2171010636","https://openalex.org/W2930863966","https://openalex.org/W2165180011"],"abstract_inverted_index":{"The":[0],"key":[1],"to":[2,12,62,78,106,125,134],"realize":[3,79],"the":[4,33,41,90,137,155,167],"application":[5,34],"of":[6,35,43,158,166],"robots":[7,15],"in":[8,38],"real":[9],"world":[10],"is":[11,24,123,132,153,161],"design":[13],"intelligent":[14],"with":[16,94,101],"certain":[17],"autonomous":[18],"skill":[19,81,145],"learning":[20,23,71,139,146,156,169],"ability.":[21],"Reinforcement":[22],"a":[25,69,108],"feasible":[26],"solution.":[27],"However,":[28],"two":[29],"important":[30],"challenges":[31],"limit":[32],"RL":[36,56,92,110],"methods":[37],"robotics,":[39],"including":[40],"difficulty":[42],"human-designed":[44,95,148],"reward":[45,70,127,149,168],"as":[46,48],"well":[47],"long":[49],"training":[50],"time.":[51],"Therefore,":[52],"we":[53,67,98],"study":[54],"hybrid":[55,109],"methods,":[57],"which":[58,83],"use":[59],"human":[60,75,114,130],"knowledge":[61],"assist":[63],"agent":[64],"learning.":[65],"First,":[66],"propose":[68],"method":[72,93,111,160,170],"based":[73,112],"on":[74,113],"preference":[76,115,121,174],"model":[77,122],"robot":[80,144],"learning,":[82],"has":[84],"better":[85],"robustness":[86],"and":[87,116,129],"convergence":[88],"than":[89,164],"traditional":[91],"reward.":[96],"Then,":[97],"combine":[99],"it":[100,152],"Episode-Fuzzy-COACH,":[102],"our":[103],"previous":[104],"work,":[105],"build":[107],"advice.":[117],"In":[118],"this":[119,159],"method,":[120],"used":[124,133],"infer":[126],"function":[128],"advice":[131],"speed":[135],"up":[136],"policy":[138],"process.":[140],"It":[141],"realizes":[142],"efficient":[143],"without":[147],"function.":[150],"And":[151],"proven":[154],"efficiency":[157],"73.3%":[162],"higher":[163],"that":[165,171],"only":[172],"uses":[173],"model.":[175]},"counts_by_year":[],"updated_date":"2026-06-26T08:34:08.712188","created_date":"2025-10-10T00:00:00"}