{"id":"https://openalex.org/W2977322142","doi":"https://doi.org/10.1109/ijcnn.2019.8852026","title":"A Human-Like Agent Based on a Hybrid of Reinforcement and Imitation Learning","display_name":"A Human-Like Agent Based on a Hybrid of Reinforcement and Imitation Learning","publication_year":2019,"publication_date":"2019-07-01","ids":{"openalex":"https://openalex.org/W2977322142","doi":"https://doi.org/10.1109/ijcnn.2019.8852026","mag":"2977322142"},"language":"en","primary_location":{"id":"doi:10.1109/ijcnn.2019.8852026","is_oa":false,"landing_page_url":"https://doi.org/10.1109/ijcnn.2019.8852026","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2019 International Joint Conference on Neural Networks (IJCNN)","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5081912903","display_name":"Rousslan Fernand Julien Dossa","orcid":"https://orcid.org/0000-0003-0572-692X"},"institutions":[{"id":"https://openalex.org/I65837984","display_name":"Kobe University","ror":"https://ror.org/03tgsfw79","country_code":"JP","type":"education","lineage":["https://openalex.org/I65837984"]}],"countries":["JP"],"is_corresponding":false,"raw_author_name":"Rousslan Fernand Julien Dossa","raw_affiliation_strings":["Graduate School of System Informatics, Kobe University, Hyogo, Japan"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Graduate School of System Informatics, Kobe University, Hyogo, Japan","institution_ids":["https://openalex.org/I65837984"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5063628500","display_name":"Xinyu Lian","orcid":"https://orcid.org/0009-0003-8143-4862"},"institutions":[{"id":"https://openalex.org/I65837984","display_name":"Kobe University","ror":"https://ror.org/03tgsfw79","country_code":"JP","type":"education","lineage":["https://openalex.org/I65837984"]}],"countries":["JP"],"is_corresponding":false,"raw_author_name":"Xinyu Lian","raw_affiliation_strings":["Graduate School of System Informatics, Kobe University, Hyogo, Japan"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Graduate School of System Informatics, Kobe University, Hyogo, Japan","institution_ids":["https://openalex.org/I65837984"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5059473234","display_name":"Nomoto Hirokazu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Hirokazu Nomoto","raw_affiliation_strings":["EQUOS RESEARCH Co., Ltd, Tokyo, Japan"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"EQUOS RESEARCH Co., Ltd, Tokyo, Japan","institution_ids":[]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5068667478","display_name":"Takashi Matsubara","orcid":"https://orcid.org/0000-0003-0642-4800"},"institutions":[{"id":"https://openalex.org/I65837984","display_name":"Kobe University","ror":"https://ror.org/03tgsfw79","country_code":"JP","type":"education","lineage":["https://openalex.org/I65837984"]}],"countries":["JP"],"is_corresponding":false,"raw_author_name":"Takashi Matsubara","raw_affiliation_strings":["Graduate School of System Informatics, Kobe University, Hyogo, Japan"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Graduate School of System Informatics, Kobe University, Hyogo, Japan","institution_ids":["https://openalex.org/I65837984"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5023847482","display_name":"Kuniaki Uehara","orcid":"https://orcid.org/0000-0002-7160-3752"},"institutions":[{"id":"https://openalex.org/I65837984","display_name":"Kobe University","ror":"https://ror.org/03tgsfw79","country_code":"JP","type":"education","lineage":["https://openalex.org/I65837984"]}],"countries":["JP"],"is_corresponding":false,"raw_author_name":"Kuniaki Uehara","raw_affiliation_strings":["Graduate School of System Informatics, Kobe University, Hyogo, Japan"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Graduate School of System Informatics, Kobe University, Hyogo, Japan","institution_ids":["https://openalex.org/I65837984"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":9,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"8"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9998999834060669,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9998999834060669,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11099","display_name":"Autonomous Vehicle Technology and Safety","score":0.9878000020980835,"subfield":{"id":"https://openalex.org/subfields/2203","display_name":"Automotive Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12761","display_name":"Data Stream Mining Techniques","score":0.9836000204086304,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.8413811922073364},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7325910925865173},{"id":"https://openalex.org/keywords/imitation","display_name":"Imitation","score":0.6601111888885498},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.575092613697052},{"id":"https://openalex.org/keywords/action","display_name":"Action (physics)","score":0.492121160030365},{"id":"https://openalex.org/keywords/intelligent-agent","display_name":"Intelligent agent","score":0.4814426302909851},{"id":"https://openalex.org/keywords/reinforcement","display_name":"Reinforcement","score":0.4651886522769928},{"id":"https://openalex.org/keywords/multi-agent-system","display_name":"Multi-agent system","score":0.45075058937072754},{"id":"https://openalex.org/keywords/scheme","display_name":"Scheme (mathematics)","score":0.42802512645721436},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.3755107820034027},{"id":"https://openalex.org/keywords/human\u2013computer-interaction","display_name":"Human\u2013computer interaction","score":0.330977201461792},{"id":"https://openalex.org/keywords/engineering","display_name":"Engineering","score":0.10377925634384155},{"id":"https://openalex.org/keywords/psychology","display_name":"Psychology","score":0.0734039843082428},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.06018233299255371}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.8413811922073364},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7325910925865173},{"id":"https://openalex.org/C126388530","wikidata":"https://www.wikidata.org/wiki/Q1131737","display_name":"Imitation","level":2,"score":0.6601111888885498},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.575092613697052},{"id":"https://openalex.org/C2780791683","wikidata":"https://www.wikidata.org/wiki/Q846785","display_name":"Action (physics)","level":2,"score":0.492121160030365},{"id":"https://openalex.org/C74072328","wikidata":"https://www.wikidata.org/wiki/Q1142726","display_name":"Intelligent agent","level":2,"score":0.4814426302909851},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.4651886522769928},{"id":"https://openalex.org/C41550386","wikidata":"https://www.wikidata.org/wiki/Q529909","display_name":"Multi-agent system","level":2,"score":0.45075058937072754},{"id":"https://openalex.org/C77618280","wikidata":"https://www.wikidata.org/wiki/Q1155772","display_name":"Scheme (mathematics)","level":2,"score":0.42802512645721436},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.3755107820034027},{"id":"https://openalex.org/C107457646","wikidata":"https://www.wikidata.org/wiki/Q207434","display_name":"Human\u2013computer interaction","level":1,"score":0.330977201461792},{"id":"https://openalex.org/C127413603","wikidata":"https://www.wikidata.org/wiki/Q11023","display_name":"Engineering","level":0,"score":0.10377925634384155},{"id":"https://openalex.org/C15744967","wikidata":"https://www.wikidata.org/wiki/Q9418","display_name":"Psychology","level":0,"score":0.0734039843082428},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.06018233299255371},{"id":"https://openalex.org/C62520636","wikidata":"https://www.wikidata.org/wiki/Q944","display_name":"Quantum mechanics","level":1,"score":0.0},{"id":"https://openalex.org/C66938386","wikidata":"https://www.wikidata.org/wiki/Q633538","display_name":"Structural engineering","level":1,"score":0.0},{"id":"https://openalex.org/C134306372","wikidata":"https://www.wikidata.org/wiki/Q7754","display_name":"Mathematical analysis","level":1,"score":0.0},{"id":"https://openalex.org/C121332964","wikidata":"https://www.wikidata.org/wiki/Q413","display_name":"Physics","level":0,"score":0.0},{"id":"https://openalex.org/C77805123","wikidata":"https://www.wikidata.org/wiki/Q161272","display_name":"Social psychology","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/ijcnn.2019.8852026","is_oa":false,"landing_page_url":"https://doi.org/10.1109/ijcnn.2019.8852026","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2019 International Joint Conference on Neural Networks (IJCNN)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":32,"referenced_works":["https://openalex.org/W1821462560","https://openalex.org/W1931877416","https://openalex.org/W2095705004","https://openalex.org/W2121863487","https://openalex.org/W2136065562","https://openalex.org/W2145339207","https://openalex.org/W2165150801","https://openalex.org/W2530849036","https://openalex.org/W2583993537","https://openalex.org/W2584377191","https://openalex.org/W2623491082","https://openalex.org/W2727840223","https://openalex.org/W2766447205","https://openalex.org/W2962957031","https://openalex.org/W2963024489","https://openalex.org/W2963277051","https://openalex.org/W2963625099","https://openalex.org/W2963864421","https://openalex.org/W2964043796","https://openalex.org/W2964121744","https://openalex.org/W3100944043","https://openalex.org/W4214717370","https://openalex.org/W4301501993","https://openalex.org/W4302570325","https://openalex.org/W6638523607","https://openalex.org/W6640174482","https://openalex.org/W6684205842","https://openalex.org/W6684921986","https://openalex.org/W6692846177","https://openalex.org/W6718092244","https://openalex.org/W6732837357","https://openalex.org/W6739193204"],"related_works":["https://openalex.org/W4387497383","https://openalex.org/W3183948672","https://openalex.org/W3173606202","https://openalex.org/W3110381201","https://openalex.org/W2948807893","https://openalex.org/W2778153218","https://openalex.org/W2758277628","https://openalex.org/W1531601525","https://openalex.org/W2108086216","https://openalex.org/W1515650145"],"abstract_inverted_index":{"Reinforcement":[0],"learning":[1,53],"(RL)":[2],"builds":[3,125],"an":[4,60,78,93,126,134],"effective":[5,35],"agent":[6,38,61,79,91,127,135],"that":[7,128],"handles":[8],"tasks":[9],"in":[10,81],"complex":[11],"and":[12,31,43,87,112,117,140],"uncertain":[13],"environments":[14],"by":[15,83,109,137,149,154],"maximizing":[16],"future":[17],"reward.":[18],"However,":[19,73],"the":[20,45,64,84,90],"efficiency":[21],"is":[22,98],"insufficient":[23],"for":[24,114],"practical":[25],"use":[26],"such":[27],"as":[28,70],"game":[29],"AI":[30],"autonomous":[32],"driving.":[33],"An":[34],"but":[36],"selfish":[37],"conflicts":[39],"with":[40],"other":[41],"humans,":[42],"hence":[44],"demand":[46],"of":[47,66],"a":[48,106,130,142],"human-like":[49,144],"behavior":[50,95,145],"arises.":[51],"Imitation":[52],"(IL)":[54],"has":[55],"been":[56],"employed":[57],"to":[58,62,76],"train":[59],"mimic":[63],"actions":[65],"expert":[67,85],"behaviors":[68],"provided":[69],"training":[71,107],"data.":[72],"IL":[74,97,113,139],"tends":[75],"build":[77],"limited":[80],"performance":[82,131],"skill,":[86],"even":[88],"worse,":[89],"exhibits":[92,141],"inconsistent":[94],"since":[96],"not":[99],"goal-oriented.":[100],"In":[101],"this":[102],"paper,":[103],"we":[104],"propose":[105],"scheme":[108,124],"mixing":[110],"RL":[111,150],"both":[115],"discrete":[116],"continuous":[118],"action":[119],"space":[120],"problems.":[121],"The":[122],"proposed":[123],"achieves":[129],"higher":[132],"than":[133,146],"trained":[136,148],"only":[138],"more":[143],"agents":[147],"or":[151],"IL,":[152],"validated":[153],"human":[155],"sensitivity.":[156]},"counts_by_year":[{"year":2023,"cited_by_count":1},{"year":2022,"cited_by_count":3},{"year":2021,"cited_by_count":2},{"year":2020,"cited_by_count":3}],"updated_date":"2026-07-14T23:27:15.235271","created_date":"2025-10-10T00:00:00"}