{"id":"https://openalex.org/W4416250237","doi":"https://doi.org/10.1109/ijcnn64981.2025.11227385","title":"Deep Reinforcement Learning for Autonomous Driving with Multiple Expert Demonstrations","display_name":"Deep Reinforcement Learning for Autonomous Driving with Multiple Expert Demonstrations","publication_year":2025,"publication_date":"2025-06-30","ids":{"openalex":"https://openalex.org/W4416250237","doi":"https://doi.org/10.1109/ijcnn64981.2025.11227385"},"language":null,"primary_location":{"id":"doi:10.1109/ijcnn64981.2025.11227385","is_oa":false,"landing_page_url":"https://doi.org/10.1109/ijcnn64981.2025.11227385","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 International Joint Conference on Neural Networks (IJCNN)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5018155208","display_name":"Chenghao Wang","orcid":"https://orcid.org/0000-0001-8846-4130"},"institutions":[{"id":"https://openalex.org/I66867065","display_name":"East China Normal University","ror":"https://ror.org/02n96ep67","country_code":"CN","type":"education","lineage":["https://openalex.org/I66867065"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Chenghao Wang","raw_affiliation_strings":["East China Normal University,Dept. Software Engineering Institute,Shanghai,China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"East China Normal University,Dept. Software Engineering Institute,Shanghai,China","institution_ids":["https://openalex.org/I66867065"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5100780133","display_name":"Minglei Li","orcid":"https://orcid.org/0000-0001-5432-2855"},"institutions":[{"id":"https://openalex.org/I66867065","display_name":"East China Normal University","ror":"https://ror.org/02n96ep67","country_code":"CN","type":"education","lineage":["https://openalex.org/I66867065"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Miaodi Li","raw_affiliation_strings":["East China Normal University,Dept. Software Engineering Institute,Shanghai,China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"East China Normal University,Dept. Software Engineering Institute,Shanghai,China","institution_ids":["https://openalex.org/I66867065"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5049500557","display_name":"Muxiang Zhang","orcid":null},"institutions":[{"id":"https://openalex.org/I66867065","display_name":"East China Normal University","ror":"https://ror.org/02n96ep67","country_code":"CN","type":"education","lineage":["https://openalex.org/I66867065"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Muxiang Zhang","raw_affiliation_strings":["East China Normal University,Dept. Software Engineering Institute,Shanghai,China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"East China Normal University,Dept. Software Engineering Institute,Shanghai,China","institution_ids":["https://openalex.org/I66867065"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5100402983","display_name":"Min Zhang","orcid":"https://orcid.org/0000-0003-1938-2902"},"institutions":[{"id":"https://openalex.org/I66867065","display_name":"East China Normal University","ror":"https://ror.org/02n96ep67","country_code":"CN","type":"education","lineage":["https://openalex.org/I66867065"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Min Zhang","raw_affiliation_strings":["East China Normal University,Dept. Software Engineering Institute,Shanghai,China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"East China Normal University,Dept. Software Engineering Institute,Shanghai,China","institution_ids":["https://openalex.org/I66867065"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":4,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.16512685,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"8"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.7372000217437744,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.7372000217437744,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11099","display_name":"Autonomous Vehicle Technology and Safety","score":0.1395999938249588,"subfield":{"id":"https://openalex.org/subfields/2203","display_name":"Automotive Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10805","display_name":"Vehicle Dynamics and Control Systems","score":0.00800000037997961,"subfield":{"id":"https://openalex.org/subfields/2203","display_name":"Automotive Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.8819000124931335},{"id":"https://openalex.org/keywords/stability","display_name":"Stability (learning theory)","score":0.5688999891281128},{"id":"https://openalex.org/keywords/generalization","display_name":"Generalization","score":0.546500027179718},{"id":"https://openalex.org/keywords/reinforcement","display_name":"Reinforcement","score":0.4422999918460846},{"id":"https://openalex.org/keywords/expert-system","display_name":"Expert system","score":0.3779999911785126},{"id":"https://openalex.org/keywords/robot-learning","display_name":"Robot learning","score":0.3707999885082245},{"id":"https://openalex.org/keywords/imitation","display_name":"Imitation","score":0.36739999055862427},{"id":"https://openalex.org/keywords/policy-learning","display_name":"Policy learning","score":0.3546000123023987}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.8819000124931335},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6543999910354614},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6353999972343445},{"id":"https://openalex.org/C112972136","wikidata":"https://www.wikidata.org/wiki/Q7595718","display_name":"Stability (learning theory)","level":2,"score":0.5688999891281128},{"id":"https://openalex.org/C177148314","wikidata":"https://www.wikidata.org/wiki/Q170084","display_name":"Generalization","level":2,"score":0.546500027179718},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.49410000443458557},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.4422999918460846},{"id":"https://openalex.org/C58328972","wikidata":"https://www.wikidata.org/wiki/Q184609","display_name":"Expert system","level":2,"score":0.3779999911785126},{"id":"https://openalex.org/C188888258","wikidata":"https://www.wikidata.org/wiki/Q7353390","display_name":"Robot learning","level":4,"score":0.3707999885082245},{"id":"https://openalex.org/C126388530","wikidata":"https://www.wikidata.org/wiki/Q1131737","display_name":"Imitation","level":2,"score":0.36739999055862427},{"id":"https://openalex.org/C2779436431","wikidata":"https://www.wikidata.org/wiki/Q30672407","display_name":"Policy learning","level":2,"score":0.3546000123023987},{"id":"https://openalex.org/C77967617","wikidata":"https://www.wikidata.org/wiki/Q4677561","display_name":"Active learning (machine learning)","level":2,"score":0.3102000057697296},{"id":"https://openalex.org/C47932503","wikidata":"https://www.wikidata.org/wiki/Q5395689","display_name":"Error-driven learning","level":3,"score":0.30959999561309814},{"id":"https://openalex.org/C199190896","wikidata":"https://www.wikidata.org/wiki/Q3509276","display_name":"Learning classifier system","level":3,"score":0.30309998989105225},{"id":"https://openalex.org/C2780791683","wikidata":"https://www.wikidata.org/wiki/Q846785","display_name":"Action (physics)","level":2,"score":0.2969000041484833},{"id":"https://openalex.org/C105002631","wikidata":"https://www.wikidata.org/wiki/Q4833645","display_name":"Subject-matter expert","level":3,"score":0.28299999237060547},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.2818000018596649},{"id":"https://openalex.org/C127413603","wikidata":"https://www.wikidata.org/wiki/Q11023","display_name":"Engineering","level":0,"score":0.28139999508857727},{"id":"https://openalex.org/C108583219","wikidata":"https://www.wikidata.org/wiki/Q197536","display_name":"Deep learning","level":2,"score":0.2802000045776367},{"id":"https://openalex.org/C13687954","wikidata":"https://www.wikidata.org/wiki/Q4826847","display_name":"Autonomous agent","level":2,"score":0.2775000035762787}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/ijcnn64981.2025.11227385","is_oa":false,"landing_page_url":"https://doi.org/10.1109/ijcnn64981.2025.11227385","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2025 International Joint Conference on Neural Networks (IJCNN)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":28,"referenced_works":["https://openalex.org/W1592601589","https://openalex.org/W2033178790","https://openalex.org/W2119112357","https://openalex.org/W2406067508","https://openalex.org/W2962894046","https://openalex.org/W2962903009","https://openalex.org/W2963099939","https://openalex.org/W3009593063","https://openalex.org/W3035172746","https://openalex.org/W3045517780","https://openalex.org/W3115737827","https://openalex.org/W3127561923","https://openalex.org/W3172863135","https://openalex.org/W3193987867","https://openalex.org/W3198460218","https://openalex.org/W3212409086","https://openalex.org/W3214452188","https://openalex.org/W4205373550","https://openalex.org/W4213419760","https://openalex.org/W4226257065","https://openalex.org/W4281685999","https://openalex.org/W4285222939","https://openalex.org/W4285819294","https://openalex.org/W4293682399","https://openalex.org/W4319997987","https://openalex.org/W4386076400","https://openalex.org/W4386410083","https://openalex.org/W4393156719"],"related_works":[],"abstract_inverted_index":{"Deep":[0],"reinforcement":[1,17,35,127],"learning":[2,18,32,36,128,146],"(DRL)":[3],"has":[4,22],"emerged":[5],"as":[6],"a":[7,27,66],"promising":[8],"approach":[9],"to":[10,37,52,57,92],"address":[11],"challenges":[12],"in":[13,42,115],"autonomous":[14,109],"driving.":[15],"Recently,":[16],"from":[19],"expert":[20,46,90,99],"demonstrations":[21],"gained":[23],"considerable":[24],"attention,":[25],"offering":[26],"synergistic":[28],"integration":[29],"of":[30,62,97,107],"imitation":[31],"(IL)":[33],"and":[34,55,148],"enhance":[38],"model":[39,124],"performance.":[40],"However,":[41],"complex":[43],"driving":[44,110,132],"scenarios,":[45],"decisions":[47],"may":[48],"be":[49],"suboptimal,":[50],"leading":[51],"inefficient":[53],"training":[54],"susceptibility":[56],"local":[58],"optima.":[59],"In":[60,72],"light":[61],"this,":[63],"we":[64,76],"propose":[65],"novel":[67],"DRL-based":[68],"model,":[69],"termed":[70],"PME.":[71],"the":[73,94,104,108,116,121],"decision-making":[74],"process,":[75],"introduce":[77],"an":[78],"enhanced":[79],"algorithm":[80],"built":[81],"upon":[82],"Proximal":[83],"Policy":[84],"Optimization":[85],"(PPO),":[86],"which":[87],"integrates":[88],"multiple":[89],"policies":[91],"mitigate":[93],"negative":[95],"impact":[96],"erroneous":[98],"decisions,":[100],"thereby":[101],"significantly":[102],"improving":[103],"overall":[105],"performance":[106],"model.":[111],"Experimental":[112],"results,":[113],"conducted":[114],"CARLA":[117],"simulator,":[118],"demonstrate":[119],"that":[120],"proposed":[122],"PME":[123],"surpasses":[125],"conventional":[126],"algorithms":[129],"across":[130],"various":[131],"scenarios.":[133],"The":[134],"framework":[135],"consistently":[136],"achieves":[137],"higher":[138],"success":[139],"rates":[140],"under":[141],"diverse":[142],"conditions,":[143],"showcasing":[144],"improved":[145],"stability":[147],"superior":[149],"generalization":[150],"capabilities.":[151]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2025-11-14T00:00:00"}