{"id":"https://openalex.org/W4414359321","doi":"https://doi.org/10.24963/ijcai.2025/788","title":"Efficient Diversity-based Experience Replay for Deep Reinforcement Learning","display_name":"Efficient Diversity-based Experience Replay for Deep Reinforcement Learning","publication_year":2025,"publication_date":"2025-09-01","ids":{"openalex":"https://openalex.org/W4414359321","doi":"https://doi.org/10.24963/ijcai.2025/788"},"language":"en","primary_location":{"id":"doi:10.24963/ijcai.2025/788","is_oa":false,"landing_page_url":"https://doi.org/10.24963/ijcai.2025/788","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the Thirty-Fourth International Joint Conference on Artificial Intelligence","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5109749290","display_name":"Kaiyan Zhao","orcid":null},"institutions":[{"id":"https://openalex.org/I37461747","display_name":"Wuhan University","ror":"https://ror.org/033vjfk17","country_code":"CN","type":"education","lineage":["https://openalex.org/I37461747"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Kaiyan Zhao","raw_affiliation_strings":["Wuhan University"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Wuhan University","institution_ids":["https://openalex.org/I37461747"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5100377954","display_name":"Yiming Wang","orcid":"https://orcid.org/0000-0003-3298-5134"},"institutions":[{"id":"https://openalex.org/I204512498","display_name":"University of Macau","ror":"https://ror.org/01r4q9n85","country_code":"MO","type":"education","lineage":["https://openalex.org/I204512498"]}],"countries":["MO"],"is_corresponding":false,"raw_author_name":"Yiming Wang","raw_affiliation_strings":["University of Macau"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"University of Macau","institution_ids":["https://openalex.org/I204512498"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5100687552","display_name":"Yuyang Chen","orcid":"https://orcid.org/0000-0002-0190-4867"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Yuyang Chen","raw_affiliation_strings":["Northwestern University"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Northwestern University","institution_ids":[]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5100380422","display_name":"Yan Li","orcid":"https://orcid.org/0000-0003-2182-9048"},"institutions":[{"id":"https://openalex.org/I182722699","display_name":"Shenzhen Polytechnic University","ror":"https://ror.org/00d2w9g53","country_code":"CN","type":"education","lineage":["https://openalex.org/I182722699"]},{"id":"https://openalex.org/I4210120584","display_name":"The Polytechnic University of Japan","ror":"https://ror.org/02f0psx94","country_code":"JP","type":"education","lineage":["https://openalex.org/I4210120584"]}],"countries":["CN","JP"],"is_corresponding":false,"raw_author_name":"Yan Li","raw_affiliation_strings":["Shenzhen Polytechnic University"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Shenzhen Polytechnic University","institution_ids":["https://openalex.org/I182722699","https://openalex.org/I4210120584"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5035706700","display_name":"Leong Hou U","orcid":"https://orcid.org/0000-0002-5135-5165"},"institutions":[{"id":"https://openalex.org/I204512498","display_name":"University of Macau","ror":"https://ror.org/01r4q9n85","country_code":"MO","type":"education","lineage":["https://openalex.org/I204512498"]}],"countries":["MO"],"is_corresponding":false,"raw_author_name":"Leong Hou U","raw_affiliation_strings":["University of Macau"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"University of Macau","institution_ids":["https://openalex.org/I204512498"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5100390120","display_name":"Xiaoguang Liu","orcid":"https://orcid.org/0000-0002-9010-3278"},"institutions":[{"id":"https://openalex.org/I37461747","display_name":"Wuhan University","ror":"https://ror.org/033vjfk17","country_code":"CN","type":"education","lineage":["https://openalex.org/I37461747"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Xiaoguang Liu","raw_affiliation_strings":["Wuhan University"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Wuhan University","institution_ids":["https://openalex.org/I37461747"]}]}],"institutions":[],"countries_distinct_count":3,"institutions_distinct_count":4,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":"7083","last_page":"7091"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T13283","display_name":"Mental Health Research Topics","score":0.8819000124931335,"subfield":{"id":"https://openalex.org/subfields/3205","display_name":"Experimental and Cognitive Psychology"},"field":{"id":"https://openalex.org/fields/32","display_name":"Psychology"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},"topics":[{"id":"https://openalex.org/T13283","display_name":"Mental Health Research Topics","score":0.8819000124931335,"subfield":{"id":"https://openalex.org/subfields/3205","display_name":"Experimental and Cognitive Psychology"},"field":{"id":"https://openalex.org/fields/32","display_name":"Psychology"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.832099974155426,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10603","display_name":"Smart Grid Energy Management","score":0.8138999938964844,"subfield":{"id":"https://openalex.org/subfields/2208","display_name":"Electrical and Electronic Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7577000260353088},{"id":"https://openalex.org/keywords/process","display_name":"Process (computing)","score":0.565500020980835},{"id":"https://openalex.org/keywords/state","display_name":"State (computer science)","score":0.4366999864578247},{"id":"https://openalex.org/keywords/point","display_name":"Point (geometry)","score":0.42570000886917114},{"id":"https://openalex.org/keywords/decomposition","display_name":"Decomposition","score":0.421999990940094},{"id":"https://openalex.org/keywords/sampling","display_name":"Sampling (signal processing)","score":0.37689998745918274}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.8159999847412109},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7577000260353088},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5856000185012817},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.565500020980835},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.5005000233650208},{"id":"https://openalex.org/C48103436","wikidata":"https://www.wikidata.org/wiki/Q599031","display_name":"State (computer science)","level":2,"score":0.4366999864578247},{"id":"https://openalex.org/C28719098","wikidata":"https://www.wikidata.org/wiki/Q44946","display_name":"Point (geometry)","level":2,"score":0.42570000886917114},{"id":"https://openalex.org/C124681953","wikidata":"https://www.wikidata.org/wiki/Q339062","display_name":"Decomposition","level":2,"score":0.421999990940094},{"id":"https://openalex.org/C140779682","wikidata":"https://www.wikidata.org/wiki/Q210868","display_name":"Sampling (signal processing)","level":3,"score":0.37689998745918274},{"id":"https://openalex.org/C177264268","wikidata":"https://www.wikidata.org/wiki/Q1514741","display_name":"Set (abstract data type)","level":2,"score":0.35989999771118164},{"id":"https://openalex.org/C34727166","wikidata":"https://www.wikidata.org/wiki/Q515375","display_name":"Cholesky decomposition","level":3,"score":0.32440000772476196},{"id":"https://openalex.org/C2781316041","wikidata":"https://www.wikidata.org/wiki/Q1230584","display_name":"Diversity (politics)","level":2,"score":0.3188000023365021},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.30090001225471497},{"id":"https://openalex.org/C34413123","wikidata":"https://www.wikidata.org/wiki/Q170978","display_name":"Robotics","level":3,"score":0.30059999227523804},{"id":"https://openalex.org/C2776359362","wikidata":"https://www.wikidata.org/wiki/Q2145286","display_name":"Representation (politics)","level":3,"score":0.2953999936580658},{"id":"https://openalex.org/C107457646","wikidata":"https://www.wikidata.org/wiki/Q207434","display_name":"Human\u2013computer interaction","level":1,"score":0.26440000534057617}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.24963/ijcai.2025/788","is_oa":false,"landing_page_url":"https://doi.org/10.24963/ijcai.2025/788","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the Thirty-Fourth International Joint Conference on Artificial Intelligence","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Experience":[0,52],"replay":[1,19,69],"is":[2,96],"widely":[3],"used":[4],"to":[5,61,98],"improve":[6],"learning":[7,11,79,107,137],"efficiency":[8,138],"in":[9,34,90,117,125,144],"reinforcement":[10],"by":[12],"leveraging":[13],"past":[14],"experiences.":[15],"However,":[16],"existing":[17],"experience":[18],"methods,":[20],"whether":[21],"based":[22,70],"on":[23,71,113],"uniform":[24],"or":[25],"prioritized":[26],"sampling,":[27],"often":[28],"suffer":[29],"from":[30],"low":[31],"efficiency,":[32,80],"particularly":[33],"real-world":[35],"scenarios":[36],"with":[37,101],"high-dimensional":[38],"state":[39,88],"spaces.":[40],"To":[41,76],"address":[42],"this":[43],"limitation,":[44],"we":[45,81],"propose":[46],"a":[47,57],"novel":[48],"approach,":[49],"Efficient":[50],"Diversity-based":[51],"Replay":[53],"(EDER).":[54],"EDER":[55],"employs":[56],"determinantal":[58],"point":[59],"process":[60],"model":[62],"the":[63,72],"diversity":[64,73],"between":[65,74],"samples":[66,100],"and":[67,121],"prioritizes":[68],"samples.":[75],"further":[77],"enhance":[78],"incorporate":[82],"Cholesky":[83],"decomposition":[84],"for":[85],"handling":[86],"large":[87],"spaces":[89],"realistic":[91,122,146],"environments.":[92,147],"Additionally,":[93],"rejection":[94],"sampling":[95],"applied":[97],"select":[99],"higher":[102],"diversity,":[103],"thereby":[104],"improving":[105],"overall":[106],"efficacy.":[108],"Extensive":[109],"experiments":[110],"are":[111],"conducted":[112],"robotic":[114],"manipulation":[115],"tasks":[116],"MuJoCo,":[118],"Atari":[119],"games,":[120],"indoor":[123],"environments":[124],"Habitat.":[126],"The":[127],"results":[128],"demonstrate":[129],"that":[130],"our":[131],"approach":[132],"not":[133],"only":[134],"significantly":[135],"improves":[136],"but":[139],"also":[140],"achieves":[141],"superior":[142],"performance":[143],"high-dimensional,":[145]},"counts_by_year":[],"updated_date":"2026-07-14T23:27:15.235271","created_date":"2025-10-10T00:00:00"}