{"id":"https://openalex.org/W4401415320","doi":"https://doi.org/10.1109/cec60901.2024.10611765","title":"Evolutionary Deep Reinforcement Learning via Hybridizing Estimation-of-Distribution Algorithms with Policy Gradients","display_name":"Evolutionary Deep Reinforcement Learning via Hybridizing Estimation-of-Distribution Algorithms with Policy Gradients","publication_year":2024,"publication_date":"2024-06-30","ids":{"openalex":"https://openalex.org/W4401415320","doi":"https://doi.org/10.1109/cec60901.2024.10611765"},"language":"en","primary_location":{"id":"doi:10.1109/cec60901.2024.10611765","is_oa":false,"landing_page_url":"http://dx.doi.org/10.1109/cec60901.2024.10611765","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2024 IEEE Congress on Evolutionary Computation (CEC)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5054013911","display_name":"Thai Bao Tran","orcid":"https://orcid.org/0000-0002-5876-4092"},"institutions":[{"id":"https://openalex.org/I123565023","display_name":"Vietnam National University Ho Chi Minh City","ror":"https://ror.org/00waaqh38","country_code":"VN","type":"education","lineage":["https://openalex.org/I123565023"]}],"countries":["VN"],"is_corresponding":true,"raw_author_name":"Thai Bao Tran","raw_affiliation_strings":["University of Information Technology, Ho Chi Minh City, Vietnam Vietnam National University,Ho Chi Minh City,Vietnam"],"affiliations":[{"raw_affiliation_string":"University of Information Technology, Ho Chi Minh City, Vietnam Vietnam National University,Ho Chi Minh City,Vietnam","institution_ids":["https://openalex.org/I123565023"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5081219326","display_name":"Ngoc Hoang Luong","orcid":"https://orcid.org/0000-0002-6768-1950"},"institutions":[{"id":"https://openalex.org/I123565023","display_name":"Vietnam National University Ho Chi Minh City","ror":"https://ror.org/00waaqh38","country_code":"VN","type":"education","lineage":["https://openalex.org/I123565023"]}],"countries":["VN"],"is_corresponding":false,"raw_author_name":"Ngoc Hoang Luong","raw_affiliation_strings":["University of Information Technology, Ho Chi Minh City, Vietnam Vietnam National University,Ho Chi Minh City,Vietnam"],"affiliations":[{"raw_affiliation_string":"University of Information Technology, Ho Chi Minh City, Vietnam Vietnam National University,Ho Chi Minh City,Vietnam","institution_ids":["https://openalex.org/I123565023"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":["https://openalex.org/A5054013911"],"corresponding_institution_ids":["https://openalex.org/I123565023"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":{"value":0.10594659,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":"32","issue":null,"first_page":"1","last_page":"8"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9998000264167786,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9998000264167786,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12761","display_name":"Data Stream Mining Techniques","score":0.9900000095367432,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10791","display_name":"Advanced Control Systems Optimization","score":0.9886000156402588,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.8392335176467896},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.6094235777854919},{"id":"https://openalex.org/keywords/estimation-of-distribution-algorithm","display_name":"Estimation of distribution algorithm","score":0.5675087571144104},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.5366043448448181},{"id":"https://openalex.org/keywords/algorithm","display_name":"Algorithm","score":0.475460946559906},{"id":"https://openalex.org/keywords/estimation","display_name":"Estimation","score":0.4735518991947174},{"id":"https://openalex.org/keywords/distribution","display_name":"Distribution (mathematics)","score":0.46774178743362427},{"id":"https://openalex.org/keywords/evolutionary-computation","display_name":"Evolutionary computation","score":0.410604864358902},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.36299678683280945},{"id":"https://openalex.org/keywords/mathematical-optimization","display_name":"Mathematical optimization","score":0.3201602101325989},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.22502687573432922},{"id":"https://openalex.org/keywords/engineering","display_name":"Engineering","score":0.11958464980125427}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.8392335176467896},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6094235777854919},{"id":"https://openalex.org/C162500139","wikidata":"https://www.wikidata.org/wiki/Q2835887","display_name":"Estimation of distribution algorithm","level":2,"score":0.5675087571144104},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5366043448448181},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.475460946559906},{"id":"https://openalex.org/C96250715","wikidata":"https://www.wikidata.org/wiki/Q965330","display_name":"Estimation","level":2,"score":0.4735518991947174},{"id":"https://openalex.org/C110121322","wikidata":"https://www.wikidata.org/wiki/Q865811","display_name":"Distribution (mathematics)","level":2,"score":0.46774178743362427},{"id":"https://openalex.org/C105902424","wikidata":"https://www.wikidata.org/wiki/Q1197129","display_name":"Evolutionary computation","level":2,"score":0.410604864358902},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.36299678683280945},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.3201602101325989},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.22502687573432922},{"id":"https://openalex.org/C127413603","wikidata":"https://www.wikidata.org/wiki/Q11023","display_name":"Engineering","level":0,"score":0.11958464980125427},{"id":"https://openalex.org/C201995342","wikidata":"https://www.wikidata.org/wiki/Q682496","display_name":"Systems engineering","level":1,"score":0.0},{"id":"https://openalex.org/C134306372","wikidata":"https://www.wikidata.org/wiki/Q7754","display_name":"Mathematical analysis","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/cec60901.2024.10611765","is_oa":false,"landing_page_url":"http://dx.doi.org/10.1109/cec60901.2024.10611765","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2024 IEEE Congress on Evolutionary Computation (CEC)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[{"display_name":"Reduced inequalities","score":0.4300000071525574,"id":"https://metadata.un.org/sdg/10"}],"awards":[{"id":"https://openalex.org/G2146106786","display_name":null,"funder_award_id":"C2024-26-05","funder_id":"https://openalex.org/F4320326592","funder_display_name":"Viet Nam National University Ho Chi Minh City"}],"funders":[{"id":"https://openalex.org/F4320326592","display_name":"Viet Nam National University Ho Chi Minh City","ror":"https://ror.org/00waaqh38"}],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":23,"referenced_works":["https://openalex.org/W1549072606","https://openalex.org/W2129794603","https://openalex.org/W2132083787","https://openalex.org/W2158782408","https://openalex.org/W2167795535","https://openalex.org/W2356386248","https://openalex.org/W2894662639","https://openalex.org/W2946586661","https://openalex.org/W2963864421","https://openalex.org/W2963900541","https://openalex.org/W3170872007","https://openalex.org/W3183892796","https://openalex.org/W4211214963","https://openalex.org/W4294811578","https://openalex.org/W4298857966","https://openalex.org/W4308177782","https://openalex.org/W6637967152","https://openalex.org/W6684205842","https://openalex.org/W6684921986","https://openalex.org/W6748839928","https://openalex.org/W6755459763","https://openalex.org/W6780559895","https://openalex.org/W6798240405"],"related_works":["https://openalex.org/W2392913753","https://openalex.org/W2096498780","https://openalex.org/W1982259447","https://openalex.org/W2496664933","https://openalex.org/W4306904969","https://openalex.org/W1503012231","https://openalex.org/W2053360669","https://openalex.org/W2130703626","https://openalex.org/W3149308343","https://openalex.org/W4241522606"],"abstract_inverted_index":{"CEM-RL":[0,20],"is":[1],"a":[2,22,29,99],"state-of-the-art":[3],"evolutionary":[4],"rein-forcement":[5],"learning":[6],"(ERL)":[7],"framework":[8],"to":[9,34],"perform":[10],"policy":[11,68],"search":[12],"for":[13,134],"control":[14,40],"problems":[15],"with":[16,137],"continuous":[17,143],"action":[18],"spaces.":[19],"employs":[21],"cross-entropy":[23],"method":[24],"(CEM)":[25],"variant,":[26],"in":[27,71],"essence":[28],"Gaussian":[30,90],"Estimation-of-Distribution":[31],"Algorithm":[32,95],"(EDA),":[33],"model":[35],"the":[36,58,87,113,123,129,135,147],"distribution":[37,60],"of":[38,102,126,132],"high-performing":[39],"policies,":[41],"which":[42,97],"are":[43,55,62],"typically":[44],"parameterized":[45],"by":[46,65],"(deep)":[47],"neural":[48],"networks.":[49],"For":[50],"each":[51],"iteration,":[52],"new":[53],"policies":[54],"generated":[56],"from":[57],"learned":[59],"and":[61,109,128],"further":[63],"improved":[64],"an":[66],"actor-critic":[67],"gradient":[69],"procedure,":[70],"particular,":[72],"Deep":[73],"Deterministic":[74],"Policy":[75],"Gradient":[76],"(DDPG)":[77],"or":[78],"Twin-Delayed":[79],"DDPG":[80,108,127],"(TD3).":[81],"In":[82],"this":[83],"paper,":[84],"we":[85,111],"employ":[86],"Adapted":[88],"Maximum-Likelihood":[89],"Model":[91],"Iterated":[92],"Density-Estimation":[93],"Evolutionary":[94],"(AMaLGaM),":[96],"offers":[98],"wider":[100],"range":[101],"customization":[103],"options":[104],"than":[105],"CEM.":[106],"Beside":[107],"TD3,":[110,133],"consider":[112],"recently-introduced":[114],"Double":[115],"Actors":[116],"Regularized":[117],"Critics":[118],"(DARC),":[119],"that":[120],"can":[121],"address":[122],"overestimation":[124],"bias":[125,131],"underestimation":[130],"integration":[136],"AMaLGaM.":[138],"Benchmark":[139],"results":[140],"on":[141],"MuJoCo":[142],"locomotion":[144],"tasks":[145],"demonstrate":[146],"excellent":[148],"performance":[149]},"counts_by_year":[],"updated_date":"2025-12-26T23:08:49.675405","created_date":"2025-10-10T00:00:00"}