{"id":"https://openalex.org/W2968800863","doi":"https://doi.org/10.1109/cec.2019.8789935","title":"Memetic Evolution Strategy for Reinforcement Learning","display_name":"Memetic Evolution Strategy for Reinforcement Learning","publication_year":2019,"publication_date":"2019-06-01","ids":{"openalex":"https://openalex.org/W2968800863","doi":"https://doi.org/10.1109/cec.2019.8789935","mag":"2968800863"},"language":"en","primary_location":{"id":"doi:10.1109/cec.2019.8789935","is_oa":false,"landing_page_url":"https://doi.org/10.1109/cec.2019.8789935","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2019 IEEE Congress on Evolutionary Computation (CEC)","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5048340011","display_name":"Xinghua Qu","orcid":"https://orcid.org/0000-0001-8072-2019"},"institutions":[{"id":"https://openalex.org/I172675005","display_name":"Nanyang Technological University","ror":"https://ror.org/02e7b5302","country_code":"SG","type":"education","lineage":["https://openalex.org/I172675005"]}],"countries":["SG"],"is_corresponding":false,"raw_author_name":"Xinghua Qu","raw_affiliation_strings":["School of Computer Science and Engineering, Nanyang Technological University, Singapore"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"School of Computer Science and Engineering, Nanyang Technological University, Singapore","institution_ids":["https://openalex.org/I172675005"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5068243197","display_name":"Yew-Soon Ong","orcid":"https://orcid.org/0000-0002-4480-169X"},"institutions":[{"id":"https://openalex.org/I172675005","display_name":"Nanyang Technological University","ror":"https://ror.org/02e7b5302","country_code":"SG","type":"education","lineage":["https://openalex.org/I172675005"]}],"countries":["SG"],"is_corresponding":false,"raw_author_name":"Yew-Soon Ong","raw_affiliation_strings":["School of Computer Science and Engineering, Nanyang Technological University, Singapore"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"School of Computer Science and Engineering, Nanyang Technological University, Singapore","institution_ids":["https://openalex.org/I172675005"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5044443092","display_name":"Yaqing Hou","orcid":"https://orcid.org/0000-0002-9929-2650"},"institutions":[{"id":"https://openalex.org/I27357992","display_name":"Dalian University of Technology","ror":"https://ror.org/023hj5876","country_code":"CN","type":"education","lineage":["https://openalex.org/I27357992"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Yaqing Hou","raw_affiliation_strings":["School of Computer Science and Technology, Dalian University of Technology, Dalian, China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"School of Computer Science and Technology, Dalian University of Technology, Dalian, China","institution_ids":["https://openalex.org/I27357992"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5061132796","display_name":"Xiaobo Shen","orcid":"https://orcid.org/0000-0001-8494-4532"},"institutions":[{"id":"https://openalex.org/I36399199","display_name":"Nanjing University of Science and Technology","ror":"https://ror.org/00xp9wg62","country_code":"CN","type":"education","lineage":["https://openalex.org/I36399199"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Xiaobo Shen","raw_affiliation_strings":["School of Computer Science and Engineering, Nanjing University of Science and Technology, Nanjing, China"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"School of Computer Science and Engineering, Nanjing University of Science and Technology, Nanjing, China","institution_ids":["https://openalex.org/I36399199"]}]}],"institutions":[],"countries_distinct_count":2,"institutions_distinct_count":3,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.6561,"has_fulltext":false,"cited_by_count":9,"citation_normalized_percentile":{"value":0.74882929,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":89,"max":97},"biblio":{"volume":null,"issue":null,"first_page":"1922","last_page":"1928"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9998000264167786,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9998000264167786,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11975","display_name":"Evolutionary Algorithms and Applications","score":0.9991999864578247,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10100","display_name":"Metaheuristic Optimization Algorithms Research","score":0.9947999715805054,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.8734513521194458},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7425894737243652},{"id":"https://openalex.org/keywords/neuroevolution","display_name":"Neuroevolution","score":0.719685971736908},{"id":"https://openalex.org/keywords/markov-decision-process","display_name":"Markov decision process","score":0.6470992565155029},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.6399263739585876},{"id":"https://openalex.org/keywords/memetic-algorithm","display_name":"Memetic algorithm","score":0.573162853717804},{"id":"https://openalex.org/keywords/artificial-neural-network","display_name":"Artificial neural network","score":0.5087218880653381},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.49129146337509155},{"id":"https://openalex.org/keywords/q-learning","display_name":"Q-learning","score":0.4815371632575989},{"id":"https://openalex.org/keywords/markov-chain","display_name":"Markov chain","score":0.47839486598968506},{"id":"https://openalex.org/keywords/convergence","display_name":"Convergence (economics)","score":0.43026939034461975},{"id":"https://openalex.org/keywords/mathematical-optimization","display_name":"Mathematical optimization","score":0.3348653316497803},{"id":"https://openalex.org/keywords/markov-process","display_name":"Markov process","score":0.2934521436691284},{"id":"https://openalex.org/keywords/local-search","display_name":"Local search (optimization)","score":0.21242135763168335},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.12557697296142578}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.8734513521194458},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7425894737243652},{"id":"https://openalex.org/C118070581","wikidata":"https://www.wikidata.org/wiki/Q2060528","display_name":"Neuroevolution","level":3,"score":0.719685971736908},{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.6470992565155029},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6399263739585876},{"id":"https://openalex.org/C35129592","wikidata":"https://www.wikidata.org/wiki/Q324793","display_name":"Memetic algorithm","level":3,"score":0.573162853717804},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.5087218880653381},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.49129146337509155},{"id":"https://openalex.org/C188116033","wikidata":"https://www.wikidata.org/wiki/Q2664563","display_name":"Q-learning","level":3,"score":0.4815371632575989},{"id":"https://openalex.org/C98763669","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov chain","level":2,"score":0.47839486598968506},{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.43026939034461975},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.3348653316497803},{"id":"https://openalex.org/C159886148","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov process","level":2,"score":0.2934521436691284},{"id":"https://openalex.org/C135320971","wikidata":"https://www.wikidata.org/wiki/Q1868524","display_name":"Local search (optimization)","level":2,"score":0.21242135763168335},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.12557697296142578},{"id":"https://openalex.org/C162324750","wikidata":"https://www.wikidata.org/wiki/Q8134","display_name":"Economics","level":0,"score":0.0},{"id":"https://openalex.org/C50522688","wikidata":"https://www.wikidata.org/wiki/Q189833","display_name":"Economic growth","level":1,"score":0.0},{"id":"https://openalex.org/C105795698","wikidata":"https://www.wikidata.org/wiki/Q12483","display_name":"Statistics","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/cec.2019.8789935","is_oa":false,"landing_page_url":"https://doi.org/10.1109/cec.2019.8789935","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2019 IEEE Congress on Evolutionary Computation (CEC)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[{"display_name":"Peace, Justice and strong institutions","score":0.7699999809265137,"id":"https://metadata.un.org/sdg/16"}],"awards":[],"funders":[{"id":"https://openalex.org/F4320317988","display_name":"Artificial Intelligence Research Center","ror":null},{"id":"https://openalex.org/F4320334747","display_name":"Singapore Institute of Manufacturing Technology","ror":"https://ror.org/00f44np30"}],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":48,"referenced_works":["https://openalex.org/W18216792","https://openalex.org/W32403112","https://openalex.org/W402691944","https://openalex.org/W1547737196","https://openalex.org/W1559585589","https://openalex.org/W1590589195","https://openalex.org/W1674110665","https://openalex.org/W1757796397","https://openalex.org/W1949804828","https://openalex.org/W2012771980","https://openalex.org/W2064076655","https://openalex.org/W2091638851","https://openalex.org/W2097437812","https://openalex.org/W2101097701","https://openalex.org/W2111811973","https://openalex.org/W2123859855","https://openalex.org/W2131600418","https://openalex.org/W2137545253","https://openalex.org/W2145339207","https://openalex.org/W2151965738","https://openalex.org/W2154047522","https://openalex.org/W2156737235","https://openalex.org/W2173248099","https://openalex.org/W2257979135","https://openalex.org/W2489370762","https://openalex.org/W2538642367","https://openalex.org/W2557280870","https://openalex.org/W2596367596","https://openalex.org/W2623491082","https://openalex.org/W2624262714","https://openalex.org/W2736601468","https://openalex.org/W2766447205","https://openalex.org/W2778749116","https://openalex.org/W2787259794","https://openalex.org/W2788989367","https://openalex.org/W2963864421","https://openalex.org/W2964025389","https://openalex.org/W3007384386","https://openalex.org/W4298857966","https://openalex.org/W6600754543","https://openalex.org/W6637967152","https://openalex.org/W6682262322","https://openalex.org/W6683195989","https://openalex.org/W6684921986","https://openalex.org/W6735641298","https://openalex.org/W6739193204","https://openalex.org/W6741002519","https://openalex.org/W6746622358"],"related_works":["https://openalex.org/W2811365478","https://openalex.org/W1985560493","https://openalex.org/W2386410636","https://openalex.org/W2145363145","https://openalex.org/W1626977535","https://openalex.org/W1657952107","https://openalex.org/W2341346307","https://openalex.org/W3096874164","https://openalex.org/W2357975469","https://openalex.org/W4400868993"],"abstract_inverted_index":{"Neuroevolution":[0],"(i.e.,":[1,32,46],"training":[2,66],"neural":[3,68],"network":[4,69],"with":[5,110],"Evolution":[6],"Computation)":[7],"has":[8],"successfully":[9],"unfolded":[10],"a":[11,82,140],"range":[12],"of":[13,35,43,60,67,161],"challenging":[14],"reinforcement":[15,84],"learning":[16,85,125],"(RL)":[17],"tasks.":[18],"However,":[19],"existing":[20],"neuroevolution":[21],"methods":[22],"suffer":[23],"from":[24],"high":[25],"sample":[26],"complexity,":[27],"as":[28,70],"the":[29,57,61,65,90,121,128,135,159,162],"black-box":[30,96],"evaluations":[31,97],"accumulated":[33],"rewards":[34],"complete":[36],"Markov":[37,58,129],"Decision":[38],"Processes":[39],"(MDPs))":[40],"discard":[41],"bunches":[42],"temporal":[44,54,73,99],"frames":[45,55,117,132],"time-step":[47],"data":[48],"instances":[49],"in":[50],"MDP).":[51],"Actually,":[52],"these":[53],"hold":[56],"property":[59,130],"problem,":[62],"that":[63,88,144,165],"benefits":[64],"well":[71],"by":[72,93,150],"difference":[74],"(TD)":[75],"learning.":[76,152],"In":[77],"this":[78,102],"paper,":[79],"we":[80],"propose":[81],"memetic":[83,142],"(MRL)":[86],"framework":[87,143],"optimizes":[89],"RL":[91],"agent":[92],"leveraging":[94],"both":[95],"and":[98,123],"frames.":[100],"To":[101],"end,":[103],"an":[104],"evolution":[105],"strategy":[106],"(ES)":[107],"is":[108],"associated":[109],"Q":[111,124,151],"learning,":[112],"where":[113],"ES":[114],"provides":[115],"diversified":[116],"to":[118,133],"globally":[119],"train":[120],"agent,":[122],"locally":[126],"exploits":[127],"within":[131],"refresh":[134],"agent.":[136],"Therefore,":[137],"MRL":[138],"conveys":[139],"novel":[141],"allows":[145],"evaluation":[146],"free":[147],"local":[148],"search":[149],"Experiments":[153],"on":[154],"classical":[155],"control":[156],"problem":[157],"verify":[158],"efficiency":[160],"proposed":[163],"MRL,":[164],"achieves":[166],"significantly":[167],"faster":[168],"convergence":[169],"than":[170],"canonical":[171],"ES.":[172]},"counts_by_year":[{"year":2025,"cited_by_count":1},{"year":2024,"cited_by_count":2},{"year":2021,"cited_by_count":4},{"year":2020,"cited_by_count":1},{"year":2019,"cited_by_count":1}],"updated_date":"2026-07-29T14:22:42.915294","created_date":"2025-10-10T00:00:00"}