{"id":"https://openalex.org/W2135826251","doi":"https://doi.org/10.1109/adprl.2009.4927539","title":"Policy search with cross-entropy optimization of basis functions","display_name":"Policy search with cross-entropy optimization of basis functions","publication_year":2009,"publication_date":"2009-03-01","ids":{"openalex":"https://openalex.org/W2135826251","doi":"https://doi.org/10.1109/adprl.2009.4927539","mag":"2135826251"},"language":"en","primary_location":{"id":"doi:10.1109/adprl.2009.4927539","is_oa":false,"landing_page_url":"https://doi.org/10.1109/adprl.2009.4927539","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2009 IEEE Symposium on Adaptive Dynamic Programming and Reinforcement Learning","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["crossref"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://orbi.uliege.be/handle/2268/13666","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5058935509","display_name":"Lucian Bu\u015foniu","orcid":"https://orcid.org/0000-0001-8017-1296"},"institutions":[{"id":"https://openalex.org/I98358874","display_name":"Delft University of Technology","ror":"https://ror.org/02e2c7k09","country_code":"NL","type":"education","lineage":["https://openalex.org/I98358874"]}],"countries":["NL"],"is_corresponding":false,"raw_author_name":"Lucian Busoniu","raw_affiliation_strings":["Center of Systems and Control, Delft University of Technnology, Netherlands","Center for Systems and Control of the Delft University of Technology, The Netherlands"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Center of Systems and Control, Delft University of Technnology, Netherlands","institution_ids":["https://openalex.org/I98358874"]},{"raw_affiliation_string":"Center for Systems and Control of the Delft University of Technology, The Netherlands","institution_ids":["https://openalex.org/I98358874"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5077011518","display_name":"Damien Ernst","orcid":"https://orcid.org/0000-0002-3035-8260"},"institutions":[{"id":"https://openalex.org/I157674565","display_name":"University of Li\u00e8ge","ror":"https://ror.org/00afp2z80","country_code":"BE","type":"education","lineage":["https://openalex.org/I157674565"]}],"countries":["BE"],"is_corresponding":false,"raw_author_name":"Damien Ernst","raw_affiliation_strings":["Systems and Modeling Unit, University of Li\u00e8ge, Belgium","Belgian FNRS, Belgium"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Systems and Modeling Unit, University of Li\u00e8ge, Belgium","institution_ids":["https://openalex.org/I157674565"]},{"raw_affiliation_string":"Belgian FNRS, Belgium","institution_ids":[]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5026547410","display_name":"Bart De Schutter","orcid":"https://orcid.org/0000-0001-9867-6196"},"institutions":[{"id":"https://openalex.org/I98358874","display_name":"Delft University of Technology","ror":"https://ror.org/02e2c7k09","country_code":"NL","type":"education","lineage":["https://openalex.org/I98358874"]}],"countries":["NL"],"is_corresponding":false,"raw_author_name":"Bart De Schutter","raw_affiliation_strings":["Marine and Transport Technology Department, Technische Universitat Delft, Netherlands","Center for Systems and Control of the Delft University of Technology, The Netherlands"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Marine and Transport Technology Department, Technische Universitat Delft, Netherlands","institution_ids":["https://openalex.org/I98358874"]},{"raw_affiliation_string":"Center for Systems and Control of the Delft University of Technology, The Netherlands","institution_ids":["https://openalex.org/I98358874"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5084264842","display_name":"Robert Babu\u0161ka","orcid":"https://orcid.org/0000-0001-9578-8598"},"institutions":[{"id":"https://openalex.org/I98358874","display_name":"Delft University of Technology","ror":"https://ror.org/02e2c7k09","country_code":"NL","type":"education","lineage":["https://openalex.org/I98358874"]}],"countries":["NL"],"is_corresponding":false,"raw_author_name":"Robert Babuska","raw_affiliation_strings":["Center of Systems and Control, Delft University of Technnology, Netherlands","Center for Systems and Control of the Delft University of Technology, The Netherlands"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Center of Systems and Control, Delft University of Technnology, Netherlands","institution_ids":["https://openalex.org/I98358874"]},{"raw_affiliation_string":"Center for Systems and Control of the Delft University of Technology, The Netherlands","institution_ids":["https://openalex.org/I98358874"]}]}],"institutions":[],"countries_distinct_count":2,"institutions_distinct_count":2,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":12,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":"4865","issue":null,"first_page":"153","last_page":"160"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9994000196456909,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9994000196456909,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12072","display_name":"Machine Learning and Algorithms","score":0.9722999930381775,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11195","display_name":"Simulation Techniques and Applications","score":0.9562000036239624,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/basis-function","display_name":"Basis function","score":0.664297878742218},{"id":"https://openalex.org/keywords/mathematical-optimization","display_name":"Mathematical optimization","score":0.6613331437110901},{"id":"https://openalex.org/keywords/basis","display_name":"Basis (linear algebra)","score":0.639216959476471},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.6322548985481262},{"id":"https://openalex.org/keywords/cross-entropy-method","display_name":"Cross-entropy method","score":0.6134787797927856},{"id":"https://openalex.org/keywords/markov-decision-process","display_name":"Markov decision process","score":0.6128205060958862},{"id":"https://openalex.org/keywords/entropy","display_name":"Entropy (arrow of time)","score":0.5195532441139221},{"id":"https://openalex.org/keywords/cross-entropy","display_name":"Cross entropy","score":0.49160629510879517},{"id":"https://openalex.org/keywords/set","display_name":"Set (abstract data type)","score":0.42211657762527466},{"id":"https://openalex.org/keywords/markov-process","display_name":"Markov process","score":0.39346423745155334},{"id":"https://openalex.org/keywords/principle-of-maximum-entropy","display_name":"Principle of maximum entropy","score":0.37239956855773926},{"id":"https://openalex.org/keywords/algorithm","display_name":"Algorithm","score":0.3553597331047058},{"id":"https://openalex.org/keywords/optimization-problem","display_name":"Optimization problem","score":0.3389417827129364},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.2963787615299225},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.14568451046943665}],"concepts":[{"id":"https://openalex.org/C5917680","wikidata":"https://www.wikidata.org/wiki/Q2621825","display_name":"Basis function","level":2,"score":0.664297878742218},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.6613331437110901},{"id":"https://openalex.org/C12426560","wikidata":"https://www.wikidata.org/wiki/Q189569","display_name":"Basis (linear algebra)","level":2,"score":0.639216959476471},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6322548985481262},{"id":"https://openalex.org/C75782508","wikidata":"https://www.wikidata.org/wiki/Q3333633","display_name":"Cross-entropy method","level":4,"score":0.6134787797927856},{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.6128205060958862},{"id":"https://openalex.org/C106301342","wikidata":"https://www.wikidata.org/wiki/Q4117933","display_name":"Entropy (arrow of time)","level":2,"score":0.5195532441139221},{"id":"https://openalex.org/C167981619","wikidata":"https://www.wikidata.org/wiki/Q1685498","display_name":"Cross entropy","level":3,"score":0.49160629510879517},{"id":"https://openalex.org/C177264268","wikidata":"https://www.wikidata.org/wiki/Q1514741","display_name":"Set (abstract data type)","level":2,"score":0.42211657762527466},{"id":"https://openalex.org/C159886148","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov process","level":2,"score":0.39346423745155334},{"id":"https://openalex.org/C9679016","wikidata":"https://www.wikidata.org/wiki/Q1417473","display_name":"Principle of maximum entropy","level":2,"score":0.37239956855773926},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.3553597331047058},{"id":"https://openalex.org/C137836250","wikidata":"https://www.wikidata.org/wiki/Q984063","display_name":"Optimization problem","level":2,"score":0.3389417827129364},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.2963787615299225},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.14568451046943665},{"id":"https://openalex.org/C2524010","wikidata":"https://www.wikidata.org/wiki/Q8087","display_name":"Geometry","level":1,"score":0.0},{"id":"https://openalex.org/C62520636","wikidata":"https://www.wikidata.org/wiki/Q944","display_name":"Quantum mechanics","level":1,"score":0.0},{"id":"https://openalex.org/C134306372","wikidata":"https://www.wikidata.org/wiki/Q7754","display_name":"Mathematical analysis","level":1,"score":0.0},{"id":"https://openalex.org/C121332964","wikidata":"https://www.wikidata.org/wiki/Q413","display_name":"Physics","level":0,"score":0.0},{"id":"https://openalex.org/C98036226","wikidata":"https://www.wikidata.org/wiki/Q7268356","display_name":"Quadratic assignment problem","level":3,"score":0.0},{"id":"https://openalex.org/C105795698","wikidata":"https://www.wikidata.org/wiki/Q12483","display_name":"Statistics","level":1,"score":0.0},{"id":"https://openalex.org/C199360897","wikidata":"https://www.wikidata.org/wiki/Q9143","display_name":"Programming language","level":1,"score":0.0}],"mesh":[],"locations_count":2,"locations":[{"id":"doi:10.1109/adprl.2009.4927539","is_oa":false,"landing_page_url":"https://doi.org/10.1109/adprl.2009.4927539","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2009 IEEE Symposium on Adaptive Dynamic Programming and Reinforcement Learning","raw_type":"proceedings-article"},{"id":"pmh:oai:orbi.ulg.ac.be:2268/13666","is_oa":true,"landing_page_url":"https://orbi.uliege.be/handle/2268/13666","pdf_url":null,"source":{"id":"https://openalex.org/S4306400651","display_name":"Open Repository and Bibliography (University of Li\u00e8ge)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I157674565","host_organization_name":"University of Li\u00e8ge","host_organization_lineage":["https://openalex.org/I157674565"],"host_organization_lineage_names":[],"type":"repository"},"license":"other-oa","license_id":"https://openalex.org/licenses/other-oa","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":"Proceedings of the IEEE International Symposium on Adaptive Dynamic Programming and Reinforcement Learning (ADPRL-09), 153-160 (2009); IEEE International Symposium on Adaptive Dynamic Programming and Reinforcement Learning (ADPRL-09), Nashville, United States [US], March 30 - April 2, 2009","raw_type":"http://purl.org/coar/resource_type/c_5794"}],"best_oa_location":{"id":"pmh:oai:orbi.ulg.ac.be:2268/13666","is_oa":true,"landing_page_url":"https://orbi.uliege.be/handle/2268/13666","pdf_url":null,"source":{"id":"https://openalex.org/S4306400651","display_name":"Open Repository and Bibliography (University of Li\u00e8ge)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I157674565","host_organization_name":"University of Li\u00e8ge","host_organization_lineage":["https://openalex.org/I157674565"],"host_organization_lineage_names":[],"type":"repository"},"license":"other-oa","license_id":"https://openalex.org/licenses/other-oa","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":"Proceedings of the IEEE International Symposium on Adaptive Dynamic Programming and Reinforcement Learning (ADPRL-09), 153-160 (2009); IEEE International Symposium on Adaptive Dynamic Programming and Reinforcement Learning (ADPRL-09), Nashville, United States [US], March 30 - April 2, 2009","raw_type":"http://purl.org/coar/resource_type/c_5794"},"sustainable_development_goals":[{"id":"https://metadata.un.org/sdg/16","score":0.7699999809265137,"display_name":"Peace, Justice and strong institutions"}],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":29,"referenced_works":["https://openalex.org/W155952036","https://openalex.org/W1499408472","https://openalex.org/W1502364872","https://openalex.org/W1522950143","https://openalex.org/W1544598807","https://openalex.org/W1552830313","https://openalex.org/W1554366315","https://openalex.org/W2009303086","https://openalex.org/W2098432798","https://openalex.org/W2100857832","https://openalex.org/W2116339921","https://openalex.org/W2120346334","https://openalex.org/W2121863487","https://openalex.org/W2133615895","https://openalex.org/W2143803054","https://openalex.org/W2155027007","https://openalex.org/W2161795906","https://openalex.org/W2163302320","https://openalex.org/W3027095131","https://openalex.org/W4214717370","https://openalex.org/W4242606736","https://openalex.org/W4253187718","https://openalex.org/W4285719527","https://openalex.org/W6677193802","https://openalex.org/W6677737365","https://openalex.org/W6681183203","https://openalex.org/W6683204974","https://openalex.org/W6683841269","https://openalex.org/W6684126333"],"related_works":["https://openalex.org/W2080931671","https://openalex.org/W1584645679","https://openalex.org/W2400292122","https://openalex.org/W2770616710","https://openalex.org/W2052147111","https://openalex.org/W1980187201","https://openalex.org/W286550118","https://openalex.org/W2088933359","https://openalex.org/W3122506910","https://openalex.org/W2132083787"],"abstract_inverted_index":{"This":[0,90],"paper":[1],"introduces":[2],"a":[3,36,59,66,92,118,138],"novel":[4,33],"algorithm":[5,34,47,131],"for":[6,27,41,49],"approximate":[7],"policy":[8,18,38,53],"search":[9,19],"in":[10,128],"continuous-state,":[11],"discrete-action":[12,44],"Markov":[13],"decision":[14],"processes":[15],"(MDPs).":[16],"Previous":[17],"approaches":[20],"have":[21],"typically":[22],"used":[23],"ad-hoc":[24],"parameterizations":[25],"developed":[26],"specific":[28],"MDPs.":[29,45],"In":[30],"contrast,":[31],"the":[32,50,80,87,106,111,130],"employs":[35],"flexible":[37],"parameterization,":[39],"suitable":[40],"solving":[42],"general":[43],"The":[46,75,100],"looks":[48],"best":[51],"closed-loop":[52],"that":[54],"can":[55],"be":[56,98],"represented":[57],"using":[58],"given":[60],"number":[61,140],"of":[62,79,95,121,141],"basis":[63,73,81,142],"functions,":[64,143],"where":[65],"discrete":[67],"action":[68,88],"is":[69,102],"assigned":[70],"to":[71,97],"each":[72],"function.":[74],"locations":[76],"and":[77,109],"shapes":[78],"functions":[82],"are":[83],"optimized,":[84],"together":[85],"with":[86,105,136],"assignments.":[89],"allows":[91],"large":[93],"class":[94],"policies":[96,112,135],"represented.":[99],"optimization":[101],"carried":[103],"out":[104],"cross-entropy":[107],"method":[108],"evaluates":[110],"by":[113],"their":[114],"empirical":[115],"return":[116],"from":[117],"representative":[119],"set":[120],"initial":[122],"states.":[123],"We":[124],"report":[125],"simulation":[126],"experiments":[127],"which":[129],"reliably":[132],"obtains":[133],"good":[134],"only":[137],"small":[139],"albeit":[144],"at":[145],"sizable":[146],"computational":[147],"costs.":[148]},"counts_by_year":[{"year":2020,"cited_by_count":1},{"year":2019,"cited_by_count":3},{"year":2018,"cited_by_count":1},{"year":2016,"cited_by_count":2}],"updated_date":"2026-07-19T07:52:34.831488","created_date":"2025-10-10T00:00:00"}