{"id":"https://openalex.org/W2024162911","doi":"https://doi.org/10.1080/0020772031000115560","title":"Improved version of the McMurtry-Fu reinforcement learning scheme","display_name":"Improved version of the McMurtry-Fu reinforcement learning scheme","publication_year":2003,"publication_date":"2003-01-01","ids":{"openalex":"https://openalex.org/W2024162911","doi":"https://doi.org/10.1080/0020772031000115560","mag":"2024162911"},"language":"en","primary_location":{"id":"doi:10.1080/0020772031000115560","is_oa":false,"landing_page_url":"https://doi.org/10.1080/0020772031000115560","pdf_url":null,"source":{"id":"https://openalex.org/S129640837","display_name":"International Journal of Systems Science","issn_l":"0020-7721","issn":["0020-7721","1464-5319"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310320547","host_organization_name":"Taylor & Francis","host_organization_lineage":["https://openalex.org/P4310320547"],"host_organization_lineage_names":["Taylor & Francis"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"International Journal of Systems Science","raw_type":"journal-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5063581382","display_name":"N. Kaddour","orcid":null},"institutions":[{"id":"https://openalex.org/I205747304","display_name":"Institut National Polytechnique de Toulouse","ror":"https://ror.org/033p9g875","country_code":"FR","type":"education","lineage":["https://openalex.org/I205747304"]},{"id":"https://openalex.org/I4210097961","display_name":"\u00c9cole Nationale Sup\u00e9rieure des Ing\u00e9nieurs en Arts Chimiques et Technologiques","ror":"https://ror.org/013948m30","country_code":"FR","type":"education","lineage":["https://openalex.org/I205747304","https://openalex.org/I4210097961"]}],"countries":["FR"],"is_corresponding":false,"raw_author_name":"N. Kaddour","raw_affiliation_strings":["Process Control Laboratory , ENSIACET , 118, route de Narbonne, Toulouse cedex 4, F-31077, France"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Process Control Laboratory , ENSIACET , 118, route de Narbonne, Toulouse cedex 4, F-31077, France","institution_ids":["https://openalex.org/I4210097961","https://openalex.org/I205747304"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5044731110","display_name":"Pierre Del Moral","orcid":"https://orcid.org/0000-0003-1151-6662"},"institutions":[{"id":"https://openalex.org/I1294671590","display_name":"Centre National de la Recherche Scientifique","ror":"https://ror.org/02feahw73","country_code":"FR","type":"government","lineage":["https://openalex.org/I1294671590"]},{"id":"https://openalex.org/I134560555","display_name":"Universit\u00e9 Toulouse III - Paul Sabatier","ror":"https://ror.org/02v6kpv12","country_code":"FR","type":"education","lineage":["https://openalex.org/I134560555"]}],"countries":["FR"],"is_corresponding":false,"raw_author_name":"P. Del Moral","raw_affiliation_strings":["Laboratoire de Statistiques et Probabilit\u00e9s , Universit\u00e9 Paul Sabatier , CNRS 118 route de Narbonne, Toulouse cedex, F-31062, France"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Laboratoire de Statistiques et Probabilit\u00e9s , Universit\u00e9 Paul Sabatier , CNRS 118 route de Narbonne, Toulouse cedex, F-31062, France","institution_ids":["https://openalex.org/I134560555","https://openalex.org/I1294671590"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5010211558","display_name":"Enso Ikonen","orcid":"https://orcid.org/0000-0002-8975-2940"},"institutions":[{"id":"https://openalex.org/I98381234","display_name":"University of Oulu","ror":"https://ror.org/03yj89h83","country_code":"FI","type":"education","lineage":["https://openalex.org/I98381234"]}],"countries":["FI"],"is_corresponding":false,"raw_author_name":"E. Ikonen","raw_affiliation_strings":["Department of Process and Environmental Engineering, Systems Engineering Laboratory , University of Oulu , PO Box 4300, FIN-90014, Finland"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Department of Process and Environmental Engineering, Systems Engineering Laboratory , University of Oulu , PO Box 4300, FIN-90014, Finland","institution_ids":["https://openalex.org/I98381234"]}]}],"institutions":[],"countries_distinct_count":2,"institutions_distinct_count":3,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.9377,"has_fulltext":false,"cited_by_count":2,"citation_normalized_percentile":{"value":0.80897236,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":"34","issue":"1","first_page":"37","last_page":"47"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11975","display_name":"Evolutionary Algorithms and Applications","score":0.9976999759674072,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11975","display_name":"Evolutionary Algorithms and Applications","score":0.9976999759674072,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10100","display_name":"Metaheuristic Optimization Algorithms Research","score":0.9955000281333923,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10320","display_name":"Neural Networks and Applications","score":0.9817000031471252,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/realization","display_name":"Realization (probability)","score":0.621748149394989},{"id":"https://openalex.org/keywords/convergence","display_name":"Convergence (economics)","score":0.6110166311264038},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.6022976040840149},{"id":"https://openalex.org/keywords/uniqueness","display_name":"Uniqueness","score":0.588755190372467},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.5771169662475586},{"id":"https://openalex.org/keywords/maximization","display_name":"Maximization","score":0.5687119960784912},{"id":"https://openalex.org/keywords/mathematical-optimization","display_name":"Mathematical optimization","score":0.5507684946060181},{"id":"https://openalex.org/keywords/scheme","display_name":"Scheme (mathematics)","score":0.5133530497550964},{"id":"https://openalex.org/keywords/constraint","display_name":"Constraint (computer-aided design)","score":0.507035493850708},{"id":"https://openalex.org/keywords/representation","display_name":"Representation (politics)","score":0.4993116855621338},{"id":"https://openalex.org/keywords/minification","display_name":"Minification","score":0.4863482117652893},{"id":"https://openalex.org/keywords/projection","display_name":"Projection (relational algebra)","score":0.44275179505348206},{"id":"https://openalex.org/keywords/function","display_name":"Function (biology)","score":0.416523814201355},{"id":"https://openalex.org/keywords/basis","display_name":"Basis (linear algebra)","score":0.41649672389030457},{"id":"https://openalex.org/keywords/algorithm","display_name":"Algorithm","score":0.401452898979187},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.32759350538253784},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.2442587912082672}],"concepts":[{"id":"https://openalex.org/C2781089630","wikidata":"https://www.wikidata.org/wiki/Q21856745","display_name":"Realization (probability)","level":2,"score":0.621748149394989},{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.6110166311264038},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.6022976040840149},{"id":"https://openalex.org/C2777021972","wikidata":"https://www.wikidata.org/wiki/Q22976830","display_name":"Uniqueness","level":2,"score":0.588755190372467},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.5771169662475586},{"id":"https://openalex.org/C2776330181","wikidata":"https://www.wikidata.org/wiki/Q18358244","display_name":"Maximization","level":2,"score":0.5687119960784912},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.5507684946060181},{"id":"https://openalex.org/C77618280","wikidata":"https://www.wikidata.org/wiki/Q1155772","display_name":"Scheme (mathematics)","level":2,"score":0.5133530497550964},{"id":"https://openalex.org/C2776036281","wikidata":"https://www.wikidata.org/wiki/Q48769818","display_name":"Constraint (computer-aided design)","level":2,"score":0.507035493850708},{"id":"https://openalex.org/C2776359362","wikidata":"https://www.wikidata.org/wiki/Q2145286","display_name":"Representation (politics)","level":3,"score":0.4993116855621338},{"id":"https://openalex.org/C147764199","wikidata":"https://www.wikidata.org/wiki/Q6865248","display_name":"Minification","level":2,"score":0.4863482117652893},{"id":"https://openalex.org/C57493831","wikidata":"https://www.wikidata.org/wiki/Q3134666","display_name":"Projection (relational algebra)","level":2,"score":0.44275179505348206},{"id":"https://openalex.org/C14036430","wikidata":"https://www.wikidata.org/wiki/Q3736076","display_name":"Function (biology)","level":2,"score":0.416523814201355},{"id":"https://openalex.org/C12426560","wikidata":"https://www.wikidata.org/wiki/Q189569","display_name":"Basis (linear algebra)","level":2,"score":0.41649672389030457},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.401452898979187},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.32759350538253784},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.2442587912082672},{"id":"https://openalex.org/C94625758","wikidata":"https://www.wikidata.org/wiki/Q7163","display_name":"Politics","level":2,"score":0.0},{"id":"https://openalex.org/C50522688","wikidata":"https://www.wikidata.org/wiki/Q189833","display_name":"Economic growth","level":1,"score":0.0},{"id":"https://openalex.org/C78458016","wikidata":"https://www.wikidata.org/wiki/Q840400","display_name":"Evolutionary biology","level":1,"score":0.0},{"id":"https://openalex.org/C199539241","wikidata":"https://www.wikidata.org/wiki/Q7748","display_name":"Law","level":1,"score":0.0},{"id":"https://openalex.org/C105795698","wikidata":"https://www.wikidata.org/wiki/Q12483","display_name":"Statistics","level":1,"score":0.0},{"id":"https://openalex.org/C2524010","wikidata":"https://www.wikidata.org/wiki/Q8087","display_name":"Geometry","level":1,"score":0.0},{"id":"https://openalex.org/C86803240","wikidata":"https://www.wikidata.org/wiki/Q420","display_name":"Biology","level":0,"score":0.0},{"id":"https://openalex.org/C162324750","wikidata":"https://www.wikidata.org/wiki/Q8134","display_name":"Economics","level":0,"score":0.0},{"id":"https://openalex.org/C134306372","wikidata":"https://www.wikidata.org/wiki/Q7754","display_name":"Mathematical analysis","level":1,"score":0.0},{"id":"https://openalex.org/C17744445","wikidata":"https://www.wikidata.org/wiki/Q36442","display_name":"Political science","level":0,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1080/0020772031000115560","is_oa":false,"landing_page_url":"https://doi.org/10.1080/0020772031000115560","pdf_url":null,"source":{"id":"https://openalex.org/S129640837","display_name":"International Journal of Systems Science","issn_l":"0020-7721","issn":["0020-7721","1464-5319"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310320547","host_organization_name":"Taylor & Francis","host_organization_lineage":["https://openalex.org/P4310320547"],"host_organization_lineage_names":["Taylor & Francis"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"International Journal of Systems Science","raw_type":"journal-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":["https://openalex.org/W1503928701","https://openalex.org/W2900864464","https://openalex.org/W2475480881","https://openalex.org/W2121723556","https://openalex.org/W2288977275","https://openalex.org/W54727051","https://openalex.org/W2783639087","https://openalex.org/W2155956102","https://openalex.org/W2390244926","https://openalex.org/W2112820851"],"abstract_inverted_index":{"An":[0],"improved":[1],"version":[2],"of":[3,33,43,68,79,87,107],"the":[4,28,34,41,44,77,80,102,105],"reinforcement":[5],"scheme":[6],"originally":[7],"developed":[8],"by":[9],"McMurtry":[10],"and":[11,31,64,92,104],"Fu":[12],"is":[13,49,59],"presented.":[14],"A":[15,61],"projection":[16],"procedure":[17],"as":[18,20],"well":[19],"a":[21,65],"regularizing":[22,57],"parameter":[23,58],"are":[24,74,95],"introduced":[25],"to":[26,46,51],"ensure":[27],"probability":[29],"measure":[30],"uniqueness":[32],"solution.":[35],"To":[36],"prevent":[37],"degenerate":[38],"situations":[39],"where":[40],"realization":[42],"function":[45],"be":[47],"optimized":[48],"equal":[50],"zero,":[52],"an":[53],"auxiliary":[54],"strictly":[55],"positive":[56],"introduced.":[60],"vector":[62],"representation":[63],"convergence":[66,82],"analysis":[67],"this":[69,108],"multimodal":[70],"one-dimensional":[71],"search":[72],"technique":[73],"derived":[75],"on":[76,84],"basis":[78],"traditional":[81],"results":[83,100],"Robbins-Monro":[85],"type":[86],"stochastic":[88],"algorithms.":[89],"Global":[90],"maximization":[91],"minimization":[93],"problems":[94],"discussed.":[96],"Finally,":[97],"some":[98],"simulation":[99],"illustrate":[101],"performance":[103],"feasibility":[106],"self-learning":[109],"optimization":[110],"algorithm.":[111]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2025-10-10T00:00:00"}