{"id":"https://openalex.org/W1967835318","doi":"https://doi.org/10.1002/(sici)1098-111x(199710)12:10<695::aid-int1>3.0.co;2-t","title":"Training and delayed reinforcements in Q-learning agents","display_name":"Training and delayed reinforcements in Q-learning agents","publication_year":1997,"publication_date":"1997-10-01","ids":{"openalex":"https://openalex.org/W1967835318","doi":"https://doi.org/10.1002/(sici)1098-111x(199710)12:10<695::aid-int1>3.0.co;2-t","mag":"1967835318"},"language":"en","primary_location":{"id":"doi:10.1002/(sici)1098-111x(199710)12:10<695::aid-int1>3.0.co;2-t","is_oa":false,"landing_page_url":"https://doi.org/10.1002/(sici)1098-111x(199710)12:10<695::aid-int1>3.0.co;2-t","pdf_url":null,"source":{"id":"https://openalex.org/S57950554","display_name":"International Journal of Intelligent Systems","issn_l":"0884-8173","issn":["0884-8173","1098-111X"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310320595","host_organization_name":"Wiley","host_organization_lineage":["https://openalex.org/P4310320595"],"host_organization_lineage_names":["Wiley"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"International Journal of Intelligent Systems","raw_type":"journal-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":null,"display_name":"Pierguido V. C. Caironi","orcid":null},"institutions":[{"id":"https://openalex.org/I93860229","display_name":"Politecnico di Milano","ror":"https://ror.org/01nffqt88","country_code":"IT","type":"education","lineage":["https://openalex.org/I93860229"]}],"countries":["IT"],"is_corresponding":true,"raw_author_name":"Pierguido V. C. Caironi","raw_affiliation_strings":["Progetto di Intelligenza Artificiale e Robotica, Dipartimento di Elettronica e Informazione, Politecnico di Milano, Piazza Leonardo da Vinci 32, 20133 Milano, Italy","Progetto di Intelligenza Artificiale e Robotica, Dipartimento di Elettronica e Informazione, Politecnico di Milano, Piazza Leonardo da Vinci, 32, 20133 Milano, Italy"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Progetto di Intelligenza Artificiale e Robotica, Dipartimento di Elettronica e Informazione, Politecnico di Milano, Piazza Leonardo da Vinci 32, 20133 Milano, Italy","institution_ids":["https://openalex.org/I93860229"]},{"raw_affiliation_string":"Progetto di Intelligenza Artificiale e Robotica, Dipartimento di Elettronica e Informazione, Politecnico di Milano, Piazza Leonardo da Vinci, 32, 20133 Milano, Italy","institution_ids":["https://openalex.org/I93860229"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5024091899","display_name":"Marco Dorigo","orcid":"https://orcid.org/0000-0002-3971-0507"},"institutions":[{"id":"https://openalex.org/I132053463","display_name":"Universit\u00e9 Libre de Bruxelles","ror":"https://ror.org/01r9htc13","country_code":"BE","type":"education","lineage":["https://openalex.org/I132053463"]}],"countries":["BE"],"is_corresponding":true,"raw_author_name":"Marco Dorigo","raw_affiliation_strings":["IRIDIA, Universite\u0301 Libre de Bruxelles, Avenue Franklin Roosevelt 50, CP 194/6, 1050 Bruxelles, Belgium","IRIDIA, Universit\u00e9 Libre de Bruxelles, Avenue Franklin Roosevelt 50, CP 194/6, 1050 Bruxelles, Belgium"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"IRIDIA, Universite\u0301 Libre de Bruxelles, Avenue Franklin Roosevelt 50, CP 194/6, 1050 Bruxelles, Belgium","institution_ids":["https://openalex.org/I132053463"]},{"raw_affiliation_string":"IRIDIA, Universit\u00e9 Libre de Bruxelles, Avenue Franklin Roosevelt 50, CP 194/6, 1050 Bruxelles, Belgium","institution_ids":["https://openalex.org/I132053463"]}]}],"institutions":[],"countries_distinct_count":2,"institutions_distinct_count":2,"corresponding_author_ids":["https://openalex.org/A5024091899"],"corresponding_institution_ids":["https://openalex.org/I132053463","https://openalex.org/I93860229"],"apc_list":{"value":2500,"currency":"USD","value_usd":2500},"apc_paid":null,"fwci":1.7956,"has_fulltext":false,"cited_by_count":21,"citation_normalized_percentile":{"value":0.86263131,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":89,"max":94},"biblio":{"volume":"12","issue":"10","first_page":"695","last_page":"724"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9991000294685364,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9991000294685364,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11975","display_name":"Evolutionary Algorithms and Applications","score":0.9984999895095825,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10100","display_name":"Metaheuristic Optimization Algorithms Research","score":0.9940000176429749,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.830832302570343},{"id":"https://openalex.org/keywords/trainer","display_name":"Trainer","score":0.7453778982162476},{"id":"https://openalex.org/keywords/reinforcement","display_name":"Reinforcement","score":0.6724079847335815},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.623085081577301},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.5406325459480286},{"id":"https://openalex.org/keywords/simple","display_name":"Simple (philosophy)","score":0.5378237366676331},{"id":"https://openalex.org/keywords/exploit","display_name":"Exploit","score":0.5338184833526611},{"id":"https://openalex.org/keywords/convergence","display_name":"Convergence (economics)","score":0.5067756772041321},{"id":"https://openalex.org/keywords/grid","display_name":"Grid","score":0.486578106880188},{"id":"https://openalex.org/keywords/q-learning","display_name":"Q-learning","score":0.46169862151145935},{"id":"https://openalex.org/keywords/state","display_name":"State (computer science)","score":0.42665958404541016},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.348554402589798},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.19698289036750793},{"id":"https://openalex.org/keywords/algorithm","display_name":"Algorithm","score":0.16812565922737122},{"id":"https://openalex.org/keywords/computer-security","display_name":"Computer security","score":0.12346693873405457},{"id":"https://openalex.org/keywords/psychology","display_name":"Psychology","score":0.1067785918712616},{"id":"https://openalex.org/keywords/social-psychology","display_name":"Social psychology","score":0.06297299265861511}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.830832302570343},{"id":"https://openalex.org/C2780463512","wikidata":"https://www.wikidata.org/wiki/Q15122700","display_name":"Trainer","level":2,"score":0.7453778982162476},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.6724079847335815},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.623085081577301},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.5406325459480286},{"id":"https://openalex.org/C2780586882","wikidata":"https://www.wikidata.org/wiki/Q7520643","display_name":"Simple (philosophy)","level":2,"score":0.5378237366676331},{"id":"https://openalex.org/C165696696","wikidata":"https://www.wikidata.org/wiki/Q11287","display_name":"Exploit","level":2,"score":0.5338184833526611},{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.5067756772041321},{"id":"https://openalex.org/C187691185","wikidata":"https://www.wikidata.org/wiki/Q2020720","display_name":"Grid","level":2,"score":0.486578106880188},{"id":"https://openalex.org/C188116033","wikidata":"https://www.wikidata.org/wiki/Q2664563","display_name":"Q-learning","level":3,"score":0.46169862151145935},{"id":"https://openalex.org/C48103436","wikidata":"https://www.wikidata.org/wiki/Q599031","display_name":"State (computer science)","level":2,"score":0.42665958404541016},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.348554402589798},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.19698289036750793},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.16812565922737122},{"id":"https://openalex.org/C38652104","wikidata":"https://www.wikidata.org/wiki/Q3510521","display_name":"Computer security","level":1,"score":0.12346693873405457},{"id":"https://openalex.org/C15744967","wikidata":"https://www.wikidata.org/wiki/Q9418","display_name":"Psychology","level":0,"score":0.1067785918712616},{"id":"https://openalex.org/C77805123","wikidata":"https://www.wikidata.org/wiki/Q161272","display_name":"Social psychology","level":1,"score":0.06297299265861511},{"id":"https://openalex.org/C2524010","wikidata":"https://www.wikidata.org/wiki/Q8087","display_name":"Geometry","level":1,"score":0.0},{"id":"https://openalex.org/C162324750","wikidata":"https://www.wikidata.org/wiki/Q8134","display_name":"Economics","level":0,"score":0.0},{"id":"https://openalex.org/C199360897","wikidata":"https://www.wikidata.org/wiki/Q9143","display_name":"Programming language","level":1,"score":0.0},{"id":"https://openalex.org/C138885662","wikidata":"https://www.wikidata.org/wiki/Q5891","display_name":"Philosophy","level":0,"score":0.0},{"id":"https://openalex.org/C111472728","wikidata":"https://www.wikidata.org/wiki/Q9471","display_name":"Epistemology","level":1,"score":0.0},{"id":"https://openalex.org/C50522688","wikidata":"https://www.wikidata.org/wiki/Q189833","display_name":"Economic growth","level":1,"score":0.0}],"mesh":[],"locations_count":3,"locations":[{"id":"doi:10.1002/(sici)1098-111x(199710)12:10<695::aid-int1>3.0.co;2-t","is_oa":false,"landing_page_url":"https://doi.org/10.1002/(sici)1098-111x(199710)12:10<695::aid-int1>3.0.co;2-t","pdf_url":null,"source":{"id":"https://openalex.org/S57950554","display_name":"International Journal of Intelligent Systems","issn_l":"0884-8173","issn":["0884-8173","1098-111X"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310320595","host_organization_name":"Wiley","host_organization_lineage":["https://openalex.org/P4310320595"],"host_organization_lineage_names":["Wiley"],"type":"journal"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"International Journal of Intelligent Systems","raw_type":"journal-article"},{"id":"pmh:oai:CiteSeerX.psu:10.1.1.48.5536","is_oa":false,"landing_page_url":"http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.48.5536","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":"ftp://iridia.ulb.ac.be/pub/mdorigo/journals/IJ.14-IJIS97.ps.gz","raw_type":"text"},{"id":"pmh:oai:dipot.ulb.ac.be:2013/70133","is_oa":false,"landing_page_url":"http://hdl.handle.net/2013/ULB-DIPOT:oai:dipot.ulb.ac.be:2013/70133","pdf_url":null,"source":{"id":"https://openalex.org/S4306401063","display_name":"D\u00e9p\u00f4t institutionnel de l'Universit\u00e9 libre de Bruxelles (Universit\u00e9 Libre de Bruxelles)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I132053463","host_organization_name":"Universit\u00e9 Libre de Bruxelles","host_organization_lineage":["https://openalex.org/I132053463"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":"International journal of intelligent systems, 12 (10","raw_type":"info:eu-repo/semantics/article"}],"best_oa_location":null,"sustainable_development_goals":[{"id":"https://metadata.un.org/sdg/16","score":0.6800000071525574,"display_name":"Peace, Justice and strong institutions"}],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":20,"referenced_works":["https://openalex.org/W145683767","https://openalex.org/W1491843047","https://openalex.org/W1504212531","https://openalex.org/W1550254230","https://openalex.org/W1569296262","https://openalex.org/W1574007253","https://openalex.org/W1595483645","https://openalex.org/W1606545986","https://openalex.org/W1610678877","https://openalex.org/W1979071892","https://openalex.org/W2002664886","https://openalex.org/W2065356613","https://openalex.org/W2071311198","https://openalex.org/W2100677568","https://openalex.org/W2134814908","https://openalex.org/W2139465937","https://openalex.org/W2141559645","https://openalex.org/W2152166054","https://openalex.org/W2154549708","https://openalex.org/W3037058914"],"related_works":["https://openalex.org/W3096874164","https://openalex.org/W4376605461","https://openalex.org/W2357975469","https://openalex.org/W2136202932","https://openalex.org/W3087814763","https://openalex.org/W2892507673","https://openalex.org/W2361647908","https://openalex.org/W2937181779","https://openalex.org/W2537866915","https://openalex.org/W2089415692"],"abstract_inverted_index":{"Q-learning":[0,99],"can":[1],"greatly":[2],"improve":[3],"its":[4],"convergence":[5],"speed":[6],"if":[7],"helped":[8],"by":[9,13],"immediate":[10,44],"reinforcements":[11,45,53,55],"provided":[12],"a":[14,63,72,130,134,136,144],"trainer":[15],"able":[16,83],"to":[17,28,84,142],"judge":[18],"the":[19,29,32,41,59,69,108],"usefulness":[20],"of":[21,31,43,115,123],"actions":[22],"as":[23,67],"stage":[24],"setting":[25],"with":[26,50],"respect":[27],"goal":[30],"agent.":[33],"This":[34],"article":[35,75],"experimentally":[36],"investigates":[37],"this":[38],"hypothesis":[39],"studying":[40],"integration":[42],"(also":[46],"called":[47],"training":[48,91,124],"reinforcements)":[49],"standard":[51],"delayed":[52],"(namely,":[54],"assigned":[56],"only":[57],"when":[58,68],"agent\u2013environment":[60],"relationship":[61],"reaches":[62,71],"peculiar":[64],"state,":[65],"such":[66],"agent":[70],"target).":[73],"The":[74,93],"proposes":[76],"two":[77],"new":[78],"algorithms":[79,95,102],"(TL":[80],"and":[81,89,100,104],"MTL)":[82],"exploit":[85],"even":[86],"locally":[87],"wrong":[88],"misleading":[90],"reinforcements.":[92,125],"proposed":[94],"are":[96,127],"tested":[97],"against":[98],"other":[101],"(AB\u2013LEC":[103],"BB\u2013LEC)":[105],"described":[106],"in":[107,129],"literature":[109],"[S.":[110],"D.":[111],"Whitehead,":[112],"TR-365,":[113],"University":[114],"Rochester,":[116],"NY,":[117],"1991],":[118],"which":[119],"also":[120],"make":[121],"use":[122],"Experiments":[126],"run":[128],"grid":[131],"world":[132],"where":[133],"Q-agent,":[135],"simple":[137],"simulated":[138],"robot,":[139],"must":[140],"learn":[141],"reach":[143],"target.":[145],"\u00a9":[146],"1997":[147],"John":[148],"Wiley":[149],"&":[150],"Sons,":[151],"Inc.":[152]},"counts_by_year":[{"year":2024,"cited_by_count":1},{"year":2023,"cited_by_count":1},{"year":2020,"cited_by_count":1},{"year":2018,"cited_by_count":1},{"year":2012,"cited_by_count":1}],"updated_date":"2025-11-06T03:46:38.306776","created_date":"2025-10-10T00:00:00"}