{"id":"https://openalex.org/W4319075639","doi":"https://doi.org/10.1007/s10489-022-04297-3","title":"Off-policy and on-policy reinforcement learning with the Tsetlin machine","display_name":"Off-policy and on-policy reinforcement learning with the Tsetlin machine","publication_year":2023,"publication_date":"2023-02-03","ids":{"openalex":"https://openalex.org/W4319075639","doi":"https://doi.org/10.1007/s10489-022-04297-3"},"language":"en","primary_location":{"id":"doi:10.1007/s10489-022-04297-3","is_oa":true,"landing_page_url":"https://doi.org/10.1007/s10489-022-04297-3","pdf_url":"https://link.springer.com/content/pdf/10.1007/s10489-022-04297-3.pdf","source":{"id":"https://openalex.org/S74726891","display_name":"Applied Intelligence","issn_l":"0924-669X","issn":["0924-669X","1573-7497"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310319900","host_organization_name":"Springer Science+Business Media","host_organization_lineage":["https://openalex.org/P4310319900","https://openalex.org/P4310319965"],"host_organization_lineage_names":["Springer Science+Business Media","Springer Nature"],"type":"journal"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Applied Intelligence","raw_type":"journal-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":true,"oa_status":"hybrid","oa_url":"https://link.springer.com/content/pdf/10.1007/s10489-022-04297-3.pdf","any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5074890896","display_name":"Saeed Rahimi Gorji","orcid":"https://orcid.org/0000-0002-2699-9903"},"institutions":[{"id":"https://openalex.org/I200650556","display_name":"University of Agder","ror":"https://ror.org/03x297z98","country_code":"NO","type":"education","lineage":["https://openalex.org/I200650556"]}],"countries":["NO"],"is_corresponding":true,"raw_author_name":"Saeed Rahimi Gorji","raw_affiliation_strings":["Centre for Artificial Intelligence Research, University of Agder, Grimstad, Norway"],"raw_orcid":"https://orcid.org/0000-0002-2699-9903","affiliations":[{"raw_affiliation_string":"Centre for Artificial Intelligence Research, University of Agder, Grimstad, Norway","institution_ids":["https://openalex.org/I200650556"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5071922620","display_name":"Ole\u2010Christoffer Granmo","orcid":"https://orcid.org/0000-0002-7287-030X"},"institutions":[{"id":"https://openalex.org/I200650556","display_name":"University of Agder","ror":"https://ror.org/03x297z98","country_code":"NO","type":"education","lineage":["https://openalex.org/I200650556"]}],"countries":["NO"],"is_corresponding":false,"raw_author_name":"Ole-Christoffer Granmo","raw_affiliation_strings":["Centre for Artificial Intelligence Research, University of Agder, Grimstad, Norway"],"raw_orcid":"https://orcid.org/0000-0002-7287-030X","affiliations":[{"raw_affiliation_string":"Centre for Artificial Intelligence Research, University of Agder, Grimstad, Norway","institution_ids":["https://openalex.org/I200650556"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":["https://openalex.org/A5074890896"],"corresponding_institution_ids":["https://openalex.org/I200650556"],"apc_list":{"value":2390,"currency":"EUR","value_usd":2990},"apc_paid":{"value":2390,"currency":"EUR","value_usd":2990},"fwci":0.9764,"has_fulltext":true,"cited_by_count":6,"citation_normalized_percentile":{"value":0.7950247,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":94,"max":98},"biblio":{"volume":"53","issue":"8","first_page":"8596","last_page":"8613"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9990000128746033,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9990000128746033,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12072","display_name":"Machine Learning and Algorithms","score":0.9986000061035156,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12288","display_name":"Optimization and Search Problems","score":0.998199999332428,"subfield":{"id":"https://openalex.org/subfields/1705","display_name":"Computer Networks and Communications"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7969114780426025},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7123011350631714},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.6784078478813171},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.6380205154418945},{"id":"https://openalex.org/keywords/probabilistic-logic","display_name":"Probabilistic logic","score":0.5183440446853638},{"id":"https://openalex.org/keywords/graph","display_name":"Graph","score":0.43889862298965454},{"id":"https://openalex.org/keywords/artificial-neural-network","display_name":"Artificial neural network","score":0.4208031892776489},{"id":"https://openalex.org/keywords/function","display_name":"Function (biology)","score":0.41756951808929443},{"id":"https://openalex.org/keywords/theoretical-computer-science","display_name":"Theoretical computer science","score":0.3422011137008667}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7969114780426025},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7123011350631714},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6784078478813171},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.6380205154418945},{"id":"https://openalex.org/C49937458","wikidata":"https://www.wikidata.org/wiki/Q2599292","display_name":"Probabilistic logic","level":2,"score":0.5183440446853638},{"id":"https://openalex.org/C132525143","wikidata":"https://www.wikidata.org/wiki/Q141488","display_name":"Graph","level":2,"score":0.43889862298965454},{"id":"https://openalex.org/C50644808","wikidata":"https://www.wikidata.org/wiki/Q192776","display_name":"Artificial neural network","level":2,"score":0.4208031892776489},{"id":"https://openalex.org/C14036430","wikidata":"https://www.wikidata.org/wiki/Q3736076","display_name":"Function (biology)","level":2,"score":0.41756951808929443},{"id":"https://openalex.org/C80444323","wikidata":"https://www.wikidata.org/wiki/Q2878974","display_name":"Theoretical computer science","level":1,"score":0.3422011137008667},{"id":"https://openalex.org/C86803240","wikidata":"https://www.wikidata.org/wiki/Q420","display_name":"Biology","level":0,"score":0.0},{"id":"https://openalex.org/C78458016","wikidata":"https://www.wikidata.org/wiki/Q840400","display_name":"Evolutionary biology","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1007/s10489-022-04297-3","is_oa":true,"landing_page_url":"https://doi.org/10.1007/s10489-022-04297-3","pdf_url":"https://link.springer.com/content/pdf/10.1007/s10489-022-04297-3.pdf","source":{"id":"https://openalex.org/S74726891","display_name":"Applied Intelligence","issn_l":"0924-669X","issn":["0924-669X","1573-7497"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310319900","host_organization_name":"Springer Science+Business Media","host_organization_lineage":["https://openalex.org/P4310319900","https://openalex.org/P4310319965"],"host_organization_lineage_names":["Springer Science+Business Media","Springer Nature"],"type":"journal"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Applied Intelligence","raw_type":"journal-article"}],"best_oa_location":{"id":"doi:10.1007/s10489-022-04297-3","is_oa":true,"landing_page_url":"https://doi.org/10.1007/s10489-022-04297-3","pdf_url":"https://link.springer.com/content/pdf/10.1007/s10489-022-04297-3.pdf","source":{"id":"https://openalex.org/S74726891","display_name":"Applied Intelligence","issn_l":"0924-669X","issn":["0924-669X","1573-7497"],"is_oa":false,"is_in_doaj":false,"is_core":true,"host_organization":"https://openalex.org/P4310319900","host_organization_name":"Springer Science+Business Media","host_organization_lineage":["https://openalex.org/P4310319900","https://openalex.org/P4310319965"],"host_organization_lineage_names":["Springer Science+Business Media","Springer Nature"],"type":"journal"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Applied Intelligence","raw_type":"journal-article"},"sustainable_development_goals":[{"id":"https://metadata.un.org/sdg/8","display_name":"Decent work and economic growth","score":0.4000000059604645}],"awards":[{"id":"https://openalex.org/G8983838761","display_name":null,"funder_award_id":"270940","funder_id":"https://openalex.org/F4320323299","funder_display_name":"Norges Forskningsr\u00e5d"}],"funders":[{"id":"https://openalex.org/F4320323299","display_name":"Norges Forskningsr\u00e5d","ror":"https://ror.org/00epmv149"},{"id":"https://openalex.org/F4320327751","display_name":"Universitetet i Agder","ror":"https://ror.org/03x297z98"}],"has_content":{"grobid_xml":false,"pdf":true},"content_urls":{"pdf":"https://content.openalex.org/works/W4319075639.pdf"},"referenced_works_count":21,"referenced_works":["https://openalex.org/W1560495008","https://openalex.org/W2019671144","https://openalex.org/W2945526235","https://openalex.org/W2945976633","https://openalex.org/W2967499091","https://openalex.org/W2996012579","https://openalex.org/W2996333969","https://openalex.org/W3043722257","https://openalex.org/W3045569263","https://openalex.org/W3047761023","https://openalex.org/W3090240190","https://openalex.org/W3119077141","https://openalex.org/W3129588259","https://openalex.org/W3153509840","https://openalex.org/W3163189794","https://openalex.org/W3174716710","https://openalex.org/W3194668998","https://openalex.org/W3214440863","https://openalex.org/W4226097838","https://openalex.org/W4238893454","https://openalex.org/W4312717574"],"related_works":["https://openalex.org/W4306904969","https://openalex.org/W2138720691","https://openalex.org/W4362501864","https://openalex.org/W4380318855","https://openalex.org/W2031695474","https://openalex.org/W2586732548","https://openalex.org/W1497573972","https://openalex.org/W2071659383","https://openalex.org/W1846253165","https://openalex.org/W2124122503"],"abstract_inverted_index":{"Abstract":[0],"The":[1,225],"Tsetlin":[2,51,63,80,99,137,210,240],"Machine":[3,64,81,100,138,211],"is":[4,101,125],"a":[5,78,220],"recent":[6],"supervised":[7],"learning":[8,47,133,160],"algorithm":[9,59],"that":[10,84,97,111,122,180],"has":[11,23],"obtained":[12],"competitive":[13],"accuracy-":[14],"and":[15,29,105,233],"resource":[16],"usage":[17],"results":[18],"across":[19],"several":[20],"benchmarks.":[21],"It":[22],"been":[24],"used":[25],"for":[26,45,212],"convolution,":[27],"classification,":[28],"regression,":[30],"producing":[31],"interpretable":[32],"rules":[33],"in":[34,161,196],"propositional":[35,136,165,197],"logic.":[36,198],"In":[37,93],"this":[38,146],"paper,":[39],"we":[40,76,95,123,168,200],"introduce":[41],"the":[42,50,56,61,66,87,98,108,115,127,135,173,203,213,229,234,239],"first":[43],"framework":[44,54,182],"reinforcement":[46],"based":[48,191],"on":[49,192],"Machine.":[52,241],"Our":[53],"integrates":[55],"value":[57,67,91],"iteration":[58],"with":[60,163],"regression":[62],"as":[65],"function":[68,231],"approximator.":[69],"To":[70],"obtain":[71],"accurate":[72,144],"off-policy":[73],"state-value":[74,132,230],"estimation,":[75],"propose":[77,201],"modified":[79],"feedback":[82],"mechanism":[83,147],"adapts":[85],"to":[86,103,134,171],"dynamic":[88],"nature":[89,130],"of":[90,117,131,205],"iteration.":[92],"particular,":[94],"show":[96],"able":[102,170],"unlearn":[104],"recover":[106],"from":[107],"misleading":[109],"experiences":[110],"often":[112],"occur":[113],"at":[114],"beginning":[116],"training.":[118],"A":[119],"key":[120],"challenge":[121],"address":[124],"mapping":[126],"intrinsically":[128],"continuous":[129],"architecture,":[139],"leveraging":[140],"probabilistic":[141],"updates.":[142],"While":[143],"off-policy,":[145],"learns":[148],"significantly":[149],"slower":[150],"than":[151],"neural":[152,186],"networks":[153],"on-policy.":[154],"However,":[155],"by":[156,208,238],"introducing":[157],"multi-step":[158],"temporal-difference":[159],"combination":[162],"high-frequency":[164],"logic":[166],"patterns,":[167],"are":[169],"close":[172],"performance":[174],"gap.":[175],"Several":[176],"gridworld":[177,214],"instances":[178],"document":[179],"our":[181,209],"can":[183,216],"outperform":[184],"comparable":[185],"network":[187],"models,":[188],"despite":[189],"being":[190],"simple":[193],"one-level":[194],"AND-rules":[195],"Finally,":[199],"how":[202],"class":[204],"models":[206],"learnt":[207],"problem":[215],"be":[217],"translated":[218],"into":[219],"more":[221],"understandable":[222],"graph":[223,226],"structure.":[224],"structure":[227],"captures":[228],"approximation":[232],"corresponding":[235],"policy":[236],"found":[237]},"counts_by_year":[{"year":2025,"cited_by_count":4},{"year":2023,"cited_by_count":2}],"updated_date":"2026-06-13T06:13:01.061226","created_date":"2025-10-10T00:00:00"}