{"id":"https://openalex.org/W2617173417","doi":"https://doi.org/10.24963/ijcai.2017/194","title":"Universal Reinforcement Learning Algorithms: Survey and Experiments","display_name":"Universal Reinforcement Learning Algorithms: Survey and Experiments","publication_year":2017,"publication_date":"2017-07-28","ids":{"openalex":"https://openalex.org/W2617173417","doi":"https://doi.org/10.24963/ijcai.2017/194","mag":"2617173417"},"language":"en","primary_location":{"id":"doi:10.24963/ijcai.2017/194","is_oa":true,"landing_page_url":"https://doi.org/10.24963/ijcai.2017/194","pdf_url":"https://www.ijcai.org/proceedings/2017/0194.pdf","source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence","raw_type":"proceedings-article"},"type":"preprint","indexed_in":["arxiv","crossref","datacite"],"open_access":{"is_oa":true,"oa_status":"gold","oa_url":"https://www.ijcai.org/proceedings/2017/0194.pdf","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5029807267","display_name":"John Aslanides","orcid":null},"institutions":[{"id":"https://openalex.org/I118347636","display_name":"Australian National University","ror":"https://ror.org/019wvm592","country_code":"AU","type":"education","lineage":["https://openalex.org/I118347636"]}],"countries":["AU"],"is_corresponding":false,"raw_author_name":"John Aslanides","raw_affiliation_strings":["Australian National University","Australian National University, Canberra, Australia"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Australian National University","institution_ids":["https://openalex.org/I118347636"]},{"raw_affiliation_string":"Australian National University, Canberra, Australia","institution_ids":["https://openalex.org/I118347636"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5090592321","display_name":"Jan Leike","orcid":null},"institutions":[{"id":"https://openalex.org/I40120149","display_name":"University of Oxford","ror":"https://ror.org/052gg0110","country_code":"GB","type":"education","lineage":["https://openalex.org/I40120149"]}],"countries":["GB"],"is_corresponding":false,"raw_author_name":"Jan Leike","raw_affiliation_strings":["Future of Humanity Institute, University of Oxford","University of Oxford, Oxford, United Kingdom"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Future of Humanity Institute, University of Oxford","institution_ids":[]},{"raw_affiliation_string":"University of Oxford, Oxford, United Kingdom","institution_ids":["https://openalex.org/I40120149"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5073944062","display_name":"Marcus H\u00fctter","orcid":"https://orcid.org/0000-0002-3263-4097"},"institutions":[{"id":"https://openalex.org/I118347636","display_name":"Australian National University","ror":"https://ror.org/019wvm592","country_code":"AU","type":"education","lineage":["https://openalex.org/I118347636"]}],"countries":["AU"],"is_corresponding":false,"raw_author_name":"Marcus Hutter","raw_affiliation_strings":["Australian National University","Australian National University, Canberra, Australia"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Australian National University","institution_ids":["https://openalex.org/I118347636"]},{"raw_affiliation_string":"Australian National University, Canberra, Australia","institution_ids":["https://openalex.org/I118347636"]}]}],"institutions":[],"countries_distinct_count":2,"institutions_distinct_count":2,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":0.1993,"has_fulltext":false,"cited_by_count":1,"citation_normalized_percentile":{"value":0.61299936,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":90,"max":94},"biblio":{"volume":null,"issue":null,"first_page":"1403","last_page":"1410"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9994000196456909,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9994000196456909,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12101","display_name":"Advanced Bandit Algorithms Research","score":0.9988999962806702,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},{"id":"https://openalex.org/T12288","display_name":"Optimization and Search Problems","score":0.993399977684021,"subfield":{"id":"https://openalex.org/subfields/1705","display_name":"Computer Networks and Communications"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7825086116790771},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7248466610908508},{"id":"https://openalex.org/keywords/markov-decision-process","display_name":"Markov decision process","score":0.6935983896255493},{"id":"https://openalex.org/keywords/notation","display_name":"Notation","score":0.5560085773468018},{"id":"https://openalex.org/keywords/partially-observable-markov-decision-process","display_name":"Partially observable Markov decision process","score":0.5085898637771606},{"id":"https://openalex.org/keywords/field","display_name":"Field (mathematics)","score":0.49931812286376953},{"id":"https://openalex.org/keywords/ergodic-theory","display_name":"Ergodic theory","score":0.4976251423358917},{"id":"https://openalex.org/keywords/bayesian-probability","display_name":"Bayesian probability","score":0.445738285779953},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.4343678057193756},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.42403554916381836},{"id":"https://openalex.org/keywords/process","display_name":"Process (computing)","score":0.4183058738708496},{"id":"https://openalex.org/keywords/algorithm","display_name":"Algorithm","score":0.4072868824005127},{"id":"https://openalex.org/keywords/theoretical-computer-science","display_name":"Theoretical computer science","score":0.3596158027648926},{"id":"https://openalex.org/keywords/markov-process","display_name":"Markov process","score":0.33520227670669556},{"id":"https://openalex.org/keywords/markov-chain","display_name":"Markov chain","score":0.29826080799102783},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.16058805584907532},{"id":"https://openalex.org/keywords/markov-model","display_name":"Markov model","score":0.14799293875694275},{"id":"https://openalex.org/keywords/programming-language","display_name":"Programming language","score":0.08515504002571106}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7825086116790771},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7248466610908508},{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.6935983896255493},{"id":"https://openalex.org/C45357846","wikidata":"https://www.wikidata.org/wiki/Q2001982","display_name":"Notation","level":2,"score":0.5560085773468018},{"id":"https://openalex.org/C17098449","wikidata":"https://www.wikidata.org/wiki/Q176814","display_name":"Partially observable Markov decision process","level":4,"score":0.5085898637771606},{"id":"https://openalex.org/C9652623","wikidata":"https://www.wikidata.org/wiki/Q190109","display_name":"Field (mathematics)","level":2,"score":0.49931812286376953},{"id":"https://openalex.org/C122044880","wikidata":"https://www.wikidata.org/wiki/Q5498822","display_name":"Ergodic theory","level":2,"score":0.4976251423358917},{"id":"https://openalex.org/C107673813","wikidata":"https://www.wikidata.org/wiki/Q812534","display_name":"Bayesian probability","level":2,"score":0.445738285779953},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.4343678057193756},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.42403554916381836},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.4183058738708496},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.4072868824005127},{"id":"https://openalex.org/C80444323","wikidata":"https://www.wikidata.org/wiki/Q2878974","display_name":"Theoretical computer science","level":1,"score":0.3596158027648926},{"id":"https://openalex.org/C159886148","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov process","level":2,"score":0.33520227670669556},{"id":"https://openalex.org/C98763669","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov chain","level":2,"score":0.29826080799102783},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.16058805584907532},{"id":"https://openalex.org/C163836022","wikidata":"https://www.wikidata.org/wiki/Q6771326","display_name":"Markov model","level":3,"score":0.14799293875694275},{"id":"https://openalex.org/C199360897","wikidata":"https://www.wikidata.org/wiki/Q9143","display_name":"Programming language","level":1,"score":0.08515504002571106},{"id":"https://openalex.org/C94375191","wikidata":"https://www.wikidata.org/wiki/Q11205","display_name":"Arithmetic","level":1,"score":0.0},{"id":"https://openalex.org/C105795698","wikidata":"https://www.wikidata.org/wiki/Q12483","display_name":"Statistics","level":1,"score":0.0},{"id":"https://openalex.org/C202444582","wikidata":"https://www.wikidata.org/wiki/Q837863","display_name":"Pure mathematics","level":1,"score":0.0},{"id":"https://openalex.org/C134306372","wikidata":"https://www.wikidata.org/wiki/Q7754","display_name":"Mathematical analysis","level":1,"score":0.0}],"mesh":[],"locations_count":5,"locations":[{"id":"doi:10.24963/ijcai.2017/194","is_oa":true,"landing_page_url":"https://doi.org/10.24963/ijcai.2017/194","pdf_url":"https://www.ijcai.org/proceedings/2017/0194.pdf","source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence","raw_type":"proceedings-article"},{"id":"pmh:oai:arXiv.org:1705.10557","is_oa":true,"landing_page_url":"http://arxiv.org/abs/1705.10557","pdf_url":"https://arxiv.org/pdf/1705.10557","source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":"","raw_type":"text"},{"id":"mag:2617173417","is_oa":true,"landing_page_url":"http://export.arxiv.org/pdf/1705.10557","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":"arXiv (Cornell University)","raw_type":null},{"id":"pmh:oai:openresearch-repository.anu.edu.au:1885/205778","is_oa":false,"landing_page_url":"http://hdl.handle.net/1885/205778","pdf_url":null,"source":{"id":"https://openalex.org/S4306402539","display_name":"ANU Open Research (Australian National University)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I118347636","host_organization_name":"Australian National University","host_organization_lineage":["https://openalex.org/I118347636"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":"Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence (IJCAI-17)","raw_type":"Conference paper"},{"id":"doi:10.48550/arxiv.1705.10557","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.1705.10557","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"Preprint"}],"best_oa_location":{"id":"doi:10.24963/ijcai.2017/194","is_oa":true,"landing_page_url":"https://doi.org/10.24963/ijcai.2017/194","pdf_url":"https://www.ijcai.org/proceedings/2017/0194.pdf","source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence","raw_type":"proceedings-article"},"sustainable_development_goals":[{"score":0.7799999713897705,"display_name":"Peace, Justice and strong institutions","id":"https://metadata.un.org/sdg/16"}],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":true},"content_urls":{"pdf":"https://content.openalex.org/works/W2617173417.pdf"},"referenced_works_count":25,"referenced_works":["https://openalex.org/W65193931","https://openalex.org/W1757796397","https://openalex.org/W1876044947","https://openalex.org/W1917036087","https://openalex.org/W1919575688","https://openalex.org/W2039522160","https://openalex.org/W2054658115","https://openalex.org/W2090547656","https://openalex.org/W2132322771","https://openalex.org/W2132450394","https://openalex.org/W2137509429","https://openalex.org/W2145339207","https://openalex.org/W2165150801","https://openalex.org/W2168405694","https://openalex.org/W2171084228","https://openalex.org/W2257979135","https://openalex.org/W2281341692","https://openalex.org/W2312609093","https://openalex.org/W2417786368","https://openalex.org/W2419612459","https://openalex.org/W2558819991","https://openalex.org/W2605055073","https://openalex.org/W2663108269","https://openalex.org/W2908491431","https://openalex.org/W2951511033"],"related_works":["https://openalex.org/W2168839459","https://openalex.org/W169931978","https://openalex.org/W3208792968","https://openalex.org/W2118693324","https://openalex.org/W1851714595","https://openalex.org/W2963937357","https://openalex.org/W3029842769","https://openalex.org/W2492104848","https://openalex.org/W3035203794","https://openalex.org/W2404879558","https://openalex.org/W2576525097","https://openalex.org/W2987973365","https://openalex.org/W1639318925","https://openalex.org/W132137529","https://openalex.org/W2993197237","https://openalex.org/W2968286045","https://openalex.org/W2182877511","https://openalex.org/W2948838706","https://openalex.org/W1176136657","https://openalex.org/W2998430347"],"abstract_inverted_index":{"Many":[0],"state-of-the-art":[1],"reinforcement":[2,24],"learning":[3,25],"(RL)":[4],"algorithms":[5,30,52,91,131],"typically":[6],"assume":[7],"that":[8,31,104],"the":[9,20,39,110,130],"environment":[10],"is":[11,27],"an":[12,124],"ergodic":[13],"Markov":[14],"Decision":[15],"Process":[16],"(MDP).":[17],"In":[18],"contrast,":[19],"field":[21],"of":[22,49,76,88,101,109,129],"universal":[23,42],"(URL)":[26],"concerned":[28],"with":[29,99],"make":[32],"as":[33,36],"few":[34],"assumptions":[35],"possible":[37],"about":[38],"environment.":[40],"The":[41],"Bayesian":[43],"agent":[44],"AIXI":[45],"and":[46,85,96,113,140],"a":[47,83,93],"family":[48],"related":[50],"URL":[51,90],"have":[53,64],"been":[54,65,72],"developed":[55],"in":[56],"this":[57],"setting.":[58],"While":[59],"numerous":[60],"theoretical":[61],"optimality":[62],"results":[63,100],"proven":[66],"for":[67],"these":[68,89,143],"agents,":[69],"there":[70],"has":[71],"no":[73],"empirical":[74],"investigation":[75],"their":[77,114],"behavior":[78],"to":[79],"date.":[80],"We":[81,121],"present":[82,123],"short":[84],"accessible":[86],"survey":[87],"under":[92],"unified":[94],"notation":[95],"framework,":[97],"along":[98],"some":[102,107],"experiments":[103],"qualitatively":[105],"illustrate":[106],"properties":[108],"resulting":[111],"policies,":[112],"relative":[115],"performance":[116],"on":[117],"partially-observable":[118],"gridworld":[119],"environments.":[120],"also":[122],"open-":[125],"source":[126],"reference":[127],"implementation":[128],"which":[132],"we":[133],"hope":[134],"will":[135],"facilitate":[136],"further":[137],"understanding":[138],"of,":[139],"experimentation":[141],"with,":[142],"ideas.":[144]},"counts_by_year":[{"year":2017,"cited_by_count":1}],"updated_date":"2026-07-02T09:51:11.867554","created_date":"2025-10-10T00:00:00"}