{"id":"https://openalex.org/W2545898123","doi":"https://doi.org/10.48550/arxiv.2604.14974","title":"Blazing the trails before beating the path: Sample-efficient Monte-Carlo planning","display_name":"Blazing the trails before beating the path: Sample-efficient Monte-Carlo planning","publication_year":2026,"publication_date":"2026-04-16","ids":{"openalex":"https://openalex.org/W2545898123","doi":"https://doi.org/10.48550/arxiv.2604.14974","mag":"2545898123"},"language":"en","primary_location":{"id":"pmh:oai:arXiv.org:2604.14974","is_oa":true,"landing_page_url":"https://arxiv.org/abs/2604.14974","pdf_url":"https://arxiv.org/pdf/2604.14974","source":{"id":"https://openalex.org/S4393918464","display_name":"ArXiv.org","issn_l":"2331-8422","issn":["2331-8422"],"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"text"},"type":"preprint","indexed_in":["arxiv","datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://arxiv.org/pdf/2604.14974","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5052176965","display_name":"Jean-Bastien Grill","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Grill, Jean-Bastien","raw_affiliation_strings":["Sequential Learning"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Sequential Learning","institution_ids":[]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5106038276","display_name":"Michal Valko","orcid":"https://orcid.org/0009-0007-8593-7765"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Valko, Michal","raw_affiliation_strings":["Sequential Learning"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Sequential Learning","institution_ids":[]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5016419651","display_name":"R\u00e9mi Munos","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Munos, R\u00e9mi","raw_affiliation_strings":["Sequential Learning"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Sequential Learning","institution_ids":[]}]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":3,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":true,"cited_by_count":8,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9991999864578247,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9991999864578247,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11574","display_name":"Artificial Intelligence in Games","score":0.9990000128746033,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12101","display_name":"Advanced Bandit Algorithms Research","score":0.9962000250816345,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/monte-carlo-method","display_name":"Monte Carlo method","score":0.6822165250778198},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.6520315408706665},{"id":"https://openalex.org/keywords/markov-chain-monte-carlo","display_name":"Markov chain Monte Carlo","score":0.6052910685539246},{"id":"https://openalex.org/keywords/markov-decision-process","display_name":"Markov decision process","score":0.5930459499359131},{"id":"https://openalex.org/keywords/exploit","display_name":"Exploit","score":0.5767415165901184},{"id":"https://openalex.org/keywords/sample","display_name":"Sample (material)","score":0.5643578171730042},{"id":"https://openalex.org/keywords/mathematical-optimization","display_name":"Mathematical optimization","score":0.5164108872413635},{"id":"https://openalex.org/keywords/path","display_name":"Path (computing)","score":0.48634248971939087},{"id":"https://openalex.org/keywords/markov-process","display_name":"Markov process","score":0.4480672776699066},{"id":"https://openalex.org/keywords/motion-planning","display_name":"Motion planning","score":0.4305534362792969},{"id":"https://openalex.org/keywords/robot","display_name":"Robot","score":0.2419835925102234},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.23250547051429749},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.2050095796585083},{"id":"https://openalex.org/keywords/statistics","display_name":"Statistics","score":0.09487119317054749}],"concepts":[{"id":"https://openalex.org/C19499675","wikidata":"https://www.wikidata.org/wiki/Q232207","display_name":"Monte Carlo method","level":2,"score":0.6822165250778198},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6520315408706665},{"id":"https://openalex.org/C111350023","wikidata":"https://www.wikidata.org/wiki/Q1191869","display_name":"Markov chain Monte Carlo","level":3,"score":0.6052910685539246},{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.5930459499359131},{"id":"https://openalex.org/C165696696","wikidata":"https://www.wikidata.org/wiki/Q11287","display_name":"Exploit","level":2,"score":0.5767415165901184},{"id":"https://openalex.org/C198531522","wikidata":"https://www.wikidata.org/wiki/Q485146","display_name":"Sample (material)","level":2,"score":0.5643578171730042},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.5164108872413635},{"id":"https://openalex.org/C2777735758","wikidata":"https://www.wikidata.org/wiki/Q817765","display_name":"Path (computing)","level":2,"score":0.48634248971939087},{"id":"https://openalex.org/C159886148","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov process","level":2,"score":0.4480672776699066},{"id":"https://openalex.org/C81074085","wikidata":"https://www.wikidata.org/wiki/Q366872","display_name":"Motion planning","level":3,"score":0.4305534362792969},{"id":"https://openalex.org/C90509273","wikidata":"https://www.wikidata.org/wiki/Q11012","display_name":"Robot","level":2,"score":0.2419835925102234},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.23250547051429749},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.2050095796585083},{"id":"https://openalex.org/C105795698","wikidata":"https://www.wikidata.org/wiki/Q12483","display_name":"Statistics","level":1,"score":0.09487119317054749},{"id":"https://openalex.org/C185592680","wikidata":"https://www.wikidata.org/wiki/Q2329","display_name":"Chemistry","level":0,"score":0.0},{"id":"https://openalex.org/C38652104","wikidata":"https://www.wikidata.org/wiki/Q3510521","display_name":"Computer security","level":1,"score":0.0},{"id":"https://openalex.org/C199360897","wikidata":"https://www.wikidata.org/wiki/Q9143","display_name":"Programming language","level":1,"score":0.0},{"id":"https://openalex.org/C43617362","wikidata":"https://www.wikidata.org/wiki/Q170050","display_name":"Chromatography","level":1,"score":0.0}],"mesh":[],"locations_count":4,"locations":[{"id":"pmh:oai:arXiv.org:2604.14974","is_oa":true,"landing_page_url":"https://arxiv.org/abs/2604.14974","pdf_url":"https://arxiv.org/pdf/2604.14974","source":{"id":"https://openalex.org/S4393918464","display_name":"ArXiv.org","issn_l":"2331-8422","issn":["2331-8422"],"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"text"},{"id":"pmh:oai:lilloa.univ-lille.fr:20.500.12210/24304","is_oa":true,"landing_page_url":"http://hdl.handle.net/20.500.12210/24304","pdf_url":"http://hdl.handle.net/20.500.12210/24304","source":{"id":"https://openalex.org/S4306402203","display_name":"LillOA (Universit\u00e9 de Lille (University Of Lille))","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I4210123514","host_organization_name":"Centre d'Etudes en Civilisations, Langues et Litt\u00e9ratures Etrang\u00e8res","host_organization_lineage":["https://openalex.org/I4210123514"],"host_organization_lineage_names":[],"type":"repository"},"license":"other-oa","license_id":"https://openalex.org/licenses/other-oa","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":"","raw_type":"info:eu-repo/semantics/conferenceObject"},{"id":"pmh:oai:HAL:hal-01389107v3","is_oa":true,"landing_page_url":"https://inria.hal.science/hal-01389107","pdf_url":null,"source":{"id":"https://openalex.org/S4306402512","display_name":"HAL (Le Centre pour la Communication Scientifique Directe)","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I1294671590","host_organization_name":"Centre National de la Recherche Scientifique","host_organization_lineage":["https://openalex.org/I1294671590"],"host_organization_lineage_names":[],"type":"repository"},"license":"other-oa","license_id":"https://openalex.org/licenses/other-oa","version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":"Neural Information Processing Systems, Dec 2016, Barcelona, Spain","raw_type":"Conference papers"},{"id":"doi:10.48550/arxiv.2604.14974","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2604.14974","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"pmh:oai:arXiv.org:2604.14974","is_oa":true,"landing_page_url":"https://arxiv.org/abs/2604.14974","pdf_url":"https://arxiv.org/pdf/2604.14974","source":{"id":"https://openalex.org/S4393918464","display_name":"ArXiv.org","issn_l":"2331-8422","issn":["2331-8422"],"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"text"},"sustainable_development_goals":[{"score":0.5,"display_name":"Peace, Justice and strong institutions","id":"https://metadata.un.org/sdg/16"}],"awards":[{"id":"https://openalex.org/G1445013326","display_name":null,"funder_award_id":"ANR-16-CE23-0003","funder_id":"https://openalex.org/F4320320883","funder_display_name":"Agence Nationale de la Recherche"},{"id":"https://openalex.org/G1729111207","display_name":"Extraction and Transfer of Knowledge in Reinforcement Learning","funder_award_id":"ANR-14-CE24-0010","funder_id":"https://openalex.org/F4320320883","funder_display_name":"Agence Nationale de la Recherche"},{"id":"https://openalex.org/G8777520260","display_name":null,"funder_award_id":"CE23-0003","funder_id":"https://openalex.org/F4320320883","funder_display_name":"Agence Nationale de la Recherche"}],"funders":[{"id":"https://openalex.org/F4320309966","display_name":"\u00c9cole Normale Sup\u00e9rieure","ror":"https://ror.org/05a0dhs15"},{"id":"https://openalex.org/F4320310207","display_name":"Carnegie Mellon University","ror":"https://ror.org/05x2bcf33"},{"id":"https://openalex.org/F4320320883","display_name":"Agence Nationale de la Recherche","ror":"https://ror.org/00rbzpz17"},{"id":"https://openalex.org/F4320322727","display_name":"Minist\u00e8re de l'Education Nationale, de l'Enseignement Superieur et de la Recherche","ror":"https://ror.org/03sjk9a61"}],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":17,"referenced_works":["https://openalex.org/W1512919909","https://openalex.org/W1515308897","https://openalex.org/W1540821927","https://openalex.org/W1576452626","https://openalex.org/W1625390266","https://openalex.org/W1714211023","https://openalex.org/W1888434271","https://openalex.org/W2073107347","https://openalex.org/W2126316555","https://openalex.org/W2157477959","https://openalex.org/W2168405694","https://openalex.org/W2169511307","https://openalex.org/W2170946889","https://openalex.org/W2171084228","https://openalex.org/W2183455062","https://openalex.org/W2257979135","https://openalex.org/W2341171179"],"related_works":["https://openalex.org/W17155033","https://openalex.org/W3207760230","https://openalex.org/W1496222301","https://openalex.org/W1590307681","https://openalex.org/W2536018345","https://openalex.org/W4312814274","https://openalex.org/W4285370786","https://openalex.org/W187740018","https://openalex.org/W2162286586","https://openalex.org/W4255368532"],"abstract_inverted_index":{"You":[0,27,64,95,112,158,167],"are":[1],"a":[2,8,14,43,86,104],"robot":[3],"and":[4,30,57,133,155,162],"you":[5,32,35,41,56,58,73,139,149,163],"live":[6],"in":[7],"Markov":[9],"decision":[10],"process":[11],"(MDP)":[12],"with":[13,42,145],"finite":[15],"or":[16],"an":[17,117,124],"infinite":[18],"number":[19],"of":[20,80,88,106,109,119],"transitions":[21],"from":[22],"state-action":[23],"to":[24,46,62,68,75,126,143,153],"next":[25,136],"states.":[26,111],"got":[28],"brains":[29],"so":[31],"plan":[33],"before":[34],"act.":[36],"Luckily,":[37],"your":[38,66],"roboparents":[39],"equipped":[40],"generative":[44],"model":[45],"do":[47,140],"some":[48],"Monte-Carlo":[49,120],"planning.":[50],"The":[51],"world":[52],"is":[53,116],"waiting":[54],"for":[55],"have":[59],"no":[60],"time":[61],"waste.":[63],"want":[65,74,96,113,142,150,159,164,168],"planning":[67],"be":[69],"efficient.":[70,157],"Sample-efficient.":[71],"Indeed,":[72],"exploit":[76],"the":[77,81,107],"possible":[78],"structure":[79],"MDP":[82],"by":[83,91],"exploring":[84],"only":[85],"subset":[87],"states":[89],"reachable":[90],"following":[92],"near-optimal":[93,110],"policies.":[94],"guarantees":[97],"on":[98,103],"sample":[99],"complexity":[100],"that":[101,115,128],"depend":[102],"measure":[105],"quantity":[108],"something,":[114],"extension":[118],"sampling":[121],"(for":[122],"estimating":[123],"expectation)":[125],"problems":[127],"alternate":[129],"maximization":[130],"(over":[131,135],"actions)":[132],"expectation":[134],"states).":[137],"But":[138],"not":[141],"StOP":[144],"exponential":[146],"running":[147],"time,":[148],"something":[151],"simple":[152],"implement":[154],"computationally":[156],"it":[160,165],"all":[161],"now.":[166],"TrailBlazer.":[169]},"counts_by_year":[{"year":2022,"cited_by_count":1},{"year":2021,"cited_by_count":2},{"year":2020,"cited_by_count":3},{"year":2019,"cited_by_count":1},{"year":2018,"cited_by_count":1}],"updated_date":"2026-06-14T07:44:22.658603","created_date":"2016-11-04T00:00:00"}