{"id":"https://openalex.org/W7160505149","doi":"https://doi.org/10.48550/arxiv.2605.04732","title":"Using Common Random Numbers for Simulation-based Planning with Rollouts","display_name":"Using Common Random Numbers for Simulation-based Planning with Rollouts","publication_year":2026,"publication_date":"2026-05-06","ids":{"openalex":"https://openalex.org/W7160505149","doi":"https://doi.org/10.48550/arxiv.2605.04732"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2605.04732","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.04732","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2605.04732","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5026511392","display_name":"Sandarbh Yadav","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Yadav, Sandarbh","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5135596849","display_name":"Frederic J Maliakkal","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Maliakkal, Frederic J","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5135602351","display_name":"Harshad Khadilkar","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Khadilkar, Harshad","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5038200034","display_name":"Shivaram Kalyanakrishnan","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Kalyanakrishnan, Shivaram","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":4,"corresponding_author_ids":["https://openalex.org/A5026511392"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.45570001006126404,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.45570001006126404,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10906","display_name":"AI-based Problem Solving and Planning","score":0.36899998784065247,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11574","display_name":"Artificial Intelligence in Games","score":0.030500000342726707,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/task","display_name":"Task (project management)","score":0.6632999777793884},{"id":"https://openalex.org/keywords/software-deployment","display_name":"Software deployment","score":0.5149999856948853},{"id":"https://openalex.org/keywords/variance-reduction","display_name":"Variance reduction","score":0.49309998750686646},{"id":"https://openalex.org/keywords/variance","display_name":"Variance (accounting)","score":0.4810999929904938},{"id":"https://openalex.org/keywords/scheme","display_name":"Scheme (mathematics)","score":0.4650000035762787},{"id":"https://openalex.org/keywords/simple","display_name":"Simple (philosophy)","score":0.4361000061035156},{"id":"https://openalex.org/keywords/sampling","display_name":"Sampling (signal processing)","score":0.4309000074863434},{"id":"https://openalex.org/keywords/sample","display_name":"Sample (material)","score":0.37770000100135803},{"id":"https://openalex.org/keywords/measure","display_name":"Measure (data warehouse)","score":0.34150001406669617}],"concepts":[{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.6632999777793884},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6473000049591064},{"id":"https://openalex.org/C105339364","wikidata":"https://www.wikidata.org/wiki/Q2297740","display_name":"Software deployment","level":2,"score":0.5149999856948853},{"id":"https://openalex.org/C62644790","wikidata":"https://www.wikidata.org/wiki/Q3454689","display_name":"Variance reduction","level":3,"score":0.49309998750686646},{"id":"https://openalex.org/C196083921","wikidata":"https://www.wikidata.org/wiki/Q7915758","display_name":"Variance (accounting)","level":2,"score":0.4810999929904938},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.46709999442100525},{"id":"https://openalex.org/C77618280","wikidata":"https://www.wikidata.org/wiki/Q1155772","display_name":"Scheme (mathematics)","level":2,"score":0.4650000035762787},{"id":"https://openalex.org/C2780586882","wikidata":"https://www.wikidata.org/wiki/Q7520643","display_name":"Simple (philosophy)","level":2,"score":0.4361000061035156},{"id":"https://openalex.org/C140779682","wikidata":"https://www.wikidata.org/wiki/Q210868","display_name":"Sampling (signal processing)","level":3,"score":0.4309000074863434},{"id":"https://openalex.org/C198531522","wikidata":"https://www.wikidata.org/wiki/Q485146","display_name":"Sample (material)","level":2,"score":0.37770000100135803},{"id":"https://openalex.org/C2780009758","wikidata":"https://www.wikidata.org/wiki/Q6804172","display_name":"Measure (data warehouse)","level":2,"score":0.34150001406669617},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.3384000062942505},{"id":"https://openalex.org/C52740198","wikidata":"https://www.wikidata.org/wiki/Q1539564","display_name":"Importance sampling","level":3,"score":0.3370000123977661},{"id":"https://openalex.org/C42475967","wikidata":"https://www.wikidata.org/wiki/Q194292","display_name":"Operations research","level":1,"score":0.3334999978542328},{"id":"https://openalex.org/C8272713","wikidata":"https://www.wikidata.org/wiki/Q176737","display_name":"Stochastic process","level":2,"score":0.3165999948978424},{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.3149999976158142},{"id":"https://openalex.org/C111335779","wikidata":"https://www.wikidata.org/wiki/Q3454686","display_name":"Reduction (mathematics)","level":2,"score":0.3000999987125397},{"id":"https://openalex.org/C2778671685","wikidata":"https://www.wikidata.org/wiki/Q219239","display_name":"Recipe","level":2,"score":0.29919999837875366},{"id":"https://openalex.org/C20353970","wikidata":"https://www.wikidata.org/wiki/Q1056998","display_name":"Simple random sample","level":3,"score":0.2937999963760376},{"id":"https://openalex.org/C148220186","wikidata":"https://www.wikidata.org/wiki/Q7111912","display_name":"Outcome (game theory)","level":2,"score":0.2912999987602234},{"id":"https://openalex.org/C48677424","wikidata":"https://www.wikidata.org/wiki/Q6888088","display_name":"Mode (computer interface)","level":2,"score":0.28369998931884766},{"id":"https://openalex.org/C2778334786","wikidata":"https://www.wikidata.org/wiki/Q1586270","display_name":"Variation (astronomy)","level":2,"score":0.2703999876976013},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.2689000070095062},{"id":"https://openalex.org/C204323151","wikidata":"https://www.wikidata.org/wiki/Q905424","display_name":"Range (aeronautics)","level":2,"score":0.2621000111103058},{"id":"https://openalex.org/C61797465","wikidata":"https://www.wikidata.org/wiki/Q1188986","display_name":"Term (time)","level":2,"score":0.2587999999523163},{"id":"https://openalex.org/C182306322","wikidata":"https://www.wikidata.org/wiki/Q1779371","display_name":"Order (exchange)","level":2,"score":0.2554999887943268}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2605.04732","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.04732","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2605.04732","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.04732","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Simulation-based":[0],"planning":[1,19,115],"with":[2,44],"rollouts":[3],"is":[4,20,25,49,106],"a":[5,21,70,83,117,122],"widely-deployed":[6],"technique":[7],"for":[8,73,129],"decision":[9],"making":[10],"in":[11,64,77,116],"stochastic":[12],"environments.":[13],"The":[14,100],"primary":[15],"instrument":[16],"of":[17,35,59,103,124,132],"simulation-based":[18],"sampling":[22],"model,":[23],"which":[24],"repeatedly":[26],"called":[27],"to":[28],"generate":[29],"trajectories":[30],"and":[31,120],"estimate":[32],"the":[33,39,45,57,65,125,130],"utilities":[34],"available":[36],"actions.":[37],"Among":[38],"actions":[40],"thus":[41],"explored,":[42],"one":[43],"maximum":[46],"estimated":[47],"utility":[48,79],"then":[50],"executed.":[51],"In":[52],"this":[53],"paper,":[54],"we":[55],"examine":[56],"effect":[58],"using":[60],"common":[61],"random":[62],"numbers":[63],"simulation":[66],"process.":[67],"We":[68],"obtain":[69],"simple":[71],"recipe":[72],"(provably)":[74],"reducing":[75],"variance":[76],"relative":[78],"when":[80],"simulations":[81],"invoke":[82],"rollout":[84],"policy":[85],"beyond":[86],"some":[87],"depth.":[88],"Experiments":[89],"on":[90],"synthetic":[91],"tasks":[92],"confirm":[93],"that":[94],"our":[95,104],"scheme":[96],"improves":[97],"task":[98],"performance.":[99],"broader":[101],"significance":[102],"innovation":[105],"apparent":[107],"from":[108],"two":[109],"practical":[110],"applications:":[111],"(1)":[112],"single-step":[113],"lookahead":[114],"pension-disbursement":[118],"task,":[119],"(2)":[121],"deployment":[123],"well-known":[126],"UCT":[127],"algorithm":[128],"game":[131],"Ludo.":[133]},"counts_by_year":[],"updated_date":"2026-05-08T13:18:25.657630","created_date":"2026-05-08T00:00:00"}