{"id":"https://openalex.org/W7160993917","doi":"https://doi.org/10.48550/arxiv.2605.11928","title":"When Simulation Lies: A Sim-to-Real Benchmark and Domain-Randomized RL Recipe for Tool-Use Agents","display_name":"When Simulation Lies: A Sim-to-Real Benchmark and Domain-Randomized RL Recipe for Tool-Use Agents","publication_year":2026,"publication_date":"2026-05-12","ids":{"openalex":"https://openalex.org/W7160993917","doi":"https://doi.org/10.48550/arxiv.2605.11928"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2605.11928","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.11928","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2605.11928","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5136060540","display_name":"Xiaolin Zhou","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhou, Xiaolin","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5068554798","display_name":"Aojie Yuan","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Yuan, Aojie","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5136011217","display_name":"Zheng Luo","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Luo, Zheng","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5132771723","display_name":"Zipeng Ling","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Ling, Zipeng","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5136080777","display_name":"Xixiao Pan","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Pan, Xixiao","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5103001919","display_name":"Yicheng Gao","orcid":"https://orcid.org/0009-0006-3419-8520"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Gao, Yicheng","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5136041667","display_name":"Haiyue Zhang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhang, Haiyue","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5136084487","display_name":"Jiate Li","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Li, Jiate","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5136086152","display_name":"Shuli Jiang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Jiang, Shuli","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5136078903","display_name":"Prince Zizhuang Wang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Wang, Prince Zizhuang","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5136004123","display_name":"Zixuan Zhu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhu, Zixuan","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5136064083","display_name":"Jinbo Liu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Liu, Jinbo","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5136055838","display_name":"Ryan A. Rossi","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Rossi, Ryan A.","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5136033650","display_name":"Hua Wei","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Wei, Hua","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5136056694","display_name":"Xiyang Hu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Hu, Xiyang","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":15,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10028","display_name":"Topic Modeling","score":0.14630000293254852,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10028","display_name":"Topic Modeling","score":0.14630000293254852,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10181","display_name":"Natural Language Processing Techniques","score":0.11640000343322754,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11689","display_name":"Adversarial Robustness in Machine Learning","score":0.10830000042915344,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/partially-observable-markov-decision-process","display_name":"Partially observable Markov decision process","score":0.7095000147819519},{"id":"https://openalex.org/keywords/benchmark","display_name":"Benchmark (surveying)","score":0.5644000172615051},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.5584999918937683},{"id":"https://openalex.org/keywords/robustness","display_name":"Robustness (evolution)","score":0.4715999960899353},{"id":"https://openalex.org/keywords/markov-decision-process","display_name":"Markov decision process","score":0.4465999901294708},{"id":"https://openalex.org/keywords/offset","display_name":"Offset (computer science)","score":0.42329999804496765},{"id":"https://openalex.org/keywords/codebase","display_name":"Codebase","score":0.3919999897480011},{"id":"https://openalex.org/keywords/perturbation","display_name":"Perturbation (astronomy)","score":0.38350000977516174},{"id":"https://openalex.org/keywords/overfitting","display_name":"Overfitting","score":0.37389999628067017},{"id":"https://openalex.org/keywords/markov-process","display_name":"Markov process","score":0.37380000948905945}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7523000240325928},{"id":"https://openalex.org/C17098449","wikidata":"https://www.wikidata.org/wiki/Q176814","display_name":"Partially observable Markov decision process","level":4,"score":0.7095000147819519},{"id":"https://openalex.org/C185798385","wikidata":"https://www.wikidata.org/wiki/Q1161707","display_name":"Benchmark (surveying)","level":2,"score":0.5644000172615051},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.5584999918937683},{"id":"https://openalex.org/C63479239","wikidata":"https://www.wikidata.org/wiki/Q7353546","display_name":"Robustness (evolution)","level":3,"score":0.4715999960899353},{"id":"https://openalex.org/C106189395","wikidata":"https://www.wikidata.org/wiki/Q176789","display_name":"Markov decision process","level":3,"score":0.4465999901294708},{"id":"https://openalex.org/C175291020","wikidata":"https://www.wikidata.org/wiki/Q1156822","display_name":"Offset (computer science)","level":2,"score":0.42329999804496765},{"id":"https://openalex.org/C51929080","wikidata":"https://www.wikidata.org/wiki/Q2425187","display_name":"Codebase","level":3,"score":0.3919999897480011},{"id":"https://openalex.org/C177918212","wikidata":"https://www.wikidata.org/wiki/Q803623","display_name":"Perturbation (astronomy)","level":2,"score":0.38350000977516174},{"id":"https://openalex.org/C22019652","wikidata":"https://www.wikidata.org/wiki/Q331309","display_name":"Overfitting","level":3,"score":0.37389999628067017},{"id":"https://openalex.org/C159886148","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov process","level":2,"score":0.37380000948905945},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.34929999709129333},{"id":"https://openalex.org/C79403827","wikidata":"https://www.wikidata.org/wiki/Q3988","display_name":"Real-time computing","level":1,"score":0.33889999985694885},{"id":"https://openalex.org/C34388435","wikidata":"https://www.wikidata.org/wiki/Q2267362","display_name":"Bounded function","level":2,"score":0.3278999924659729},{"id":"https://openalex.org/C152124472","wikidata":"https://www.wikidata.org/wiki/Q1204361","display_name":"Redundancy (engineering)","level":2,"score":0.32739999890327454},{"id":"https://openalex.org/C115051666","wikidata":"https://www.wikidata.org/wiki/Q6522493","display_name":"Ranging","level":2,"score":0.321399986743927},{"id":"https://openalex.org/C98763669","wikidata":"https://www.wikidata.org/wiki/Q176645","display_name":"Markov chain","level":2,"score":0.31360000371932983},{"id":"https://openalex.org/C168065819","wikidata":"https://www.wikidata.org/wiki/Q845566","display_name":"Debugging","level":2,"score":0.30630001425743103},{"id":"https://openalex.org/C120314980","wikidata":"https://www.wikidata.org/wiki/Q180634","display_name":"Distributed computing","level":1,"score":0.30480000376701355},{"id":"https://openalex.org/C32848918","wikidata":"https://www.wikidata.org/wiki/Q845789","display_name":"Observable","level":2,"score":0.3019999861717224},{"id":"https://openalex.org/C2911011789","wikidata":"https://www.wikidata.org/wiki/Q130741","display_name":"Hallucinating","level":2,"score":0.3005000054836273},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.2996000051498413},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.296999990940094},{"id":"https://openalex.org/C120524526","wikidata":"https://www.wikidata.org/wiki/Q1709148","display_name":"Reboot","level":2,"score":0.29499998688697815},{"id":"https://openalex.org/C2777655017","wikidata":"https://www.wikidata.org/wiki/Q1501161","display_name":"Toolbox","level":2,"score":0.29420000314712524},{"id":"https://openalex.org/C99498987","wikidata":"https://www.wikidata.org/wiki/Q2210247","display_name":"Noise (video)","level":3,"score":0.2888999879360199},{"id":"https://openalex.org/C2776760102","wikidata":"https://www.wikidata.org/wiki/Q5139990","display_name":"Code (set theory)","level":3,"score":0.28360000252723694},{"id":"https://openalex.org/C2776650193","wikidata":"https://www.wikidata.org/wiki/Q264661","display_name":"Obstacle","level":2,"score":0.28049999475479126},{"id":"https://openalex.org/C2778671685","wikidata":"https://www.wikidata.org/wiki/Q219239","display_name":"Recipe","level":2,"score":0.2768999934196472},{"id":"https://openalex.org/C11413529","wikidata":"https://www.wikidata.org/wiki/Q8366","display_name":"Algorithm","level":1,"score":0.2720000147819519},{"id":"https://openalex.org/C37736160","wikidata":"https://www.wikidata.org/wiki/Q1801315","display_name":"Adversarial system","level":2,"score":0.26579999923706055},{"id":"https://openalex.org/C44154836","wikidata":"https://www.wikidata.org/wiki/Q45045","display_name":"Simulation","level":1,"score":0.26159998774528503},{"id":"https://openalex.org/C105339364","wikidata":"https://www.wikidata.org/wiki/Q2297740","display_name":"Software deployment","level":2,"score":0.26109999418258667},{"id":"https://openalex.org/C81155309","wikidata":"https://www.wikidata.org/wiki/Q184590","display_name":"Runway","level":2,"score":0.260699987411499},{"id":"https://openalex.org/C48372109","wikidata":"https://www.wikidata.org/wiki/Q3913","display_name":"Binary number","level":2,"score":0.2581999897956848},{"id":"https://openalex.org/C190839683","wikidata":"https://www.wikidata.org/wiki/Q2448197","display_name":"Train","level":2,"score":0.2565999925136566},{"id":"https://openalex.org/C206729178","wikidata":"https://www.wikidata.org/wiki/Q2271896","display_name":"Scheduling (production processes)","level":2,"score":0.2558000087738037},{"id":"https://openalex.org/C174348530","wikidata":"https://www.wikidata.org/wiki/Q188635","display_name":"Bridging (networking)","level":2,"score":0.2538999915122986},{"id":"https://openalex.org/C97399411","wikidata":"https://www.wikidata.org/wiki/Q825367","display_name":"Coin flipping","level":2,"score":0.2515999972820282}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2605.11928","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.11928","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2605.11928","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2605.11928","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Tool-use":[0],"language":[1],"agents":[2],"are":[3,248],"evaluated":[4],"on":[5,167,225],"benchmarks":[6],"that":[7,162,223,236],"assume":[8],"clean":[9,186],"inputs,":[10],"unambiguous":[11],"tool":[12,28,41],"registries,":[13],"and":[14,39,134,142,188,245],"reliable":[15],"APIs.":[16],"Real":[17],"deployments":[18],"violate":[19],"all":[20],"these":[21,51,91,150],"assumptions:":[22],"user":[23],"typos":[24],"propagate":[25],"into":[26],"hallucinated":[27],"names,":[29],"a":[30,54,83,98,156,164,178,231],"misconfigured":[31],"request":[32],"timeout":[33],"can":[34,45],"stall":[35],"an":[36,47,190],"agent":[37,166],"indefinitely,":[38],"duplicate":[40],"names":[42],"across":[43],"servers":[44],"freeze":[46],"SDK.":[48],"We":[49,80,152],"study":[50],"failures":[52],"as":[53],"sim-to-real":[55],"gap":[56,204,214],"in":[57,97,220],"the":[58,71,115,118,171,203,212],"tool-use":[59,165,228],"partially":[60],"observable":[61],"Markov":[62],"decision":[63],"process":[64],"(POMDP),":[65],"where":[66],"deployment":[67],"noise":[68],"enters":[69],"through":[70],"observation,":[72],"action":[73],"space,":[74],"reward-relevant":[75,133],"metadata,":[76],"or":[77,102],"transition":[78,135,218],"dynamics.":[79],"introduce":[81],"RobustBench-TC,":[82],"benchmark":[84,246],"with":[85],"22":[86],"perturbation":[87],"types":[88],"organized":[89],"by":[90,128,139],"four":[92],"POMDP":[93,175],"components,":[94],"each":[95],"grounded":[96],"verified":[99],"GitHub":[100],"issue":[101],"documented":[103],"tool-calling":[104],"failure.":[105],"Across":[106],"21":[107],"models":[108],"from":[109],"1.5B":[110],"to":[111,195,205,238],"32B":[112],"parameters":[113],"(including":[114],"closed-source":[116],"o4-mini),":[117],"robustness":[119],"profile":[120],"is":[121],"sharply":[122],"uneven:":[123],"observation":[124],"perturbations":[125,136,219],"reduce":[126,137],"accuracy":[127,138,187,193],"less":[129],"than":[130],"5%,":[131],"while":[132,200],"roughly":[140,183],"40%":[141],"30%,":[143],"respectively;":[144],"scale":[145],"alone":[146],"does":[147],"not":[148],"close":[149],"gaps.":[151],"then":[153],"propose":[154],"ToolRL-DR,":[155],"domain-randomization":[157],"reinforcement":[158],"learning":[159],"(RL)":[160],"recipe":[161],"trains":[163],"perturbation-augmented":[168],"trajectories":[169],"spanning":[170],"three":[172],"statically":[173],"encodable":[174],"components.":[176],"On":[177],"3B":[179],"backbone,":[180],"ToolRL-DR-Full":[181],"retains":[182],"three-quarters":[184],"of":[185,211],"reaches":[189],"aggregate":[191],"perturbed":[192],"comparable":[194],"open-source":[196],"14B":[197],"function-calling":[198],"baselines":[199],"substantially":[201],"narrowing":[202],"o4-mini.":[206],"It":[207],"closes":[208],"approximately":[209],"27%":[210],"Transition":[213],"despite":[215],"never":[216],"seeing":[217],"training,":[221],"suggesting":[222],"RL":[224],"adversarial":[226],"static":[227],"inputs":[229],"induces":[230],"more":[232],"persistent":[233],"retry":[234],"policy":[235],"transfers":[237],"unseen":[239],"runtime":[240],"failures.":[241],"The":[242],"dataset,":[243],"code":[244],"leaderboard":[247],"publicly":[249],"available.":[250]},"counts_by_year":[],"updated_date":"2026-06-11T09:08:48.828518","created_date":"2026-05-14T00:00:00"}