{"id":"https://openalex.org/W7138869864","doi":"https://doi.org/10.48550/arxiv.2603.15956","title":"ExpertGen: Scalable Sim-to-Real Expert Policy Learning from Imperfect Behavior Priors","display_name":"ExpertGen: Scalable Sim-to-Real Expert Policy Learning from Imperfect Behavior Priors","publication_year":2026,"publication_date":"2026-03-16","ids":{"openalex":"https://openalex.org/W7138869864","doi":"https://doi.org/10.48550/arxiv.2603.15956"},"language":null,"primary_location":{"id":"doi:10.48550/arxiv.2603.15956","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.15956","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"type":"preprint","indexed_in":["datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://doi.org/10.48550/arxiv.2603.15956","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5108854600","display_name":"Zifan Xu","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Xu, Zifan","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5130185857","display_name":"Ran Gong","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Gong, Ran","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5004921250","display_name":"Maria Vittoria Minniti","orcid":"https://orcid.org/0000-0001-7272-0937"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Minniti, Maria Vittoria","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5003120041","display_name":"Ahmet Salih Gundogdu","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Gundogdu, Ahmet Salih","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5130121098","display_name":"Eric Rosen","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Rosen, Eric","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5130204052","display_name":"Kausik Sivakumar","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Sivakumar, Kausik","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5129977123","display_name":"Riedana Yan","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Yan, Riedana","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5130210797","display_name":"Zixing Wang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Wang, Zixing","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5130163400","display_name":"Di Deng","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Deng, Di","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5129910169","display_name":"Peter A. Stone","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Stone, Peter","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5129960194","display_name":"Xiaohan Zhang","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Zhang, Xiaohan","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5049609650","display_name":"Karl Schmeckpeper","orcid":"https://orcid.org/0000-0003-4989-2022"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Schmeckpeper, Karl","raw_affiliation_strings":[],"raw_orcid":null,"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":12,"corresponding_author_ids":["https://openalex.org/A5108854600"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.4756999909877777,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.4756999909877777,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10653","display_name":"Robot Manipulation and Learning","score":0.40059998631477356,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10709","display_name":"Social Robot Interaction and HRI","score":0.016300000250339508,"subfield":{"id":"https://openalex.org/subfields/3207","display_name":"Social Psychology"},"field":{"id":"https://openalex.org/fields/32","display_name":"Psychology"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.6014999747276306},{"id":"https://openalex.org/keywords/scalability","display_name":"Scalability","score":0.5530999898910522},{"id":"https://openalex.org/keywords/task","display_name":"Task (project management)","score":0.5077999830245972},{"id":"https://openalex.org/keywords/robotics","display_name":"Robotics","score":0.4745999872684479},{"id":"https://openalex.org/keywords/noise","display_name":"Noise (video)","score":0.44130000472068787},{"id":"https://openalex.org/keywords/imperfect","display_name":"Imperfect","score":0.41449999809265137},{"id":"https://openalex.org/keywords/prior-probability","display_name":"Prior probability","score":0.412200003862381},{"id":"https://openalex.org/keywords/control","display_name":"Control (management)","score":0.391400009393692},{"id":"https://openalex.org/keywords/baseline","display_name":"Baseline (sea)","score":0.38499999046325684}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7246000170707703},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6766999959945679},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.6014999747276306},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.5981000065803528},{"id":"https://openalex.org/C48044578","wikidata":"https://www.wikidata.org/wiki/Q727490","display_name":"Scalability","level":2,"score":0.5530999898910522},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.5077999830245972},{"id":"https://openalex.org/C34413123","wikidata":"https://www.wikidata.org/wiki/Q170978","display_name":"Robotics","level":3,"score":0.4745999872684479},{"id":"https://openalex.org/C99498987","wikidata":"https://www.wikidata.org/wiki/Q2210247","display_name":"Noise (video)","level":3,"score":0.44130000472068787},{"id":"https://openalex.org/C2780310539","wikidata":"https://www.wikidata.org/wiki/Q12547192","display_name":"Imperfect","level":2,"score":0.41449999809265137},{"id":"https://openalex.org/C177769412","wikidata":"https://www.wikidata.org/wiki/Q278090","display_name":"Prior probability","level":3,"score":0.412200003862381},{"id":"https://openalex.org/C2775924081","wikidata":"https://www.wikidata.org/wiki/Q55608371","display_name":"Control (management)","level":2,"score":0.391400009393692},{"id":"https://openalex.org/C12725497","wikidata":"https://www.wikidata.org/wiki/Q810247","display_name":"Baseline (sea)","level":2,"score":0.38499999046325684},{"id":"https://openalex.org/C58328972","wikidata":"https://www.wikidata.org/wiki/Q184609","display_name":"Expert system","level":2,"score":0.38499999046325684},{"id":"https://openalex.org/C2776401178","wikidata":"https://www.wikidata.org/wiki/Q12050496","display_name":"Feature (linguistics)","level":2,"score":0.33809998631477356},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.31779998540878296},{"id":"https://openalex.org/C2779436431","wikidata":"https://www.wikidata.org/wiki/Q30672407","display_name":"Policy learning","level":2,"score":0.30660000443458557},{"id":"https://openalex.org/C136389625","wikidata":"https://www.wikidata.org/wiki/Q334384","display_name":"Supervised learning","level":3,"score":0.3005000054836273},{"id":"https://openalex.org/C120936955","wikidata":"https://www.wikidata.org/wiki/Q2155640","display_name":"Empirical research","level":2,"score":0.2980000078678131},{"id":"https://openalex.org/C2779960059","wikidata":"https://www.wikidata.org/wiki/Q7113681","display_name":"Overhead (engineering)","level":2,"score":0.29760000109672546},{"id":"https://openalex.org/C105002631","wikidata":"https://www.wikidata.org/wiki/Q4833645","display_name":"Subject-matter expert","level":3,"score":0.2838999927043915},{"id":"https://openalex.org/C2778755073","wikidata":"https://www.wikidata.org/wiki/Q10858537","display_name":"Scale (ratio)","level":2,"score":0.28360000252723694},{"id":"https://openalex.org/C34585555","wikidata":"https://www.wikidata.org/wiki/Q1368723","display_name":"Learning curve","level":2,"score":0.28290000557899475},{"id":"https://openalex.org/C165064840","wikidata":"https://www.wikidata.org/wiki/Q1321061","display_name":"Matching (statistics)","level":2,"score":0.27869999408721924},{"id":"https://openalex.org/C31170391","wikidata":"https://www.wikidata.org/wiki/Q188619","display_name":"Hierarchy","level":2,"score":0.27790001034736633},{"id":"https://openalex.org/C77967617","wikidata":"https://www.wikidata.org/wiki/Q4677561","display_name":"Active learning (machine learning)","level":2,"score":0.25440001487731934},{"id":"https://openalex.org/C206345919","wikidata":"https://www.wikidata.org/wiki/Q20380951","display_name":"Resource (disambiguation)","level":2,"score":0.25270000100135803}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.48550/arxiv.2603.15956","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.15956","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"doi:10.48550/arxiv.2603.15956","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2603.15956","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":"cc-by","license_id":"https://openalex.org/licenses/cc-by","version":null,"is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Learning":[0],"generalizable":[1],"and":[2,184,191,211],"robust":[3,186],"behavior":[4,62,124],"cloning":[5],"policies":[6,148,180,202,208],"requires":[7],"large":[8,77],"volumes":[9],"of":[10],"high-quality":[11,146],"robotics":[12],"data.":[13],"While":[14],"human":[15],"demonstrations":[16],"(e.g.,":[17],"through":[18],"teleoperation)":[19],"serve":[20],"as":[21],"the":[22,34,99,111,198],"standard":[23],"source":[24],"for":[25],"expert":[26,48,147,201],"behaviors,":[27],"acquiring":[28],"such":[29],"data":[30],"at":[31],"scale":[32],"in":[33,51],"real":[35,215],"world":[36],"is":[37,86],"prohibitively":[38],"expensive.":[39],"This":[40],"paper":[41],"introduces":[42],"ExpertGen,":[43],"a":[44,61,65,159],"framework":[45],"that":[46,142],"automates":[47],"policy":[49,67,107,114],"learning":[50,85,130],"simulation":[52],"to":[53,89,119],"enable":[54],"scalable":[55],"sim-to-real":[56,196],"transfer.":[57],"ExpertGen":[58,116,143,157],"first":[59],"initializes":[60],"prior":[63,92],"using":[64],"diffusion":[66,100,113],"trained":[68],"on":[69,137,165,214],"imperfect":[70],"demonstrations,":[71],"which":[72],"may":[73],"be":[74],"synthesized":[75],"by":[76,82,97],"language":[78],"models":[79],"or":[80],"provided":[81],"humans.":[83],"Reinforcement":[84],"then":[87],"used":[88],"steer":[90],"this":[91],"toward":[93],"high":[94],"task":[95],"success":[96,162],"optimizing":[98],"model's":[101],"initial":[102,189],"noise":[103],"while":[104,126,164],"keep":[105],"original":[106],"frozen.":[108],"By":[109],"keeping":[110],"pretrained":[112],"frozen,":[115],"regularizes":[117],"exploration":[118],"remain":[120,185],"within":[121],"safe,":[122],"human-like":[123],"manifolds,":[125],"also":[127],"enabling":[128],"effective":[129],"with":[131,149],"only":[132],"sparse":[133],"rewards.":[134],"Empirical":[135],"evaluations":[136],"challenging":[138],"manipulation":[139,167],"benchmarks":[140],"demonstrate":[141],"reliably":[144],"produces":[145],"no":[150],"reward":[151],"engineering.":[152],"On":[153],"industrial":[154],"assembly":[155],"tasks,":[156],"achieves":[158],"90.5%":[160],"overall":[161,172],"rate,":[163],"long-horizon":[166],"tasks":[168],"it":[169],"attains":[170],"85%":[171],"success,":[173],"outperforming":[174],"all":[175],"baseline":[176],"methods.":[177],"The":[178],"resulting":[179],"exhibit":[181],"dexterous":[182],"control":[183],"across":[187],"diverse":[188],"configurations":[190],"failure":[192],"states.":[193],"To":[194],"validate":[195],"transfer,":[197],"learned":[199],"state-based":[200],"are":[203],"further":[204],"distilled":[205],"into":[206],"visuomotor":[207],"via":[209],"DAgger":[210],"successfully":[212],"deployed":[213],"robotic":[216],"hardware.":[217]},"counts_by_year":[],"updated_date":"2026-05-05T08:41:31.759640","created_date":"2026-03-20T00:00:00"}