{"id":"https://openalex.org/W3088310808","doi":"https://doi.org/10.1109/ssci47803.2020.9308468","title":"Sim-to-Real Transfer in Deep Reinforcement Learning for Robotics: a Survey","display_name":"Sim-to-Real Transfer in Deep Reinforcement Learning for Robotics: a Survey","publication_year":2020,"publication_date":"2020-12-01","ids":{"openalex":"https://openalex.org/W3088310808","doi":"https://doi.org/10.1109/ssci47803.2020.9308468","mag":"3088310808"},"language":"en","primary_location":{"id":"doi:10.1109/ssci47803.2020.9308468","is_oa":false,"landing_page_url":"https://doi.org/10.1109/ssci47803.2020.9308468","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2020 IEEE Symposium Series on Computational Intelligence (SSCI)","raw_type":"proceedings-article"},"type":"article","indexed_in":["arxiv","crossref"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://arxiv.org/pdf/2009.13303","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":null,"display_name":"Wenshuai Zhao","orcid":null},"institutions":[{"id":"https://openalex.org/I155660961","display_name":"University of Turku","ror":"https://ror.org/05vghhr25","country_code":"FI","type":"education","lineage":["https://openalex.org/I155660961"]}],"countries":["FI"],"is_corresponding":false,"raw_author_name":"Wenshuai Zhao","raw_affiliation_strings":["Turku Intelligent Embedded and Robotic Systems Lab, University of Turku, Finland"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Turku Intelligent Embedded and Robotic Systems Lab, University of Turku, Finland","institution_ids":["https://openalex.org/I155660961"]}]},{"author_position":"middle","author":{"id":null,"display_name":"Jorge Pena Queralta","orcid":null},"institutions":[{"id":"https://openalex.org/I155660961","display_name":"University of Turku","ror":"https://ror.org/05vghhr25","country_code":"FI","type":"education","lineage":["https://openalex.org/I155660961"]}],"countries":["FI"],"is_corresponding":false,"raw_author_name":"Jorge Pena Queralta","raw_affiliation_strings":["Turku Intelligent Embedded and Robotic Systems Lab, University of Turku, Finland"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Turku Intelligent Embedded and Robotic Systems Lab, University of Turku, Finland","institution_ids":["https://openalex.org/I155660961"]}]},{"author_position":"last","author":{"id":null,"display_name":"Tomi Westerlund","orcid":null},"institutions":[{"id":"https://openalex.org/I155660961","display_name":"University of Turku","ror":"https://ror.org/05vghhr25","country_code":"FI","type":"education","lineage":["https://openalex.org/I155660961"]}],"countries":["FI"],"is_corresponding":false,"raw_author_name":"Tomi Westerlund","raw_affiliation_strings":["Turku Intelligent Embedded and Robotic Systems Lab, University of Turku, Finland"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Turku Intelligent Embedded and Robotic Systems Lab, University of Turku, Finland","institution_ids":["https://openalex.org/I155660961"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":3,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":34.2563,"has_fulltext":false,"cited_by_count":676,"citation_normalized_percentile":{"value":0.99803225,"is_in_top_1_percent":true,"is_in_top_10_percent":true},"cited_by_percentile_year":{"min":99,"max":100},"biblio":{"volume":null,"issue":null,"first_page":"737","last_page":"744"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9998999834060669,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9998999834060669,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10653","display_name":"Robot Manipulation and Learning","score":0.9988999962806702,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12784","display_name":"Modular Robots and Swarm Intelligence","score":0.9850000143051147,"subfield":{"id":"https://openalex.org/subfields/2210","display_name":"Mechanical Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.7803000211715698},{"id":"https://openalex.org/keywords/transfer-of-learning","display_name":"Transfer of learning","score":0.5485000014305115},{"id":"https://openalex.org/keywords/context","display_name":"Context (archaeology)","score":0.5467000007629395},{"id":"https://openalex.org/keywords/categorization","display_name":"Categorization","score":0.4415000081062317},{"id":"https://openalex.org/keywords/inefficiency","display_name":"Inefficiency","score":0.44110000133514404},{"id":"https://openalex.org/keywords/domain","display_name":"Domain (mathematical analysis)","score":0.42989999055862427},{"id":"https://openalex.org/keywords/closing","display_name":"Closing (real estate)","score":0.39320001006126404},{"id":"https://openalex.org/keywords/deep-learning","display_name":"Deep learning","score":0.3725999891757965}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.7803000211715698},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6898000240325928},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6687999963760376},{"id":"https://openalex.org/C150899416","wikidata":"https://www.wikidata.org/wiki/Q1820378","display_name":"Transfer of learning","level":2,"score":0.5485000014305115},{"id":"https://openalex.org/C2779343474","wikidata":"https://www.wikidata.org/wiki/Q3109175","display_name":"Context (archaeology)","level":2,"score":0.5467000007629395},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.5321999788284302},{"id":"https://openalex.org/C94124525","wikidata":"https://www.wikidata.org/wiki/Q912550","display_name":"Categorization","level":2,"score":0.4415000081062317},{"id":"https://openalex.org/C2778869765","wikidata":"https://www.wikidata.org/wiki/Q6028363","display_name":"Inefficiency","level":2,"score":0.44110000133514404},{"id":"https://openalex.org/C36503486","wikidata":"https://www.wikidata.org/wiki/Q11235244","display_name":"Domain (mathematical analysis)","level":2,"score":0.42989999055862427},{"id":"https://openalex.org/C2778775528","wikidata":"https://www.wikidata.org/wiki/Q5135432","display_name":"Closing (real estate)","level":2,"score":0.39320001006126404},{"id":"https://openalex.org/C108583219","wikidata":"https://www.wikidata.org/wiki/Q197536","display_name":"Deep learning","level":2,"score":0.3725999891757965},{"id":"https://openalex.org/C133462117","wikidata":"https://www.wikidata.org/wiki/Q4929239","display_name":"Data collection","level":2,"score":0.36320000886917114},{"id":"https://openalex.org/C2522767166","wikidata":"https://www.wikidata.org/wiki/Q2374463","display_name":"Data science","level":1,"score":0.33869999647140503},{"id":"https://openalex.org/C28719098","wikidata":"https://www.wikidata.org/wiki/Q44946","display_name":"Point (geometry)","level":2,"score":0.33489999175071716},{"id":"https://openalex.org/C34413123","wikidata":"https://www.wikidata.org/wiki/Q170978","display_name":"Robotics","level":3,"score":0.329800009727478},{"id":"https://openalex.org/C112972136","wikidata":"https://www.wikidata.org/wiki/Q7595718","display_name":"Stability (learning theory)","level":2,"score":0.3190999925136566},{"id":"https://openalex.org/C2776372474","wikidata":"https://www.wikidata.org/wiki/Q508291","display_name":"Simplicity","level":2,"score":0.3066999912261963},{"id":"https://openalex.org/C198531522","wikidata":"https://www.wikidata.org/wiki/Q485146","display_name":"Sample (material)","level":2,"score":0.30489999055862427},{"id":"https://openalex.org/C126388530","wikidata":"https://www.wikidata.org/wiki/Q1131737","display_name":"Imitation","level":2,"score":0.3003999888896942},{"id":"https://openalex.org/C2780428219","wikidata":"https://www.wikidata.org/wiki/Q16952335","display_name":"Cover (algebra)","level":2,"score":0.27889999747276306},{"id":"https://openalex.org/C2776960227","wikidata":"https://www.wikidata.org/wiki/Q2586354","display_name":"Knowledge transfer","level":2,"score":0.27799999713897705}],"mesh":[],"locations_count":2,"locations":[{"id":"doi:10.1109/ssci47803.2020.9308468","is_oa":false,"landing_page_url":"https://doi.org/10.1109/ssci47803.2020.9308468","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2020 IEEE Symposium Series on Computational Intelligence (SSCI)","raw_type":"proceedings-article"},{"id":"pmh:oai:arXiv.org:2009.13303","is_oa":true,"landing_page_url":"http://arxiv.org/abs/2009.13303","pdf_url":"https://arxiv.org/pdf/2009.13303","source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"text"}],"best_oa_location":{"id":"pmh:oai:arXiv.org:2009.13303","is_oa":true,"landing_page_url":"http://arxiv.org/abs/2009.13303","pdf_url":"https://arxiv.org/pdf/2009.13303","source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"text"},"sustainable_development_goals":[],"awards":[],"funders":[{"id":"https://openalex.org/F4320321108","display_name":"Academy of Finland","ror":"https://ror.org/05k73zm37"}],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":47,"referenced_works":["https://openalex.org/W1845972764","https://openalex.org/W1977655452","https://openalex.org/W2100235553","https://openalex.org/W2105078254","https://openalex.org/W2146468668","https://openalex.org/W2158782408","https://openalex.org/W2167340365","https://openalex.org/W2214409633","https://openalex.org/W2465948386","https://openalex.org/W2584009249","https://openalex.org/W2605102758","https://openalex.org/W2615547864","https://openalex.org/W2786808285","https://openalex.org/W2895439318","https://openalex.org/W2895478303","https://openalex.org/W2908261578","https://openalex.org/W2962700793","https://openalex.org/W2962887844","https://openalex.org/W2962899390","https://openalex.org/W2963201472","https://openalex.org/W2963390419","https://openalex.org/W2966735560","https://openalex.org/W2969408081","https://openalex.org/W2981011740","https://openalex.org/W2981540341","https://openalex.org/W2990747716","https://openalex.org/W3004712215","https://openalex.org/W3009584224","https://openalex.org/W3013699912","https://openalex.org/W3041133507","https://openalex.org/W3042729974","https://openalex.org/W3081765306","https://openalex.org/W3091760204","https://openalex.org/W3098752252","https://openalex.org/W3100789280","https://openalex.org/W6637618735","https://openalex.org/W6638018090","https://openalex.org/W6640174482","https://openalex.org/W6683633756","https://openalex.org/W6684338915","https://openalex.org/W6692846177","https://openalex.org/W6725448924","https://openalex.org/W6728925229","https://openalex.org/W6746282794","https://openalex.org/W6749146968","https://openalex.org/W6780774053","https://openalex.org/W6782494112"],"related_works":[],"abstract_inverted_index":{"Deep":[0],"reinforcement":[1,152],"learning":[2,153],"has":[3],"recently":[4],"seen":[5,105],"huge":[6],"success":[7],"across":[8],"multiple":[9,109],"areas":[10],"in":[11,45,150],"the":[12,17,27,38,61,64,70,73,76,106,121,135,144,156,162,178,185,192,198,204],"robotics":[13],"domain.":[14],"Owing":[15],"to":[16,112,120,203],"limitations":[18],"of":[19,29,72,108,123,126,177,197],"gathering":[20],"real-world":[21],"data,":[22],"i.e.,":[23],"sample":[24],"inefficiency":[25],"and":[26,66,96,131,154,171,183,195,201],"cost":[28],"collecting":[30],"it,":[31],"simulation":[32],"environments":[33],"are":[34,78,86],"utilized":[35,160],"for":[36],"training":[37],"different":[39,113,136,199],"agents.":[40],"This":[41],"not":[42],"only":[43],"aids":[44],"providing":[46],"a":[47,118,127],"potentially":[48],"infinite":[49],"data":[50],"source,":[51],"but":[52,115],"also":[53],"alleviates":[54],"safety":[55],"concerns":[56],"with":[57],"real":[58,67,81],"robots.":[59,82],"Nonetheless,":[60],"gap":[62,95],"between":[63],"simulated":[65],"worlds":[68],"degrades":[69],"performance":[71],"policies":[74],"once":[75],"models":[77],"transferred":[79],"into":[80,133],"Multiple":[83],"research":[84],"efforts":[85],"therefore":[87],"now":[88],"being":[89,159],"directed":[90],"towards":[91],"closing":[92],"this":[93,139],"sim-toreal":[94],"accomplish":[97],"more":[98],"efficient":[99],"policy":[100],"transfer.":[101],"Recent":[102],"years":[103],"have":[104],"emergence":[107],"methods":[110,158],"applicable":[111],"domains,":[114],"there":[116],"is":[117],"lack,":[119],"best":[122],"our":[124],"knowledge,":[125],"comprehensive":[128],"review":[129],"summarizing":[130],"putting":[132],"context":[134],"methods.":[137],"In":[138],"survey":[140],"paper,":[141],"we":[142,190],"cover":[143],"fundamental":[145],"background":[146],"behind":[147],"sim-to-real":[148],"transfer":[149],"deep":[151],"overview":[155],"main":[157,186,193],"at":[161],"moment:":[163],"domain":[164,166],"randomization,":[165],"adaptation,":[167],"imitation":[168],"learning,":[169],"meta-learning":[170],"knowledge":[172],"distillation.":[173],"We":[174],"categorize":[175],"some":[176],"most":[179,205],"relevant":[180],"recent":[181],"works,":[182],"outline":[184],"application":[187],"scenarios.":[188],"Finally,":[189],"discuss":[191],"opportunities":[194],"challenges":[196],"approaches":[200],"point":[202],"promising":[206],"directions.":[207]},"counts_by_year":[{"year":2026,"cited_by_count":58},{"year":2025,"cited_by_count":193},{"year":2024,"cited_by_count":172},{"year":2023,"cited_by_count":129},{"year":2022,"cited_by_count":108},{"year":2021,"cited_by_count":16}],"updated_date":"2026-06-13T07:54:00.901334","created_date":"2020-10-01T00:00:00"}