{"id":"https://openalex.org/W2075471234","doi":"https://doi.org/10.1109/devlrn.2013.6652568","title":"Transfer learning for direct policy search: A reward shaping approach","display_name":"Transfer learning for direct policy search: A reward shaping approach","publication_year":2013,"publication_date":"2013-08-01","ids":{"openalex":"https://openalex.org/W2075471234","doi":"https://doi.org/10.1109/devlrn.2013.6652568","mag":"2075471234"},"language":"en","primary_location":{"id":"doi:10.1109/devlrn.2013.6652568","is_oa":false,"landing_page_url":"https://doi.org/10.1109/devlrn.2013.6652568","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2013 IEEE Third Joint International Conference on Development and Learning and Epigenetic Robotics (ICDL)","raw_type":"proceedings-article"},"type":"preprint","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5003629424","display_name":"St\u00e9phane Doncieux","orcid":"https://orcid.org/0000-0003-1541-054X"},"institutions":[{"id":"https://openalex.org/I1294671590","display_name":"Centre National de la Recherche Scientifique","ror":"https://ror.org/02feahw73","country_code":"FR","type":"government","lineage":["https://openalex.org/I1294671590"]},{"id":"https://openalex.org/I39804081","display_name":"Sorbonne Universit\u00e9","ror":"https://ror.org/02en5vm52","country_code":"FR","type":"education","lineage":["https://openalex.org/I39804081"]},{"id":"https://openalex.org/I4210150358","display_name":"Institut Syst\u00e8mes Intelligents et de Robotique","ror":"https://ror.org/05neq8668","country_code":"FR","type":"facility","lineage":["https://openalex.org/I1294671590","https://openalex.org/I1294671590","https://openalex.org/I154526488","https://openalex.org/I39804081","https://openalex.org/I4210150358","https://openalex.org/I4210159245"]}],"countries":["FR"],"is_corresponding":true,"raw_author_name":"Stephane Doncieux","raw_affiliation_strings":["ISIR, CNRS UMR, Paris, France","ISIR, Univ. Pierre et Marie Curie - Paris 6, Paris, France"],"affiliations":[{"raw_affiliation_string":"ISIR, CNRS UMR, Paris, France","institution_ids":["https://openalex.org/I4210150358","https://openalex.org/I1294671590"]},{"raw_affiliation_string":"ISIR, Univ. Pierre et Marie Curie - Paris 6, Paris, France","institution_ids":["https://openalex.org/I4210150358","https://openalex.org/I39804081"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":1,"corresponding_author_ids":["https://openalex.org/A5003629424"],"corresponding_institution_ids":["https://openalex.org/I1294671590","https://openalex.org/I39804081","https://openalex.org/I4210150358"],"apc_list":null,"apc_paid":null,"fwci":3.30066502,"has_fulltext":false,"cited_by_count":9,"citation_normalized_percentile":{"value":0.9347166,"is_in_top_1_percent":false,"is_in_top_10_percent":true},"cited_by_percentile_year":{"min":89,"max":98},"biblio":{"volume":null,"issue":null,"first_page":"1","last_page":"6"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9998999834060669,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9998999834060669,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11307","display_name":"Domain Adaptation and Few-Shot Learning","score":0.9997000098228455,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10653","display_name":"Robot Manipulation and Learning","score":0.9919000267982483,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.7094739675521851},{"id":"https://openalex.org/keywords/exploit","display_name":"Exploit","score":0.7021374702453613},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.578346312046051},{"id":"https://openalex.org/keywords/multi-task-learning","display_name":"Multi-task learning","score":0.5695019364356995},{"id":"https://openalex.org/keywords/task","display_name":"Task (project management)","score":0.5536436438560486},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.5412006974220276},{"id":"https://openalex.org/keywords/a-priori-and-a-posteriori","display_name":"A priori and a posteriori","score":0.5388057231903076},{"id":"https://openalex.org/keywords/multi-armed-bandit","display_name":"Multi-armed bandit","score":0.46062320470809937},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.44597744941711426},{"id":"https://openalex.org/keywords/knowledge-base","display_name":"Knowledge base","score":0.4221354126930237},{"id":"https://openalex.org/keywords/population","display_name":"Population","score":0.41518688201904297},{"id":"https://openalex.org/keywords/engineering","display_name":"Engineering","score":0.14480623602867126}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7094739675521851},{"id":"https://openalex.org/C165696696","wikidata":"https://www.wikidata.org/wiki/Q11287","display_name":"Exploit","level":2,"score":0.7021374702453613},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.578346312046051},{"id":"https://openalex.org/C28006648","wikidata":"https://www.wikidata.org/wiki/Q6934509","display_name":"Multi-task learning","level":3,"score":0.5695019364356995},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.5536436438560486},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.5412006974220276},{"id":"https://openalex.org/C75553542","wikidata":"https://www.wikidata.org/wiki/Q178161","display_name":"A priori and a posteriori","level":2,"score":0.5388057231903076},{"id":"https://openalex.org/C123197309","wikidata":"https://www.wikidata.org/wiki/Q2882343","display_name":"Multi-armed bandit","level":3,"score":0.46062320470809937},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.44597744941711426},{"id":"https://openalex.org/C4554734","wikidata":"https://www.wikidata.org/wiki/Q593744","display_name":"Knowledge base","level":2,"score":0.4221354126930237},{"id":"https://openalex.org/C2908647359","wikidata":"https://www.wikidata.org/wiki/Q2625603","display_name":"Population","level":2,"score":0.41518688201904297},{"id":"https://openalex.org/C127413603","wikidata":"https://www.wikidata.org/wiki/Q11023","display_name":"Engineering","level":0,"score":0.14480623602867126},{"id":"https://openalex.org/C144024400","wikidata":"https://www.wikidata.org/wiki/Q21201","display_name":"Sociology","level":0,"score":0.0},{"id":"https://openalex.org/C201995342","wikidata":"https://www.wikidata.org/wiki/Q682496","display_name":"Systems engineering","level":1,"score":0.0},{"id":"https://openalex.org/C50817715","wikidata":"https://www.wikidata.org/wiki/Q79895177","display_name":"Regret","level":2,"score":0.0},{"id":"https://openalex.org/C111472728","wikidata":"https://www.wikidata.org/wiki/Q9471","display_name":"Epistemology","level":1,"score":0.0},{"id":"https://openalex.org/C38652104","wikidata":"https://www.wikidata.org/wiki/Q3510521","display_name":"Computer security","level":1,"score":0.0},{"id":"https://openalex.org/C149923435","wikidata":"https://www.wikidata.org/wiki/Q37732","display_name":"Demography","level":1,"score":0.0},{"id":"https://openalex.org/C138885662","wikidata":"https://www.wikidata.org/wiki/Q5891","display_name":"Philosophy","level":0,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/devlrn.2013.6652568","is_oa":false,"landing_page_url":"https://doi.org/10.1109/devlrn.2013.6652568","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2013 IEEE Third Joint International Conference on Development and Learning and Epigenetic Robotics (ICDL)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[{"id":"https://openalex.org/F4320320883","display_name":"Agence Nationale de la Recherche","ror":"https://ror.org/00rbzpz17"}],"has_content":{"pdf":false,"grobid_xml":false},"content_urls":null,"referenced_works_count":24,"referenced_works":["https://openalex.org/W1499408472","https://openalex.org/W1543837481","https://openalex.org/W1627400044","https://openalex.org/W1965654221","https://openalex.org/W1981303711","https://openalex.org/W1991564165","https://openalex.org/W2020180319","https://openalex.org/W2026723619","https://openalex.org/W2031727428","https://openalex.org/W2079247031","https://openalex.org/W2097381042","https://openalex.org/W2104569262","https://openalex.org/W2126105956","https://openalex.org/W2128905965","https://openalex.org/W2143147813","https://openalex.org/W2155921792","https://openalex.org/W2165698076","https://openalex.org/W2167159964","https://openalex.org/W2198041288","https://openalex.org/W6636759986","https://openalex.org/W6674600207","https://openalex.org/W6679426499","https://openalex.org/W6684212943","https://openalex.org/W6837117956"],"related_works":["https://openalex.org/W4388311650","https://openalex.org/W4362501864","https://openalex.org/W1974056099","https://openalex.org/W4306904969","https://openalex.org/W4380318855","https://openalex.org/W4245343541","https://openalex.org/W2386077341","https://openalex.org/W563589758","https://openalex.org/W4383815550","https://openalex.org/W4312090078"],"abstract_inverted_index":{"In":[0],"the":[1,19,39,49,79,109,116,121,135,143,147,165,176,188,192,202,206,213,216],"perspective":[2],"of":[3,51,82],"life":[4],"long":[5],"learning,":[6],"a":[7,23,63,70,124,153,157,167,172,199,226],"robot":[8],"may":[9,27],"face":[10],"different,":[11],"but":[12],"related":[13],"situations.":[14],"Being":[15],"able":[16],"to":[17,32,75,78,142,185,198,211],"exploit":[18],"knowledge":[20,125,130,148,177],"acquired":[21],"during":[22,115],"first":[24],"learning":[25,41,119],"phase":[26],"be":[28,76,91],"critical":[29],"in":[30,48,201,223],"order":[31],"solve":[33],"more":[34],"complex":[35],"tasks.":[36,233],"This":[37,43],"is":[38,45,67,127,150,169,184,208,221],"transfer":[40],"problem.":[42],"problem":[44],"addressed":[46],"here":[47],"case":[50],"direct":[52,100],"policy":[53,66,101,168,207],"search":[54,102],"algorithms.":[55,106],"No":[56],"discrete":[57],"states,":[58],"nor":[59],"actions":[60],"are":[61,113],"defined":[62],"priori.":[64],"A":[65],"described":[68],"by":[69],"controller":[71],"that":[72,112,195],"computes":[73],"orders":[74],"sent":[77],"motors":[80],"out":[81],"sensor":[83,88],"values.":[84],"Both":[85],"motor":[86],"and":[87,229],"values":[89],"can":[90],"continuous.":[92],"The":[93,129,179,219],"proposed":[94],"approach":[95,183,220,228],"relies":[96],"on":[97,120,152,164,215,230],"population":[98],"based":[99],"algorithms,":[103],"i.e.":[104,191],"evolutionary":[105],"It":[107],"exploits":[108],"numerous":[110],"behaviors":[111,138],"generated":[114],"search.":[117],"When":[118],"source":[122,203],"task,":[123,155,166],"base":[126,131,149],"built.":[128],"aims":[132],"at":[133],"identifying":[134],"most":[136],"salient":[137],"segments":[139,194],"with":[140,156,171,225],"regards":[141],"considered":[144],"task.":[145,218],"Afterwards,":[146],"exploited":[151],"target":[154,217],"reward":[158,163,173,200,214],"shaping":[159],"approach:":[160],"besides":[161],"its":[162],"credited":[170],"computed":[174],"from":[175],"base.":[178],"rationale":[180],"behind":[181],"this":[182],"automatically":[186],"detect":[187],"stepping":[189],"stones,":[190],"behavior":[193],"have":[196],"lead":[197],"task":[204],"before":[205],"efficient":[209],"enough":[210],"get":[212],"tested":[222],"simulation":[224],"neuroevolution":[227],"ball":[231],"collecting":[232]},"counts_by_year":[{"year":2022,"cited_by_count":1},{"year":2017,"cited_by_count":1},{"year":2016,"cited_by_count":1},{"year":2015,"cited_by_count":2},{"year":2014,"cited_by_count":4}],"updated_date":"2026-02-13T15:27:49.765798","created_date":"2025-10-10T00:00:00"}