{"id":"https://openalex.org/W2795786572","doi":"https://doi.org/10.1109/devlrn.2017.8329809","title":"Agent-advising approaches in an interactive reinforcement learning scenario","display_name":"Agent-advising approaches in an interactive reinforcement learning scenario","publication_year":2017,"publication_date":"2017-09-01","ids":{"openalex":"https://openalex.org/W2795786572","doi":"https://doi.org/10.1109/devlrn.2017.8329809","mag":"2795786572"},"language":"en","primary_location":{"id":"doi:10.1109/devlrn.2017.8329809","is_oa":false,"landing_page_url":"https://doi.org/10.1109/devlrn.2017.8329809","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2017 Joint IEEE International Conference on Development and Learning and Epigenetic Robotics (ICDL-EpiRob)","raw_type":"proceedings-article"},"type":"conference-paper","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5044098673","display_name":"Francisco Cruz","orcid":"https://orcid.org/0000-0002-1131-3382"},"institutions":[{"id":"https://openalex.org/I4210156023","display_name":"Universidad Central de Chile","ror":"https://ror.org/0577avk88","country_code":"CL","type":"education","lineage":["https://openalex.org/I4210156023"]},{"id":"https://openalex.org/I884043246","display_name":"Hamburg University of Technology","ror":"https://ror.org/04bs1pb34","country_code":"DE","type":"education","lineage":["https://openalex.org/I884043246"]}],"countries":["CL","DE"],"is_corresponding":false,"raw_author_name":"Francisco Cruz","raw_affiliation_strings":["Escuela de Computaci\u00f3n e Inform\u00e1tica, Universidad Central de Chile","Knowledge Technology, Universit\u00e4t Hamburg"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Escuela de Computaci\u00f3n e Inform\u00e1tica, Universidad Central de Chile","institution_ids":["https://openalex.org/I4210156023"]},{"raw_affiliation_string":"Knowledge Technology, Universit\u00e4t Hamburg","institution_ids":["https://openalex.org/I884043246"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5056339586","display_name":"Peter Wuppen","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Peter Wuppen","raw_affiliation_strings":["Universitat Hamburg, Hamburg, Hamburg, DE"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Universitat Hamburg, Hamburg, Hamburg, DE","institution_ids":[]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5015567592","display_name":"Sven Magg","orcid":"https://orcid.org/0000-0002-0589-6585"},"institutions":[{"id":"https://openalex.org/I884043246","display_name":"Hamburg University of Technology","ror":"https://ror.org/04bs1pb34","country_code":"DE","type":"education","lineage":["https://openalex.org/I884043246"]}],"countries":["DE"],"is_corresponding":false,"raw_author_name":"Sven Magg","raw_affiliation_strings":["Knowledge Technology, Universit\u00e4t Hamburg"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Knowledge Technology, Universit\u00e4t Hamburg","institution_ids":["https://openalex.org/I884043246"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5038072449","display_name":"Alvin Fazrie","orcid":null},"institutions":[{"id":"https://openalex.org/I884043246","display_name":"Hamburg University of Technology","ror":"https://ror.org/04bs1pb34","country_code":"DE","type":"education","lineage":["https://openalex.org/I884043246"]}],"countries":["DE"],"is_corresponding":false,"raw_author_name":"Alvin Fazrie","raw_affiliation_strings":["Knowledge Technology, Universit\u00e4t Hamburg"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Knowledge Technology, Universit\u00e4t Hamburg","institution_ids":["https://openalex.org/I884043246"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5033486668","display_name":"Stefan Wermter","orcid":"https://orcid.org/0000-0003-1343-4775"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Stefan Wermter","raw_affiliation_strings":["Universitat Hamburg, Hamburg, Hamburg, DE"],"raw_orcid":null,"affiliations":[{"raw_affiliation_string":"Universitat Hamburg, Hamburg, Hamburg, DE","institution_ids":[]}]}],"institutions":[],"countries_distinct_count":2,"institutions_distinct_count":2,"corresponding_author_ids":[],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":20,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9768000245094299,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9768000245094299,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10042","display_name":"Neural and Behavioral Psychology Studies","score":0.9187999963760376,"subfield":{"id":"https://openalex.org/subfields/2805","display_name":"Cognitive Neuroscience"},"field":{"id":"https://openalex.org/fields/28","display_name":"Neuroscience"},"domain":{"id":"https://openalex.org/domains/1","display_name":"Life Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.9178966283798218},{"id":"https://openalex.org/keywords/mistake","display_name":"Mistake","score":0.9110875129699707},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.6923794150352478},{"id":"https://openalex.org/keywords/probabilistic-logic","display_name":"Probabilistic logic","score":0.6899836659431458},{"id":"https://openalex.org/keywords/task","display_name":"Task (project management)","score":0.6451207399368286},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.6318463683128357},{"id":"https://openalex.org/keywords/advice","display_name":"Advice (programming)","score":0.5403587818145752},{"id":"https://openalex.org/keywords/process","display_name":"Process (computing)","score":0.4895239770412445},{"id":"https://openalex.org/keywords/field","display_name":"Field (mathematics)","score":0.4583666920661926},{"id":"https://openalex.org/keywords/robotics","display_name":"Robotics","score":0.4469788670539856},{"id":"https://openalex.org/keywords/reinforcement","display_name":"Reinforcement","score":0.43427127599716187},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.42506280541419983},{"id":"https://openalex.org/keywords/human\u2013computer-interaction","display_name":"Human\u2013computer interaction","score":0.34747743606567383},{"id":"https://openalex.org/keywords/robot","display_name":"Robot","score":0.3208323121070862},{"id":"https://openalex.org/keywords/psychology","display_name":"Psychology","score":0.12869882583618164},{"id":"https://openalex.org/keywords/engineering","display_name":"Engineering","score":0.10279428958892822}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.9178966283798218},{"id":"https://openalex.org/C2777179996","wikidata":"https://www.wikidata.org/wiki/Q911222","display_name":"Mistake","level":2,"score":0.9110875129699707},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6923794150352478},{"id":"https://openalex.org/C49937458","wikidata":"https://www.wikidata.org/wiki/Q2599292","display_name":"Probabilistic logic","level":2,"score":0.6899836659431458},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.6451207399368286},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6318463683128357},{"id":"https://openalex.org/C2779955035","wikidata":"https://www.wikidata.org/wiki/Q4686785","display_name":"Advice (programming)","level":2,"score":0.5403587818145752},{"id":"https://openalex.org/C98045186","wikidata":"https://www.wikidata.org/wiki/Q205663","display_name":"Process (computing)","level":2,"score":0.4895239770412445},{"id":"https://openalex.org/C9652623","wikidata":"https://www.wikidata.org/wiki/Q190109","display_name":"Field (mathematics)","level":2,"score":0.4583666920661926},{"id":"https://openalex.org/C34413123","wikidata":"https://www.wikidata.org/wiki/Q170978","display_name":"Robotics","level":3,"score":0.4469788670539856},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.43427127599716187},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.42506280541419983},{"id":"https://openalex.org/C107457646","wikidata":"https://www.wikidata.org/wiki/Q207434","display_name":"Human\u2013computer interaction","level":1,"score":0.34747743606567383},{"id":"https://openalex.org/C90509273","wikidata":"https://www.wikidata.org/wiki/Q11012","display_name":"Robot","level":2,"score":0.3208323121070862},{"id":"https://openalex.org/C15744967","wikidata":"https://www.wikidata.org/wiki/Q9418","display_name":"Psychology","level":0,"score":0.12869882583618164},{"id":"https://openalex.org/C127413603","wikidata":"https://www.wikidata.org/wiki/Q11023","display_name":"Engineering","level":0,"score":0.10279428958892822},{"id":"https://openalex.org/C17744445","wikidata":"https://www.wikidata.org/wiki/Q36442","display_name":"Political science","level":0,"score":0.0},{"id":"https://openalex.org/C111919701","wikidata":"https://www.wikidata.org/wiki/Q9135","display_name":"Operating system","level":1,"score":0.0},{"id":"https://openalex.org/C202444582","wikidata":"https://www.wikidata.org/wiki/Q837863","display_name":"Pure mathematics","level":1,"score":0.0},{"id":"https://openalex.org/C199360897","wikidata":"https://www.wikidata.org/wiki/Q9143","display_name":"Programming language","level":1,"score":0.0},{"id":"https://openalex.org/C199539241","wikidata":"https://www.wikidata.org/wiki/Q7748","display_name":"Law","level":1,"score":0.0},{"id":"https://openalex.org/C77805123","wikidata":"https://www.wikidata.org/wiki/Q161272","display_name":"Social psychology","level":1,"score":0.0},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.0},{"id":"https://openalex.org/C201995342","wikidata":"https://www.wikidata.org/wiki/Q682496","display_name":"Systems engineering","level":1,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/devlrn.2017.8329809","is_oa":false,"landing_page_url":"https://doi.org/10.1109/devlrn.2017.8329809","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2017 Joint IEEE International Conference on Development and Learning and Epigenetic Robotics (ICDL-EpiRob)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[{"id":"https://metadata.un.org/sdg/8","display_name":"Decent work and economic growth","score":0.4000000059604645}],"awards":[],"funders":[{"id":"https://openalex.org/F4320320300","display_name":"European Commission","ror":"https://ror.org/00k4n6c32"},{"id":"https://openalex.org/F4320320879","display_name":"Deutsche Forschungsgemeinschaft","ror":"https://ror.org/018mejw64"},{"id":"https://openalex.org/F4320334812","display_name":"Comisi\u00f3n Nacional de Investigaci\u00f3n Cient\u00edfica y Tecnol\u00f3gica","ror":"https://ror.org/02ap3w078"}],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":15,"referenced_works":["https://openalex.org/W121023703","https://openalex.org/W1529399279","https://openalex.org/W1969685488","https://openalex.org/W1975550062","https://openalex.org/W1999549166","https://openalex.org/W2081030963","https://openalex.org/W2101786389","https://openalex.org/W2121863487","https://openalex.org/W2151074445","https://openalex.org/W2559960928","https://openalex.org/W2565110810","https://openalex.org/W2914656440","https://openalex.org/W4214717370","https://openalex.org/W6604963999","https://openalex.org/W6631533588"],"related_works":["https://openalex.org/W1590719878","https://openalex.org/W4244271513","https://openalex.org/W4376622330","https://openalex.org/W2365974527","https://openalex.org/W4306382224","https://openalex.org/W4226517682","https://openalex.org/W3108263396","https://openalex.org/W2895872277","https://openalex.org/W1561425952","https://openalex.org/W2496555895"],"abstract_inverted_index":{"Reinforcement":[0],"learning":[1,25,36,52,76],"has":[2],"become":[3],"one":[4],"of":[5,12,30,45,83],"the":[6,10,22,28,35,70,93,106],"fundamental":[7],"topics":[8],"in":[9],"field":[11],"robotics":[13],"and":[14,53,64,108,117],"machine":[15],"learning.":[16],"In":[17],"this":[18,39],"paper,":[19],"we":[20,41,68],"expand":[21],"classical":[23],"reinforcement":[24,51,75],"framework":[26],"by":[27],"idea":[29],"external":[31],"interaction":[32],"to":[33,113,119],"support":[34],"process.":[37],"To":[38],"end,":[40],"review":[42],"a":[43,79,84,98],"number":[44],"proposed":[46],"advising":[47,110],"approaches":[48,111],"for":[49,73],"interactive":[50,74],"discuss":[54],"their":[55],"implications,":[56],"namely,":[57],"probabilistic":[58,100],"advising,":[59,61,63],"early":[60,107],"importance":[62,109],"mistake":[65,94],"correcting.":[66],"Moreover,":[67],"implement":[69],"advice":[71,101],"strategies":[72],"based":[77],"on":[78],"simulated":[80],"robotic":[81],"scenario":[82],"domestic":[85],"cleaning":[86],"task.":[87],"The":[88],"obtained":[89],"results":[90],"show":[91],"that":[92],"correcting":[95],"approach":[96,102],"outperforms":[97],"purely":[99],"as":[103,105],"well":[104],"allowing":[112],"collect":[114],"more":[115],"reward":[116],"also":[118],"converge":[120],"faster.":[121]},"counts_by_year":[{"year":2025,"cited_by_count":2},{"year":2024,"cited_by_count":1},{"year":2022,"cited_by_count":5},{"year":2021,"cited_by_count":6},{"year":2020,"cited_by_count":6}],"updated_date":"2026-07-14T23:27:15.235271","created_date":"2025-10-10T00:00:00"}