{"id":"https://openalex.org/W1967683841","doi":"https://doi.org/10.1109/icra.2014.6907337","title":"Bayesian exploration and interactive demonstration in continuous state MAXQ-learning","display_name":"Bayesian exploration and interactive demonstration in continuous state MAXQ-learning","publication_year":2014,"publication_date":"2014-05-01","ids":{"openalex":"https://openalex.org/W1967683841","doi":"https://doi.org/10.1109/icra.2014.6907337","mag":"1967683841"},"language":"en","primary_location":{"id":"doi:10.1109/icra.2014.6907337","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icra.2014.6907337","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2014 IEEE International Conference on Robotics and Automation (ICRA)","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":false,"oa_status":"closed","oa_url":null,"any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5010320027","display_name":"Kathrin Gr\u00e4ve","orcid":null},"institutions":[{"id":"https://openalex.org/I135140700","display_name":"University of Bonn","ror":"https://ror.org/041nas322","country_code":"DE","type":"education","lineage":["https://openalex.org/I135140700"]}],"countries":["DE"],"is_corresponding":true,"raw_author_name":"Kathrin Grave","raw_affiliation_strings":["Department of Computer Science, University of Bonn, Germany","Autonomous Intelligent Systems group, Department of Computer Science, University of Bonn, Germany"],"affiliations":[{"raw_affiliation_string":"Department of Computer Science, University of Bonn, Germany","institution_ids":["https://openalex.org/I135140700"]},{"raw_affiliation_string":"Autonomous Intelligent Systems group, Department of Computer Science, University of Bonn, Germany","institution_ids":["https://openalex.org/I135140700"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5027761977","display_name":"Sven Behnke","orcid":"https://orcid.org/0000-0002-5040-7525"},"institutions":[{"id":"https://openalex.org/I135140700","display_name":"University of Bonn","ror":"https://ror.org/041nas322","country_code":"DE","type":"education","lineage":["https://openalex.org/I135140700"]}],"countries":["DE"],"is_corresponding":false,"raw_author_name":"Sven Behnke","raw_affiliation_strings":["Department of Computer Science, University of Bonn, Germany","Autonomous Intelligent Systems group, Department of Computer Science, University of Bonn, Germany"],"affiliations":[{"raw_affiliation_string":"Department of Computer Science, University of Bonn, Germany","institution_ids":["https://openalex.org/I135140700"]},{"raw_affiliation_string":"Autonomous Intelligent Systems group, Department of Computer Science, University of Bonn, Germany","institution_ids":["https://openalex.org/I135140700"]}]}],"institutions":[],"countries_distinct_count":1,"institutions_distinct_count":2,"corresponding_author_ids":["https://openalex.org/A5010320027"],"corresponding_institution_ids":["https://openalex.org/I135140700"],"apc_list":null,"apc_paid":null,"fwci":2.4541,"has_fulltext":false,"cited_by_count":7,"citation_normalized_percentile":{"value":0.90273617,"is_in_top_1_percent":false,"is_in_top_10_percent":true},"cited_by_percentile_year":{"min":90,"max":97},"biblio":{"volume":"3","issue":null,"first_page":"3323","last_page":"3330"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T12814","display_name":"Gaussian Processes and Bayesian Inference","score":0.9945999979972839,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T12814","display_name":"Gaussian Processes and Bayesian Inference","score":0.9945999979972839,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10876","display_name":"Fault Detection and Control Systems","score":0.9876999855041504,"subfield":{"id":"https://openalex.org/subfields/2207","display_name":"Control and Systems Engineering"},"field":{"id":"https://openalex.org/fields/22","display_name":"Engineering"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9832000136375427,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.8688191771507263},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.647952675819397},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.5851513743400574},{"id":"https://openalex.org/keywords/probabilistic-logic","display_name":"Probabilistic logic","score":0.5804646611213684},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.5307797193527222},{"id":"https://openalex.org/keywords/incremental-learning","display_name":"Incremental learning","score":0.49657660722732544},{"id":"https://openalex.org/keywords/hierarchy","display_name":"Hierarchy","score":0.4551413655281067},{"id":"https://openalex.org/keywords/gaussian-process","display_name":"Gaussian process","score":0.4412412643432617},{"id":"https://openalex.org/keywords/robot","display_name":"Robot","score":0.4412313997745514},{"id":"https://openalex.org/keywords/gaussian","display_name":"Gaussian","score":0.27455323934555054}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.8688191771507263},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.647952675819397},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.5851513743400574},{"id":"https://openalex.org/C49937458","wikidata":"https://www.wikidata.org/wiki/Q2599292","display_name":"Probabilistic logic","level":2,"score":0.5804646611213684},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.5307797193527222},{"id":"https://openalex.org/C2780735816","wikidata":"https://www.wikidata.org/wiki/Q28324931","display_name":"Incremental learning","level":2,"score":0.49657660722732544},{"id":"https://openalex.org/C31170391","wikidata":"https://www.wikidata.org/wiki/Q188619","display_name":"Hierarchy","level":2,"score":0.4551413655281067},{"id":"https://openalex.org/C61326573","wikidata":"https://www.wikidata.org/wiki/Q1496376","display_name":"Gaussian process","level":3,"score":0.4412412643432617},{"id":"https://openalex.org/C90509273","wikidata":"https://www.wikidata.org/wiki/Q11012","display_name":"Robot","level":2,"score":0.4412313997745514},{"id":"https://openalex.org/C163716315","wikidata":"https://www.wikidata.org/wiki/Q901177","display_name":"Gaussian","level":2,"score":0.27455323934555054},{"id":"https://openalex.org/C121332964","wikidata":"https://www.wikidata.org/wiki/Q413","display_name":"Physics","level":0,"score":0.0},{"id":"https://openalex.org/C34447519","wikidata":"https://www.wikidata.org/wiki/Q179522","display_name":"Market economy","level":1,"score":0.0},{"id":"https://openalex.org/C62520636","wikidata":"https://www.wikidata.org/wiki/Q944","display_name":"Quantum mechanics","level":1,"score":0.0},{"id":"https://openalex.org/C162324750","wikidata":"https://www.wikidata.org/wiki/Q8134","display_name":"Economics","level":0,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1109/icra.2014.6907337","is_oa":false,"landing_page_url":"https://doi.org/10.1109/icra.2014.6907337","pdf_url":null,"source":null,"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"2014 IEEE International Conference on Robotics and Automation (ICRA)","raw_type":"proceedings-article"}],"best_oa_location":null,"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":30,"referenced_works":["https://openalex.org/W32403112","https://openalex.org/W1499669280","https://openalex.org/W1547105496","https://openalex.org/W1746819321","https://openalex.org/W1862757251","https://openalex.org/W1899715700","https://openalex.org/W1925816294","https://openalex.org/W1963873191","https://openalex.org/W1977655452","https://openalex.org/W1986014385","https://openalex.org/W2008662704","https://openalex.org/W2071444114","https://openalex.org/W2088038240","https://openalex.org/W2121517924","https://openalex.org/W2134146570","https://openalex.org/W2135723988","https://openalex.org/W2143042284","https://openalex.org/W2151238122","https://openalex.org/W2161966552","https://openalex.org/W2167340365","https://openalex.org/W3005581722","https://openalex.org/W4211049957","https://openalex.org/W4211089519","https://openalex.org/W4253921394","https://openalex.org/W4285719527","https://openalex.org/W6639694594","https://openalex.org/W6640290305","https://openalex.org/W6644813291","https://openalex.org/W6680589169","https://openalex.org/W6683603353"],"related_works":["https://openalex.org/W2365264209","https://openalex.org/W4306904969","https://openalex.org/W2509431957","https://openalex.org/W2138720691","https://openalex.org/W4362501864","https://openalex.org/W4380318855","https://openalex.org/W2031695474","https://openalex.org/W2026999166","https://openalex.org/W2024136090","https://openalex.org/W2976657239"],"abstract_inverted_index":{"Deploying":[0],"robots":[1],"for":[2,28,43,56,70,141,156],"service":[3],"tasks":[4,172],"requires":[5],"learning":[6,30,46,125],"algorithms":[7],"that":[8,101],"scale":[9],"to":[10,47,118,151,166,170],"the":[11,20,40,74,89,137,160,163],"combinatorial":[12],"complexity":[13],"of":[14,65,84,92,104,162],"our":[15],"daily":[16],"environment.":[17],"Inspired":[18],"by":[19],"way":[21],"humans":[22],"decompose":[23],"complex":[24,171],"tasks,":[25],"hierarchical":[26,44],"methods":[27],"robot":[29],"have":[31],"attracted":[32],"significant":[33],"interest.":[34],"In":[35,132],"this":[36],"paper,":[37],"we":[38,61,79,95,121],"apply":[39],"MAXQ":[41,57,75,123],"method":[42],"reinforcement":[45],"continuous":[48],"state":[49],"spaces.":[50],"By":[51],"using":[52],"Gaussian":[53],"Process":[54],"Regression":[55],"value":[58],"function":[59],"decomposition,":[60],"obtain":[62],"probabilistic":[63,82],"estimates":[64,83],"primitive":[66],"and":[67,107,117,135],"completion":[68],"values":[69,106],"every":[71,133],"subtask":[72],"within":[73],"hierarchy.":[76],"From":[77],"these,":[78],"recursively":[80],"compute":[81],"state-action":[85],"values.":[86],"Based":[87],"on":[88,173],"expected":[90,105],"deviation":[91],"these":[93],"estimates,":[94],"devise":[96],"a":[97,142,153,174],"Bayesian":[98],"exploration":[99],"strategy":[100],"balances":[102],"optimization":[103],"risk":[108,116],"from":[109,126],"exploring":[110],"unknown":[111],"actions.":[112],"To":[113],"further":[114],"reduce":[115],"accelerate":[119],"learning,":[120],"complement":[122],"with":[124],"demonstrations":[127],"in":[128],"an":[129],"interactive":[130],"way.":[131],"situation":[134],"subtask,":[136],"system":[138,165],"may":[139],"ask":[140],"demonstration":[143],"if":[144],"there":[145],"is":[146],"not":[147],"enough":[148],"knowledge":[149],"available":[150],"determine":[152],"safe":[154],"action":[155],"exploration.":[157],"We":[158],"demonstrate":[159],"ability":[161],"proposed":[164],"efficiently":[167],"learn":[168],"solutions":[169],"box":[175],"stacking":[176],"scenario.":[177]},"counts_by_year":[{"year":2018,"cited_by_count":1},{"year":2017,"cited_by_count":2},{"year":2016,"cited_by_count":3},{"year":2015,"cited_by_count":1}],"updated_date":"2025-11-06T03:46:38.306776","created_date":"2025-10-10T00:00:00"}